Penelitian: ChatGPT Tak Siap untuk Dunia Medis

Abd. Rofik Budin
•
18 Agu 2024 08.35 WIB

Pada tahun 2022, ChatGPT, sebuah model AI dari OpenAI, berhasil melewati beberapa tes Ujian Perizinan Medis Amerika Serikat (USMLE) dalam sebuah penelitian. Hal ini menimbulkan pertanyaan, apakah AI ini bisa menjadi seorang dokter yang sebenarnya? Untuk menjawabnya, tim profesional medis dari Kanada melakukan pengujian lebih lanjut pada tahun 2024. Sayangnya, hasilnya menunjukkan bahwa ChatGPT masih jauh dari mampu berperan sebagai dokter yang sebenarnya.

Tim peneliti di bawah pimpinan Amrit Kirpalani, seorang pendidik medis di Western University, Ontario, Kanada, menggunakan bank soal dari Medscape untuk menguji kemampuan ChatGPT. Berbeda dengan USMLE yang sebagian besar berisi soal pilihan ganda, kasus Medscape lebih kompleks, melibatkan kondisi pasien dunia nyata lengkap dengan temuan pemeriksaan fisik, hasil tes laboratorium, dan sebagainya. Tim Kirpalani mengubah 150 kasus Medscape menjadi pertanyaan yang dapat dipahami oleh ChatGPT, meskipun mereka harus menghadapi tantangan teknis karena OpenAI melarang penggunaan ChatGPT untuk memberikan saran medis langsung.

Meskipun tim berhasil mengakali hambatan ini, hasil yang diperoleh menunjukkan bahwa ChatGPT salah dalam 76 dari 150 kasus. Hal ini menimbulkan kekhawatiran, mengingat ChatGPT seharusnya pandai dalam mendiagnosis. Namun, permasalahannya adalah ChatGPT, sebagai model bahasa umum, tidak dilatih secara khusus untuk memahami data medis yang rumit. Sebaliknya, AI medis khusus seperti Articulate Medical Intelligence Explorer (AMIE), yang juga diuji oleh Google pada awal 2024, menunjukkan kinerja luar biasa dalam mendiagnosis kasus medis yang kompleks. AI medis khusus ini dilatih dengan literatur medis yang luas dan kasus-kasus serupa, sehingga mampu mengenali pola dan nuansa dalam data medis dengan lebih baik dibandingkan dengan ChatGPT.

Kurangnya keahlian domain medis yang mendalam pada ChatGPT terlihat jelas ketika AI ini harus menafsirkan data laboratorium yang berada di luar kisaran normal. Sementara dokter manusia dapat melihat nilai laboratorium sebagai bagian dari gambaran yang lebih besar, ChatGPT cenderung kebingungan ketika dihadapkan dengan hasil tes yang sedikit saja berbeda dari norma.

Masalah lain yang lebih serius adalah kecenderungan AI, termasuk ChatGPT, untuk "menipu" penggunanya. Meskipun sering salah dalam mendiagnosis kasus Medscape, alasan yang diberikan oleh ChatGPT atas jawabannya sangat meyakinkan. Hal ini berbahaya karena model AI ini dapat menyederhanakan penjelasan yang kompleks dan membuatnya terdengar sangat meyakinkan, bahkan ketika salah. ChatGPT, seperti model bahasa besar lainnya, tidak memiliki pemahaman nyata tentang subjek yang dibahasnya. Alih-alih, ia hanya memprediksi kata berikutnya berdasarkan data yang dilatihnya, yang terkadang menghasilkan "halusinasi AI" atau respons yang tidak akurat namun terdengar meyakinkan.

Dalam penelitian yang dipimpin oleh Kirpalani, beberapa kasus menunjukkan bahwa ChatGPT bisa salah besar, namun dengan cara yang sangat meyakinkan. Hal ini menimbulkan kekhawatiran akan potensi penyebaran informasi yang salah, terutama jika penggunanya bukan ahli medis.

Kirpalani berpendapat bahwa kita masih jauh dari melihat AI yang dapat diandalkan sepenuhnya untuk diagnosis medis. Dia menyarankan bahwa AI, termasuk ChatGPT, lebih mungkin digunakan untuk melengkapi kerja dokter manusia daripada menggantikannya sepenuhnya. Di sisi lain, para dokter muda dan mahasiswa kedokteran sudah mulai memanfaatkan ChatGPT dalam pendidikan mereka, meskipun masih ada risiko AI ini menyesatkan mereka. Karena itu, Kirpalani sangat menyarankan agar masyarakat umum tidak menggunakan ChatGPT untuk nasihat medis tanpa memverifikasi dengan penyedia layanan kesehatan yang sebenarnya.

Dengan demikian, meskipun AI terus berkembang, peran dokter manusia masih sangat diperlukan, terutama dalam memastikan bahwa keputusan medis yang diambil adalah berdasarkan pengetahuan yang akurat dan relevan.