Chatbot AI Sering Halusinasi, Ini Temuan Mengejutkan OpenAI
- Rita Puspita Sari
- •
- 14 Sep 2025 10.56 WIB
Ilustrasi ChatGPT
OpenAI baru saja merilis hasil penelitian yang mengungkap alasan di balik fenomena “halusinasi” pada chatbot Artificial Intelligence (AI) seperti ChatGPT. Istilah halusinasi dalam konteks AI merujuk pada jawaban atau informasi yang terdengar meyakinkan, tetapi sebenarnya salah atau tidak berdasar fakta. Fenomena ini sudah lama menjadi perdebatan di dunia teknologi karena dapat menimbulkan misinformasi dan menurunkan kepercayaan publik terhadap teknologi AI generatif.
Menurut OpenAI, halusinasi bukanlah sekadar kesalahan teknis atau bug dalam sistem, melainkan konsekuensi langsung dari cara model AI dilatih dan dievaluasi. Temuan ini menjadi sorotan penting karena mengubah cara pandang banyak orang terhadap kualitas dan keandalan chatbot AI yang semakin banyak digunakan dalam kehidupan sehari-hari.
Sistem Pelatihan yang Mendorong “Tebakan”
Dalam risetnya, OpenAI menekankan bahwa proses pelatihan model AI generatif saat ini justru mendorong model untuk menebak jawaban ketika tidak yakin. Alih-alih berkata jujur “tidak tahu”, AI lebih sering memilih untuk memberikan jawaban yang terdengar meyakinkan, meskipun bisa saja salah.
Para peneliti mengilustrasikan fenomena ini dengan analogi ujian pilihan ganda. Seorang siswa yang asal menebak bisa terlihat pintar jika kebetulan jawabannya benar, berbeda dengan siswa yang jujur menjawab “tidak tahu”. Sistem evaluasi AI saat ini bekerja dengan prinsip yang serupa: model yang menebak dengan yakin akan diberi “nilai” lebih tinggi meskipun jawabannya salah, sementara model yang jujur mengakui tidak tahu justru dianggap kurang baik.
Kondisi inilah yang akhirnya membentuk perilaku mayoritas model bahasa besar (Large Language Model/LLM), termasuk yang paling canggih sekalipun. Bahkan GPT-5 yang digadang-gadang lebih pintar, tetap bisa menyajikan informasi salah dengan keyakinan penuh.
Sulit Memprediksi Fakta
OpenAI juga menekankan bahwa halusinasi tidak semata-mata berkaitan dengan kapasitas pengetahuan AI. Model AI besar belajar dengan cara memprediksi kata berikutnya dari miliaran data teks. Metode ini efektif dalam memahami pola bahasa dan tata tulis, tetapi tidak selalu mampu menjamin kebenaran fakta.
Fakta-fakta tertentu, seperti peristiwa terkini atau detail tentang tokoh publik, sering kali berubah dan tidak selalu tercermin dalam data pelatihan. Akibatnya, AI terjebak dalam memberi jawaban yang terdengar logis tetapi sebenarnya tidak benar.
Dalam penelitian ini juga ditemukan bahwa model AI berukuran lebih kecil justru terkadang lebih mudah mengakui ketidaktahuan. Sebaliknya, model besar yang lebih kompleks lebih berisiko menyajikan informasi salah. Hal ini menunjukkan bahwa semakin besar kapasitas model, semakin kuat pula kecenderungan “mengarang dengan percaya diri”.
Evaluasi yang Perlu Dirombak
OpenAI menyarankan agar sistem evaluasi AI didesain ulang. Selama ini, ukuran utama keberhasilan model adalah akurasi. Namun, fokus berlebihan pada akurasi justru memunculkan perilaku “asal tebak dengan yakin”.
Menurut para peneliti, evaluasi harus diberi bobot yang berbeda. Jawaban salah yang terdengar meyakinkan seharusnya mendapatkan poin negatif, sementara pengakuan jujur seperti “saya tidak tahu” justru harus mendapat poin lebih tinggi. Dengan cara ini, model akan terdorong untuk lebih berhati-hati dalam memberikan jawaban, mirip dengan sistem ujian sekolah yang memberi nilai minus untuk jawaban salah agar siswa tidak asal menebak.
Risiko dan Dampak Bagi Pengguna
Fenomena halusinasi AI bukan hanya masalah teknis, tetapi juga membawa risiko besar bagi masyarakat. Jika digunakan dalam bidang medis, hukum, atau pendidikan, jawaban keliru dari chatbot AI dapat menyesatkan dan menimbulkan kerugian nyata.
Banyak pengguna awam tidak menyadari bahwa AI bisa “mengarang”. Mereka cenderung percaya begitu saja karena jawaban terdengar meyakinkan. Oleh sebab itu, temuan OpenAI ini menjadi peringatan agar publik tetap kritis saat menggunakan teknologi AI.
Harapan di Masa Depan
Penelitian ini membuka peluang besar bagi perbaikan AI di masa depan. Jika sistem evaluasi benar-benar diubah sesuai rekomendasi OpenAI, maka chatbot akan lebih sering berkata “tidak tahu” ketimbang menyajikan informasi keliru. Meski terdengar sederhana, perubahan ini dapat meningkatkan kepercayaan publik dan membuat AI lebih aman digunakan dalam berbagai sektor.
Langkah ini juga bisa menjadi dasar bagi pengembang AI lain untuk mengadopsi pendekatan serupa. Dengan begitu, fenomena halusinasi dapat diminimalisasi, dan teknologi AI bisa lebih bermanfaat tanpa mengorbankan kebenaran informasi.
Riset terbaru OpenAI menegaskan bahwa halusinasi pada chatbot AI bukanlah kesalahan sistem, melainkan akibat dari cara model dilatih dan dievaluasi. Selama sistem evaluasi lebih menghargai jawaban “meyakinkan” dibandingkan kejujuran, maka fenomena ini akan terus berulang. Perubahan mendasar dalam evaluasi menjadi kunci agar AI di masa depan lebih akurat, transparan, dan dapat dipercaya.
