Pakar Ungkap Kelemahan AI Multimodal GPT-4o & Gemini 1.5 Pro

Rita Puspita Sari
•
17 Jul 2024 10.58 WIB

Penelitian terbaru dari Auburn University dan University of Alberta telah mengungkapkan kelemahan signifikan pada model AI multimodal terkini seperti GPT-4o dan Gemini 1.5 Pro. Model ini sebelumnya diklaim mampu memahami gambar dan audio secara efektif. Namun, dalam prakteknya, mereka masih kesulitan menangani tugas-tugas visual dasar.

"Model-model AI ini dipromosikan memiliki 'kemampuan visi' dan 'pemahaman visual', tetapi nyatanya mereka gagal dalam tugas-tugas yang bahkan mudah bagi anak-anak," kata Anh Nguyen, salah satu penulis studi penelitian tersebut.

Tes Visual Sederhana

Dalam tes visual sederhana, model AI ini menunjukkan performa yang tidak memuaskan. Misalnya, dalam tugas menentukan apakah dua bentuk tumpang tindih atau menghitung jumlah pentagon, hasilnya jauh dari harapan. Sebagai contoh, GPT-4o hanya berhasil 18 persen dalam menentukan tumpang tindih dua lingkaran saat jaraknya sangat kecil, sementara Gemini 1.5 Pro mencatat keberhasilan sebesar 70 persen.

Para peneliti berharap model AI tersebut mampu melakukan tugas-tugas sederhana dengan akurasi 100 persen. Namun, hasil penelitian menunjukkan bahwa model AI ini lebih bergantung pada pola data pelatihan daripada memahami visual secara nyata. Misalnya, model AI mudah mengenali lima lingkaran yang menyerupai logo Olimpiade, namun gagal ketika jumlah lingkaran ditambah.

"Kami menyimpulkan bahwa meskipun model AI multimodal dipasarkan dengan klaim kemampuan visual, mereka sebenarnya tidak memiliki pemahaman visual seperti manusia," tambah Nguyen, dikutip dari Tech Crunch.

Pemahaman Visual yang Terbatas

Model AI seperti GPT-4o dan Gemini 1.5 Pro mungkin bisa mengekstrak informasi visual secara abstrak, namun mereka belum mampu membuat penilaian visual yang akurat. Temuan ini penting untuk mengingatkan publik bahwa meskipun AI multimodal memiliki potensi besar, mereka masih memiliki keterbatasan dalam memahami visual secara mendalam.

Keberlanjutan Penelitian

Penelitian lebih lanjut diperlukan untuk mengembangkan AI yang benar-benar mampu memahami dunia visual seperti manusia. Para peneliti menyarankan pendekatan yang lebih canggih dalam melatih model AI agar dapat memahami visual dengan cara yang lebih manusiawi.

Dalam konteks ini, perusahaan teknologi perlu menyadari bahwa promosi berlebihan terhadap kemampuan AI tanpa pemahaman mendalam bisa menimbulkan ekspektasi yang tidak realistis. Untuk ke depannya, pengembangan model AI harus didasarkan pada peningkatan kemampuan pemahaman visual yang lebih realistis dan mendekati cara manusia memproses informasi visual.

Implikasi di Dunia Nyata

Kelemahan model AI dalam tugas-tugas visual dasar ini memiliki implikasi yang luas, terutama dalam aplikasi praktis di berbagai bidang. Misalnya, dalam bidang medis, kemampuan AI untuk menganalisis gambar medis dengan akurasi tinggi sangat penting. Kegagalan AI dalam memahami visual secara mendalam bisa berakibat fatal.

Begitu pula dalam industri otomotif, di mana teknologi AI digunakan untuk pengenalan objek dan navigasi otonom. Ketidakmampuan AI untuk menilai visual dengan akurat dapat berpotensi membahayakan keselamatan. Oleh karena itu, penting bagi para pengembang dan peneliti untuk terus meningkatkan dan menguji kemampuan visual AI sebelum diterapkan dalam situasi kehidupan nyata.

Meskipun temuan ini menunjukkan kelemahan signifikan, mereka juga memberikan arah yang jelas untuk penelitian dan pengembangan di masa depan. Dengan memahami batasan-batasan ini, peneliti dan pengembang dapat fokus pada metode baru yang memungkinkan AI untuk memahami dan menilai visual dengan cara yang lebih mirip dengan manusia.

Hasil penelitian dari Auburn University dan University of Alberta ini mengingatkan kita bahwa perjalanan menuju pengembangan AI yang benar-benar cerdas dan memahami dunia visual seperti manusia masih panjang. Namun, dengan terus melakukan penelitian dan perbaikan, diharapkan kita bisa mencapai model AI yang lebih handal dan akurat dalam waktu dekat.