Apple Bantah Tudingan Latih AI Pakai YouTube, Ini Klarifikasinya!

Rita Puspita Sari
•
25 Jul 2024 08.36 WIB

Pekan lalu, laporan mengejutkan muncul, menuding Apple dan beberapa perusahaan teknologi terkemuka menggunakan subtitle YouTube untuk melatih model AI mereka. Tuduhan ini segera memicu berbagai spekulasi dan diskusi hangat di kalangan industri teknologi. Menanggapi hal tersebut, Apple pun akhirnya buka suara untuk memberikan klarifikasi.

Model OpenELM dan Tujuannya

Dilansir dari 9to5Mac, Apple menyatakan bahwa mereka menciptakan model OpenELM sebagai bagian dari kontribusi mereka terhadap komunitas peneliti dan untuk memajukan pengembangan large language model (LLM) open source. Menurut Apple, OpenELM dibangun semata-mata untuk tujuan penelitian dan bukan untuk mendukung fitur AI yang dimiliki Apple. Model AI ini dirilis sebagai open source dan tersedia secara luas di situs web Penelitian Machine Learning Apple.

Apple menegaskan bahwa karena OpenELM tidak digunakan sebagai bagian dari Apple Intelligence, hal ini berarti kumpulan data YouTube Subtitles tidak digunakan untuk mendukung fitur AI yang diumumkan pada WWDC (Worldwide Developers Conference) pada Juni 2024. Sebaliknya, Apple menyebut bahwa model Apple Intelligence dilatih menggunakan data berlisensi dari penerbit dan perusahaan stok gambar, serta data yang tersedia untuk umum di web.

Komitmen Apple Terhadap Hak Kreator dan Penerbit

Lebih lanjut, Apple menekankan bahwa mereka tidak memiliki rencana untuk membangun versi baru dari model OpenELM. Perusahaan yang dipimpin oleh Tim Cook ini juga berkomitmen untuk menghormati hak-hak kreator dan penerbit, serta menyediakan opsi bagi situs web untuk menolak digunakan dalam pelatihan Apple Intelligence.

Sebelumnya, Wired melaporkan bahwa perusahaan seperti Apple, Anthropic, dan Nvidia mengumpulkan data YouTube Subtitles untuk melatih model AI mereka. Laporan tersebut mencakup transkrip 173.536 video YouTube dari lebih dari 48.000 saluran, termasuk saluran pendidikan seperti Khan Academy dan MIT, situs berita seperti The Wall Street Journal, serta beberapa kreator papan atas seperti MrBeast dan Marques Brownlee.

Menurut Marques Brownlee, seorang kreator teknologi ternama, Apple secara teknis menghindari kesalahan karena mereka mendapatkan sumber AI dari perusahaan yang menggunakan transkrip dari video YouTube, bukan menggunakan data secara langsung. Namun, Brownlee juga menyoroti bahwa meskipun data/transkrip tersebut tidak dikumpulkan langsung oleh Apple, data tersebut tetap berkontribusi pada pengembangan model AI. Hal ini menimbulkan dilema etis, terutama karena para kreator menginvestasikan waktu dan uang mereka dalam konten yang digunakan tanpa izin eksplisit. Brownlee menyimpulkan bahwa masalah ini akan terus berkembang dan memerlukan perhatian serius dalam jangka panjang.

Sebelumnya, banyak laporan yang mengklaim bahwa OpenAI menggunakan konten YouTube untuk melatih model teks-ke-video model AI mereka, Sora. Kini, laporan serupa mengaitkan Apple, Nvidia, Anthropic, dan beberapa perusahaan teknologi lainnya dengan penggunaan data yang dihasilkan oleh pengguna untuk melatih model AI mereka. Rupanya, Apple menggunakan puluhan ribu video YouTube dengan subtitle untuk melatih Apple Intelligence, yang bertentangan dengan kebijakan konten platform tersebut.

Proof News juga menciptakan alat bagi para kreator untuk mencari konten mereka di dataset. Dataset Subtitle YouTube tidak menyertakan gambar dari video tetapi menyertakan beberapa subtitle terjemahan dalam berbagai bahasa. Dataset ini dilaporkan dibuat oleh laboratorium penelitian nirlaba bernama Eleuther AI, yang berfokus untuk mempromosikan norma-norma ilmu pengetahuan terbuka.

Namun, tidak satu pun dari perusahaan yang disebutkan di atas segera mengomentari masalah ini. Neal Mohan, kepala eksekutif YouTube, dalam sebuah wawancara menjelaskan bahwa perusahaan yang menggunakan video YouTube untuk melatih model AI mereka melakukan pelanggaran yang jelas terhadap kebijakan platform tersebut.

Kasus ini mencerminkan betapa kompleksnya penggunaan data di era digital, terutama terkait hak cipta dan etika penggunaan data untuk pengembangan teknologi. Apple, dalam klasifikasinya, berusaha untuk menegaskan komitmen mereka terhadap transparansi dan penghormatan terhadap hak-hak kreator dan penerbit. Namun, kontroversi ini juga menunjukkan perlunya regulasi yang lebih jelas dan kesepakatan yang lebih tegas antara perusahaan teknologi dan para kreator konten untuk memastikan penggunaan data yang adil dan etis.