Ancaman Data Poisoning: Risiko Tersembunyi di Balik AI & ML

Rita Puspita Sari
•
24 Feb 2025 23.32 WIB

Dalam era digital saat ini, artificial intelligence (AI) dan machine learning (ML) memainkan peran penting dalam berbagai sektor industri. Mulai dari pengambilan keputusan, perlindungan aset, hingga optimalisasi operasional, AI dan ML telah menjadi tulang punggung inovasi teknologi.

Survei global terbaru McKinsey tentang AI mengungkapkan bahwa 65% responden menyatakan perusahaan mereka sering menggunakan AI generatif, hampir dua kali lipat dari survei sepuluh bulan sebelumnya. Namun, di balik pertumbuhan ini, terdapat ancaman yang tidak bisa diabaikan: serangan data poisoning.

Serangan data poisoning adalah ancaman siber yang menargetkan integritas model AI dengan menyuntikkan data yang rusak atau berbahaya ke dalam dataset pelatihan. Serangan ini dapat mengakibatkan prediksi yang salah dan merusak sistem keamanan. Penelitian menunjukkan bahwa hanya dengan meracuni 1–3% data, kemampuan AI dalam menghasilkan prediksi akurat dapat terganggu secara signifikan.

Artikel ini akan mengulas secara mendalam tentang serangan data poisoning, mulai dari pengertian, cara kerja, dampak, hingga strategi untuk mendeteksi, mencegah, dan mengurangi risiko serangan ini.

Apa Itu Data Poisoning?

Data poisoning adalah jenis serangan siber yang ditujukan pada data pelatihan yang digunakan untuk membangun model AI dan ML. Dalam serangan ini, penyerang berusaha memasukkan informasi yang menyesatkan atau salah ke dalam dataset pelatihan, yang dapat dilakukan melalui beberapa metode:

Menambahkan Data Baru: Penyerang menyisipkan data palsu atau berbahaya ke dalam dataset pelatihan.
Mengubah Data yang Sudah Ada: Penyesuaian data yang telah ada agar memberikan hasil yang salah saat model digunakan.
Menghapus Sebagian Data: Menghilangkan data penting sehingga model kekurangan informasi untuk menghasilkan prediksi yang akurat.

Manipulasi ini menyebabkan model AI menghasilkan prediksi yang salah atau keputusan yang tidak akurat, sehingga mengganggu operasional bisnis dan meningkatkan risiko keamanan.

Mengapa Data Poisoning Menjadi Perhatian yang Meningkat?

Seiring dengan adopsi AI generatif dan Large Language Models (LLMs) seperti ChatGPT dan Google Bard, penjahat siber semakin mengeksploitasi sifat terbuka dari dataset AI. Akses ini memungkinkan penyerang menyisipkan data berbahaya ke dalam dataset pelatihan, menciptakan kerentanan baru.

Tidak hanya itu, di dark web telah muncul alat-alat seperti FraudGPT dan WormGPT yang dirancang untuk memudahkan penjahat siber dalam mengotomatisasi dan meningkatkan skala serangan mereka. Yang mengejutkan, penyerang hanya perlu mengubah sebagian kecil data untuk membuat algoritma menjadi tidak efektif. Misalnya, dengan memasukkan kata-kata yang biasa ditemukan dalam email sah ke dalam pesan spam, sistem bisa terkecoh dan menganggapnya sebagai aman.

Serangan data poisoning sering kali terjadi secara halus dan bertahap, sehingga sulit diidentifikasi sampai kerusakan signifikan telah terjadi. Penyerang dapat mengubah dataset secara perlahan atau memperkenalkan kebisingan secara sistematis tanpa terdeteksi.

Dampak Data Poisoning di Berbagai Industri

Industri Kesehatan
Di dunia kesehatan, data poisoning dapat memengaruhi model diagnostik dan berpotensi menyebabkan kesalahan diagnosis atau rekomendasi perawatan yang tidak tepat. Misalnya, jika penyerang menyuntikkan data yang menyesatkan ke dalam model prediksi hasil pasien, keputusan yang diambil berdasarkan informasi tersebut bisa berakibat fatal bagi pasien.
Sektor Keuangan
Di sektor keuangan, algoritma digunakan untuk menilai risiko kredit dan mendeteksi penipuan. Serangan data poisoning dapat memanipulasi dataset pelatihan sehingga menciptakan profil palsu yang lolos dari deteksi atau bahkan menyetujui transaksi penipuan. Hal ini tentu saja merusak integritas sistem keuangan dan menimbulkan kerugian finansial yang besar.
Kendaraan Otonom
Industri kendaraan otonom sangat bergantung pada data yang akurat untuk navigasi dan keselamatan. Data poisoning dalam sektor ini dapat menyebabkan kesalahan dalam interpretasi data sensor, yang berpotensi mengarah pada perilaku mengemudi yang berbahaya atau bahkan kecelakaan fatal.
E-Commerce dan Ritel
Dalam industri e-commerce, model AI digunakan untuk merekomendasikan produk, mengelola inventaris, dan mempersonalisasi pengalaman pelanggan. Serangan data poisoning dapat merusak pengalaman pelanggan dengan memberikan rekomendasi yang tidak relevan, mengganggu rantai pasokan, atau bahkan menyebabkan kerugian penjualan.
Pemerintahan dan Keamanan Publik
Lembaga pemerintahan menggunakan AI untuk berbagai keperluan, mulai dari analisis data kriminal hingga pengelolaan infrastruktur. Jika data pelatihan terkontaminasi, keputusan yang diambil dapat berdampak negatif pada keamanan publik dan efektivitas layanan pemerintah.

Bagaimana Cara Kerja Serangan Data Poisoning?

Dengan memahami cara kerja serangan ini, organisasi dapat melindungi diri dari potensi kerusakan yang ditimbulkan. Berikut adalah cara kerja serangan data Poisoning:

Menyuntikkan Data Palsu
Penyerang menambahkan data palsu atau menyesatkan ke dalam dataset. Hal ini menyebabkan hasil pelatihan dan prediksi menjadi tidak akurat. Contoh kasusnya adalah sistem rekomendasi yang dimanipulasi dengan ulasan palsu, sehingga mengubah persepsi publik terhadap kualitas suatu produk.
Memodifikasi Data yang Ada
Dalam metode ini, penyerang mengubah data asli sehingga menghasilkan kesalahan pada sistem. Misalnya, memodifikasi nilai dalam database transaksi keuangan agar sistem deteksi penipuan gagal mengenali aktivitas berbahaya.
Menghapus Data
Menghapus data penting dapat menciptakan celah dalam model AI. Akibatnya, model menjadi tidak mampu menggeneralisasi data dengan baik. Misalnya, jika data dari serangan jaringan dihapus, sistem keamanan siber mungkin tidak akan mendeteksi serangan serupa di masa depan.

Jenis-Jenis Serangan Data Poisoning

Serangan Backdoor
Penyerang menyisipkan pemicu tersembunyi dalam data pelatihan. Saat model mendeteksi pemicu ini, ia akan bertindak sesuai instruksi penyerang. Contoh: penyerang dapat menyuntikkan gambar dengan pola tertentu ke dalam sistem pengenalan wajah sehingga model akan salah mengenali individu tersebut.
Serangan Data Injection
Data berbahaya ditambahkan ke dataset pelatihan untuk memengaruhi perilaku model. Misalnya, model perbankan dapat dipengaruhi untuk mendiskriminasi kelompok demografi tertentu, yang berisiko menimbulkan masalah hukum dan kerusakan reputasi.
Serangan Mislabeling
Serangan ini terjadi ketika penyerang memberikan label yang salah pada data pelatihan. Contohnya, gambar anjing yang diberi label sebagai kucing. Akibatnya, model tidak dapat mengklasifikasikan data dengan benar.
Serangan Data Manipulation
Penyerang mengubah data dalam dataset pelatihan untuk memengaruhi hasil model. Metodenya bisa berupa penambahan data salah, penghapusan data penting, atau penyuntikan sampel adversarial yang menyebabkan model bertindak tidak terduga.

Contoh Kasus Data Poisoning di Dunia Nyata

Serangan Adversarial pada Model Bahasa
Model bahasa seperti GPT dan BERT sangat bergantung pada data pelatihan yang luas dan beragam. Namun, data ini bisa dimanipulasi sehingga menghasilkan informasi yang bias atau merugikan. Misalnya, jika data pelatihan sebuah model bahasa disuntikkan dengan konten yang memiliki bias politik tertentu, model tersebut dapat menghasilkan artikel berita yang cenderung memihak atau menyebarkan disinformasi.
Dampaknya sangat berbahaya, terutama di era digital saat ini di mana informasi mudah tersebar luas. Konten berita dengan bias politik dapat memicu konflik sosial, memengaruhi opini publik, dan bahkan memengaruhi hasil pemilu. Oleh karena itu, penting bagi pengembang AI untuk memastikan data pelatihan bebas dari bias berbahaya.
Serangan Backdoor pada Sistem Pengenalan Gambar
Salah satu insiden terkenal terjadi ketika kelompok AI mahasiswa MIT, LabSix, berhasil mengeksploitasi sistem pengenalan gambar milik Google. Dalam makalah berjudul "Data Poisoning: A New Threat to Artificial Intelligence", mereka memodifikasi beberapa piksel kecil pada gambar kura-kura sehingga AI mengenalinya sebagai senapan.
Serangan ini menunjukkan betapa rentannya sistem pengenalan gambar terhadap data poisoning. Jika digunakan oleh pihak yang tidak bertanggung jawab, serangan semacam ini dapat mengancam keamanan, seperti mengelabui sistem pengenalan wajah di bandara atau fasilitas penting lainnya. Hanya dengan perubahan kecil, sistem AI dapat dibuat untuk gagal mengenali objek dengan benar, membuka celah keamanan yang serius.
Serangan Poisoning pada Kendaraan Otonom
Kendaraan otonom mengandalkan data pelatihan yang akurat untuk mengenali dan merespons rambu lalu lintas. Namun, jika data pelatihan ini diracuni, konsekuensinya bisa fatal. Misalnya, jika tanda berhenti diinterpretasikan sebagai tanda memberi jalan, kendaraan dapat terus melaju tanpa berhenti, yang berpotensi menyebabkan kecelakaan serius.
Serangan data poisoning pada kendaraan otonom tidak hanya mengancam nyawa penumpang, tetapi juga pengguna jalan lain. Oleh karena itu, produsen kendaraan otonom harus menerapkan validasi data yang ketat dan pengujian ekstensif untuk memastikan keselamatan.
Serangan Chatbot Twitter oleh Remoteli.io
Sebuah insiden menarik terjadi ketika bot Twitter milik perusahaan rekrutmen Remoteli.io, yang didukung oleh GPT-3, menjadi korban serangan prompt injection. Serangan ini memungkinkan penyerang memasukkan input berbahaya ke dalam bot, sehingga bot mengungkapkan instruksi aslinya dan menghasilkan tanggapan yang tidak pantas tentang "pekerjaan jarak jauh."
Akibatnya, perusahaan menghadapi tantangan besar dalam berkomunikasi di media sosial dan mengalami penurunan reputasi. Bahkan, potensi masalah hukum juga muncul karena konten yang dihasilkan bot tersebut. Insiden ini menunjukkan bahwa data poisoning tidak hanya berdampak pada teknis, tetapi juga pada reputasi dan operasional bisnis.
Insiden Data Poisoning Google DeepMind (2023)
Pada tahun 2023, Google DeepMind menghadapi insiden data poisoning yang memengaruhi sebagian model AI mereka. Aktor jahat berhasil menyusupi dataset ImageNet dengan gambar yang memiliki distorsi halus namun tidak terlihat. Akibatnya, AI salah mengklasifikasikan objek, terutama barang rumah tangga dan hewan.
Meskipun dampak langsung terhadap pelanggan dapat diminimalisir, insiden ini mengungkap potensi risiko besar dari data poisoning terhadap model AI yang berpengaruh. DeepMind akhirnya memutuskan untuk melatih ulang model yang terdampak dan memperketat protokol tata kelola data guna mencegah kejadian serupa.

Teknik Deteksi Data Poisoning

Pelacakan Sumber dan Riwayat Data
Salah satu cara efektif untuk mendeteksi data poisoning adalah dengan melacak sumber dan riwayat data yang digunakan dalam pelatihan model. Pemantauan metadata, log, dan tanda tangan digital dapat membantu mengidentifikasi input yang mencurigakan. Dengan mengetahui dari mana data berasal dan bagaimana perubahannya, potensi risiko dapat diminimalisir.
Pemeriksaan Validasi yang Ketat
Validasi data yang ketat mencakup penggunaan aturan dan skema tertentu untuk menyaring data yang akan digunakan. Analisis data eksploratif juga penting untuk menilai kualitas data. Data yang tidak sesuai dengan pola yang diharapkan harus ditandai dan diperiksa lebih lanjut.
Penggunaan Alat Otomatisasi
Beberapa alat otomatisasi, seperti Alibi Detect dan TensorFlow Data Validation (TFDV), dapat digunakan untuk mendeteksi anomali dalam kumpulan data. Alat-alat ini menggunakan algoritma canggih untuk mengidentifikasi pergeseran data, ketidakseimbangan, dan potensi ancaman lain.
- Alibi Detect: Membantu mengidentifikasi anomali dan potensi serangan dengan menganalisis pola data.
- TensorFlow Data Validation (TFDV): Memungkinkan pengguna untuk memeriksa dan memvalidasi data sebelum digunakan dalam pelatihan model AI.
Analisis Statistik dan Teknik Pengelompokan (Clustering)
Teknik statistik dapat digunakan untuk menunjukkan penyimpangan dari pola data yang diharapkan. Jika terdapat data yang tidak sesuai, kemungkinan besar data tersebut telah diracuni. Selain itu, metode pengelompokan (clustering) sangat efektif dalam mendeteksi pencilan dalam dataset. Data yang membentuk kelompok yang tidak biasa harus ditinjau ulang.
Model Machine Learning (ML) Tingkat Lanjut
Model ML tingkat lanjut dapat dilatih untuk mengenali pola yang berhubungan dengan data yang telah diracuni. Dengan menerapkan teknik ini, lapisan keamanan tambahan dapat diterapkan, sehingga mengurangi risiko serangan data poisoning di masa depan.

Langkah-Langkah untuk Mencegah Data Poisoning

Data Poisoning adalah bentuk serangan di mana data pelatihan yang digunakan untuk membangun model AI dimanipulasi dengan data berbahaya, sehingga menghasilkan model yang cacat atau berperforma buruk. Dampaknya bisa signifikan, mulai dari keputusan yang salah hingga kerugian finansial.

Oleh karena itu, pencegahan Data Poisoning menjadi hal yang sangat penting. Berikut adalah langkah-langkah utama untuk mencegah Data Poisoning, praktik terbaik, dan algoritma deteksi anomali yang dapat digunakan untuk menjaga integritas data.

Pastikan Integritas Data
Integritas data adalah pondasi utama dalam mencegah Data Poisoning. Organisasi harus menerapkan praktik tata kelola data yang efektif dengan strategi validasi menyeluruh, seperti:
- Validasi Skema (Schema Validation): Memastikan bahwa data memiliki format dan struktur yang benar sebelum digunakan untuk pelatihan.
- Validasi Silang (Cross-Validation): Menggunakan metode validasi data di berbagai subset untuk memverifikasi konsistensi.
- Verifikasi Checksum: Memastikan keutuhan data melalui algoritma checksum yang mendeteksi perubahan data yang tidak sah.
Selain itu, teknik deteksi anomali harus digunakan untuk mengidentifikasi titik data mencurigakan. Kontrol akses yang ketat dan enkripsi juga wajib diterapkan untuk melindungi data sensitif dari akses dan modifikasi yang tidak sah.
Pantau Input Data Secara Ketat
Pemantauan input data menjadi langkah krusial berikutnya. Organisasi harus memahami sumber data dan memeriksa adanya pola atau tren yang tidak biasa. Beberapa tindakan penting meliputi:
- Pemantauan Sumber Data: Pastikan data berasal dari sumber tepercaya.
- Deteksi Pergeseran Model (Model Drift Detection): Gunakan alat deteksi untuk mengidentifikasi perubahan kinerja model yang bisa menjadi indikasi Data Poisoning.
Evaluasi kinerja model AI secara rutin dapat membantu mengidentifikasi perilaku tak terduga yang mungkin mengindikasikan adanya serangan.
Terapkan Teknik Pelatihan Model yang Kuat
Teknik pelatihan model yang kuat dapat meningkatkan ketahanan model terhadap serangan Data Poisoning. Teknik yang direkomendasikan meliputi:
- Ensemble Learning: Menggunakan kombinasi beberapa model untuk meningkatkan akurasi dan ketahanan.
- Adversarial Training: Melatih model dengan data yang telah dimanipulasi untuk meningkatkan kemampuannya mengenali dan menolak data berbahaya.
- Deteksi Pencilan (Outlier Detection): Menandai dan menghapus data anomali yang menyimpang dari pola yang diharapkan.
Dengan menerapkan teknik-teknik ini, model akan lebih tahan terhadap sampel yang telah diracuni.
Gunakan Kontrol Akses dan Enkripsi yang Kuat
Keamanan data harus dijaga dengan kontrol akses dan enkripsi. Beberapa metode yang dapat diterapkan:
- Role-Based Access Control/RBAC: Hanya personel yang berwenang yang dapat mengakses dan memodifikasi data.
- Two-Factor Authentication: Menambahkan lapisan keamanan tambahan.
  Enkripsi Kuat:
- Rivest-Shamir-Adleman (RSA): Algoritma enkripsi asimetris yang memberikan keamanan tinggi.
- Advanced Encryption Standard (AES): Standar enkripsi yang digunakan secara luas untuk melindungi data saat disimpan dan dikirimkan.
Dengan metode ini, data terlindungi dari modifikasi selama siklus hidupnya.
Validasi dan Uji Model Secara Rutin
Model AI harus divalidasi dan diuji secara rutin menggunakan data yang bersih dan telah diverifikasi. Langkah ini dapat:
- Mencegah dan Mendeteksi Data Poisoning: Melalui pengujian berkala, perilaku tak wajar dari model dapat terdeteksi.
- Menjaga Akurasi Model: Membantu model untuk melakukan generalisasi dengan baik dan tetap tahan terhadap input berbahaya.
Tingkatkan Kesadaran Keamanan
Sumber daya manusia merupakan lapisan pertahanan pertama dalam mencegah Data Poisoning. Oleh karena itu, organisasi harus:
- Mengadakan Sesi Pelatihan Rutin: Meningkatkan kesadaran tim keamanan siber terhadap taktik Data Poisoning.
- Mengembangkan Protokol Respon Insiden: Menyusun langkah-langkah jelas untuk merespons insiden yang dicurigai.
- Mempelajari Kasus Nyata: Analisis insiden Data Poisoning di dunia nyata memberikan wawasan penting tentang kerentanan yang tersembunyi.

Kesimpulan:
Serangan data poisoning merupakan ancaman serius dalam era digital, khususnya di tengah pesatnya adopsi artificial intelligence (AI) dan machine learning (ML). Serangan ini terjadi ketika penyerang menyuntikkan data palsu, memodifikasi, atau menghapus data penting dalam dataset pelatihan, sehingga merusak integritas model AI dan menghasilkan prediksi yang salah. Dampaknya sangat luas, mencakup sektor kesehatan, keuangan, kendaraan otonom, e-commerce, hingga pemerintahan, yang dapat berujung pada kerugian finansial, risiko keselamatan, dan kesalahan pengambilan keputusan.

Terdapat berbagai jenis serangan data poisoning, seperti serangan backdoor, data injection, mislabeling, dan data manipulation, yang masing-masing memiliki dampak signifikan terhadap kinerja dan keakuratan model AI. Serangan ini juga dapat terjadi secara langsung, dengan menargetkan perilaku model terhadap input tertentu, atau tidak langsung, yang menurunkan kinerja keseluruhan model.

Beberapa contoh nyata, seperti manipulasi model bahasa yang menghasilkan konten bias dan serangan pada sistem pengenalan gambar Google, menunjukkan betapa berbahayanya serangan ini jika tidak ditangani dengan tepat. Oleh karena itu, penting bagi organisasi untuk mengembangkan strategi deteksi dan pencegahan yang kuat, seperti pemantauan data secara berkala, validasi data, serta penggunaan algoritma yang tahan terhadap serangan.

Dengan langkah-langkah tersebut, risiko serangan data poisoning dapat diminimalkan, sehingga AI dan ML tetap dapat memberikan manfaat optimal secara aman dan andal.

Tag Terkait