Adversarial Attack: Ancaman Tersembunyi Model AI & ML

Rita Puspita Sari
•
23 Feb 2025 12.49 WIB

Dalam era artificial intelligence (AI) dan machine learning (ML), model-model yang dilatih untuk melakukan klasifikasi, pengenalan, dan prediksi memainkan peran penting di berbagai industri. Namun, kemajuan ini juga membawa tantangan, salah satunya adalah serangan adversarial. Serangan ini memanfaatkan kelemahan model ML dengan melakukan perubahan kecil pada data input sehingga model memberikan hasil prediksi yang salah.

Artikel ini akan membahas bagaimana serangan adversarial bekerja, jenis-jenisnya, contoh kasus nyata, serta berbagai cara untuk melindungi model ML dari serangan tersebut.

Apa Itu Serangan Adversarial?

Serangan adversarial adalah teknik penipuan yang digunakan untuk mengelabui model machine learning (ML) dengan memberikan input yang dimanipulasi atau salah. Akibatnya, model ML dapat berfungsi secara tidak semestinya, yang dapat berujung pada konsekuensi serius. Contoh nyata dari serangan ini adalah mobil self-driving yang salah mengenali rambu berhenti sebagai rambu batas kecepatan, atau mobil dengan autopilot Tesla yang bergerak ke arah yang salah.

Serangan ini umumnya terjadi akibat data pelatihan yang tidak akurat, salah representasi, atau data yang secara sengaja dirancang untuk merusak kinerja model.

Tujuan Serangan Adversarial

Serangan adversarial memiliki beberapa tujuan utama, di antaranya:

Mengganggu Kinerja Model: Penyerang menggunakan data palsu atau tidak akurat untuk menurunkan performa model di masa depan.
Merusak Model yang Sudah Dilatih: Data berbahaya dapat merusak model, bahkan pada sistem yang telah dikomersialisasi.
Mengekstraksi Informasi Sensitif: Beberapa serangan bertujuan mendapatkan informasi rahasia dari data pelatihan model.

Jenis-Jenis Serangan Adversarial

Berdasarkan Target Serangan
- Serangan terhadap Klasifikasi Model: Bertujuan mengubah hasil prediksi model. Contohnya, sistem pengenalan wajah yang salah mengidentifikasi individu.
- Serangan terhadap Keamanan Model: Penyerang memasukkan data berbahaya yang diklasifikasikan sebagai data sah, seperti malware yang berhasil mengelabui sistem deteksi.
- Serangan Terarah (Targeted Attack): Serangan ini menargetkan kesalahan tertentu, seperti mengelabui sistem navigasi mobil otonom agar salah arah.
Berdasarkan Tingkat Akses Penyerang
- Serangan White-Box: Penyerang memiliki akses penuh ke parameter model dan dapat memanipulasinya secara langsung.
- Serangan Black-Box: Penyerang hanya dapat mengamati input dan output model tanpa mengetahui proses internal.
Jenis Serangan Lanjutan
- Serangan Evasion: Melibatkan modifikasi data sehingga lolos dari deteksi sistem. Contoh: malware dalam lampiran email yang berhasil menghindari filter spam.
- Serangan Data Poisoning: Penyerang mencemari data pelatihan dengan data jahat, menyebabkan model berperilaku tidak semestinya.
- Model Theft atau Model Extraction: Penyerang mencoba merekonstruksi model atau mengekstrak data pelatihannya, yang dapat berisiko jika data tersebut sensitif.

Sejarah Serangan Adversarial

Penelitian awal mengenai serangan adversarial dimulai pada tahun 2013. Google dan New York University (NYU) melakukan studi berjudul "Intriguing Properties of Neural Networks". Studi ini mengungkapkan bahwa model neural networks memiliki kelemahan mendasar yang memungkinkan serangan adversarial terjadi. Temuan ini mengejutkan banyak peneliti karena menunjukkan bahwa model AI yang canggih pun dapat dimanipulasi dengan mudah melalui perubahan kecil pada data input.

Sejak saat itu, penelitian mengenai serangan adversarial mengalami perkembangan yang pesat. Temuan awal tersebut memicu kekhawatiran di kalangan peneliti dan praktisi AI karena potensi serangan ini untuk mengeksploitasi kelemahan model ML. Dengan meningkatnya ketergantungan pada AI di berbagai sektor, memahami dan mengatasi serangan adversarial menjadi semakin penting.

Pertumbuhan Penelitian Serangan Adversarial
Dalam beberapa tahun terakhir, minat terhadap penelitian serangan adversarial terus meningkat. Pada tahun 2014, server preprint Arxiv.org bahkan tidak mencatat adanya penelitian yang berfokus pada topik ini. Namun, situasinya berubah secara dramatis pada tahun 2020, di mana lebih dari 1100 studi tentang serangan adversarial telah diterbitkan di platform tersebut. Angka ini menunjukkan lonjakan minat yang signifikan dan mengindikasikan bahwa komunitas AI dan ML mulai menyadari urgensi untuk memahami dan menangani serangan ini.

Hingga Agustus 2021, tercatat lebih dari 1000 makalah terkait serangan adversarial telah diterbitkan di Arxiv.org. Jumlah ini mencerminkan perhatian yang terus meningkat terhadap ancaman tersebut. Meskipun penelitian terus berkembang, sebagian besar studi masih berfokus pada bagaimana serangan ini dilakukan, sedangkan penelitian mengenai metode pertahanan terhadap serangan ini masih relatif terbatas.

Fokus pada Pertahanan: Tantangan dan Perkembangan
Menurut laporan National Security Commission on Artificial Intelligence (AI) tahun 2019, hanya sebagian kecil penelitian AI yang berfokus pada pertahanan terhadap serangan adversarial. Hal ini menunjukkan adanya kesenjangan signifikan antara pemahaman tentang bagaimana serangan terjadi dan bagaimana mengatasinya. Padahal, di dunia nyata, kemampuan untuk melindungi sistem AI dari serangan adversarial sama pentingnya dengan kemampuan untuk mengidentifikasi serangan tersebut.

Namun, seiring waktu, penelitian mengenai pertahanan terhadap serangan adversarial mulai mendapatkan perhatian yang lebih besar. Berbagai metode perlindungan dan mitigasi telah dikembangkan kini menjadi sorotan utama dalam konferensi teknologi dan AI bergengsi, seperti NeurIPS (Conference on Neural Information Processing Systems), ICLR (International Conference on Learning Representations), DEF CON, Black Hat, dan Usenix. Konferensi-konferensi tersebut mempertemukan para ahli dari berbagai belahan dunia untuk mendiskusikan tantangan dan solusi terkait serangan adversarial.

Mengapa Serangan Adversarial Berbahaya?

Machine Learning (ML) adalah teknologi yang berkembang pesat dan telah merevolusi berbagai sektor. Menurut laporan McKinsey, sektor-sektor seperti pertanian, pendidikan, logistik, manufaktur, dan energi diperkirakan akan memberikan kontribusi hingga $13 triliun pada tahun 2030 melalui penerapan teknologi ini. ML digunakan untuk mengotomatiskan proses, meningkatkan efisiensi, dan menghasilkan keputusan berbasis data. Namun, di balik manfaat luar biasa tersebut, terdapat ancaman yang tidak boleh diabaikan: serangan adversarial.

Serangan adversarial adalah upaya manipulasi input data secara halus dengan tujuan mengelabui model ML agar menghasilkan output yang salah. Meskipun perubahan pada data tersebut mungkin tampak tidak signifikan bagi manusia, model ML dapat dengan mudah tertipu, sehingga menghasilkan keputusan yang keliru. Ancaman ini sangat berbahaya karena dapat merusak keandalan sistem berbasis ML, terutama di sektor-sektor yang berisiko tinggi.

Kesalahan Kritis dalam Sektor Medis
Salah satu contoh paling mengkhawatirkan dari serangan adversarial adalah di bidang medis. Algoritma ML yang digunakan dalam diagnosis penyakit, seperti kanker kulit, dapat dimanipulasi sehingga salah mengklasifikasikan tahi lalat jinak sebagai kanker ganas atau sebaliknya. Kesalahan ini dapat mengakibatkan keputusan medis yang berbahaya, seperti tindakan pembedahan yang tidak perlu atau keterlambatan pengobatan. Dalam dunia medis, keputusan yang salah dapat berujung pada hilangnya nyawa.
Ancaman pada Sistem Keamanan Otomatis
Dalam industri otomotif, teknologi kendaraan otonom bergantung pada ML untuk mengenali rambu lalu lintas dan pejalan kaki. Serangan adversarial dapat menyebabkan sistem tersebut salah mengenali rambu berhenti sebagai rambu kecepatan, yang berpotensi menyebabkan kecelakaan fatal. Kepercayaan publik terhadap teknologi kendaraan otonom pun dapat menurun akibat ancaman ini.
Kerentanan dalam Keamanan Siber
Sistem deteksi ancaman siber, seperti firewall berbasis ML, juga dapat menjadi korban serangan adversarial. Penyerang dapat memodifikasi data serangan sehingga terlihat seperti aktivitas normal, sehingga sistem gagal mendeteksinya. Hal ini dapat menyebabkan kebocoran data sensitif, kerugian finansial, dan kerusakan reputasi perusahaan.
Risiko dalam Dunia Finansial
Dalam sektor keuangan, ML digunakan untuk mendeteksi transaksi penipuan. Serangan adversarial dapat mengeksploitasi celah dalam model ini, memungkinkan transaksi berbahaya lolos dari deteksi. Hal ini dapat mengakibatkan kerugian finansial besar, baik bagi individu maupun institusi keuangan.
Manipulasi dalam Sistem Pengawasan
Teknologi pengenalan wajah, yang digunakan dalam sistem pengawasan publik dan kontrol akses, juga rentan terhadap serangan adversarial. Penyerang dapat mengubah penampilan mereka sedemikian rupa sehingga sistem gagal mengenali wajah mereka, memungkinkan mereka mengakses area terbatas tanpa terdeteksi.

Mengapa Serangan Ini Sulit Dideteksi?
Serangan adversarial sulit dideteksi karena perubahan data input yang dimanipulasi biasanya sangat kecil dan tidak terlihat oleh mata manusia. Model ML, yang sangat sensitif terhadap variasi data, dapat dengan mudah terpengaruh oleh perubahan tersebut. Selain itu, teknik serangan ini terus berkembang, membuat upaya pencegahan menjadi tantangan tersendiri bagi para peneliti dan praktisi.

Bagaimana Serangan Adversarial Bekerja?

Semua serangan adversarial memiliki prinsip kerja yang serupa:

Menggunakan pengetahuan tentang keadaan internal model (bahkan jika hanya perkiraan).
Memodifikasi input dengan perubahan kecil (perturbasi) untuk menghasilkan kesalahan prediksi.
Secara matematis, serangan ini digambarkan sebagai berikut:

f(x + d) ≠ y

f: Model machine learning (ML).
x: Input asli.
d: Perturbasi (gangguan kecil).
y: Label atau hasil prediksi yang benar.

Jika awalnya model memberikan hasil prediksi yang benar (f(x) = y), penambahan perturbasi d akan menyebabkan model memberikan hasil yang salah (f(x + d) ≠ y). Ukuran perturbasi d diukur menggunakan fungsi L(d) < T, di mana T adalah batas atas gangguan yang diizinkan.

Jenis-Jenis Perturbasi dalam Serangan Adversarial

Perturbasi dalam serangan adversarial diukur menggunakan norma Lp, yang menunjukkan ukuran gangguan pada input. Berikut adalah jenis-jenis norma tersebut:

L0 Norm (Jumlah Fitur yang Dimodifikasi)
- Mengukur berapa banyak fitur input yang diubah.
- Contoh: Sebagian kecil tanda STOP diubah sehingga model Deep Neural Network (DNN) salah menginterpretasikannya sebagai perintah untuk melanjutkan perjalanan.
L1 Norm (Jumlah Total Nilai Perturbasi)
- Mengukur total semua nilai gangguan yang diterapkan.
- Karakteristik: Jenis ini jarang digunakan karena sulit dikembangkan.
L2 Norm (Jarak Euclidean)
- Mengukur jarak antara gambar asli (X) dan gambar yang dimodifikasi (Z) dengan menghitung perbedaan kuadrat antara keduanya.
- Contoh: Serangan Carlini dan Wagner, salah satu serangan white-box paling efektif.
L∞ Norm (Nilai Maksimum Perturbasi)
- Mengukur nilai maksimum dari perturbasi d.
- Karakteristik: Sering digunakan karena memiliki optimasi matematis yang kuat dan praktis.

Contoh Kasus Serangan Adversarial di Dunia Nyata

Figur Kura-Kura 3D
Seorang peretas mencetak figur kura-kura dengan tekstur khusus sehingga AI deteksi objek milik Google salah mengklasifikasikannya sebagai senapan. Kasus ini menunjukkan bagaimana modifikasi sederhana dapat mengacaukan klasifikasi AI.
Gambar Anjing Menjadi Kucing
Gambar seekor anjing diubah secara halus sehingga tampak seperti kucing, baik di mata manusia maupun komputer. Ini membuktikan betapa rentannya model ML terhadap gangguan kecil.
Sistem Pengenalan Wajah
Beberapa orang menciptakan pola khusus pada kacamata dan pakaian yang dapat mengelabui AI pengenalan wajah, sehingga sistem gagal mengenali identitas pengguna.
Gangguan pada Asisten Virtual
Input suara adversarial dapat membuat asisten pintar seperti Alexa atau Google Assistant salah mengartikan perintah suara, yang dapat dimanfaatkan untuk tujuan berbahaya.
Kasus Chatbot Tay
Chatbot Tay milik Microsoft, yang dirilis di Twitter, dirusak oleh troll yang mengajarkan bahasa kasar dan komentar ofensif. Dalam waktu 16 jam, Tay berubah menjadi AI yang rasis dan homofobik, sehingga Microsoft terpaksa menonaktifkannya.

**Cara Melindungi Model Machine Learning dari Serangan Adversarial**

Teknik standar seperti dropout atau weight decay tidak cukup efektif untuk melawan serangan adversarial. Berikut beberapa metode yang telah dikembangkan:

Adversarial Training
Model dilatih ulang menggunakan contoh adversarial agar lebih tahan terhadap gangguan.
Kelemahan: Prosesnya lambat dan mahal karena setiap contoh pelatihan harus diuji terhadap serangan adversarial.
CNN-Cert
Salah satu metode terbaru dari adversarial training yang bertujuan untuk menemukan ambang ketahanan terhadap perturbasi.
Kegunaan: Sangat berguna di industri seperti pengenalan wajah, suara, kendaraan otonom, dan pencitraan medis.
Jaringan Paralel (Parallel Networks)
Menggabungkan beberapa jaringan yang diaktifkan secara acak untuk membuat model lebih stabil terhadap serangan.
Generalized Neural Network
Mengembangkan jaringan neural yang dapat digeneralisasi dari jaringan lain.
Tantangan: Generalisasi merupakan salah satu tugas paling menantang dalam deep learning.

Pendekatan Lanjutan untuk Melindungi Model ML

Pengujian Ketahanan Model (Trojan Horse Test)
Menguji ketahanan model dengan memodifikasi model agar menghasilkan respons yang salah, sehingga perusahaan dapat mengukur seberapa rentan model tersebut.
Penggunaan Kerangka TrojAI
Peneliti dari Universitas Johns Hopkins mengembangkan TrojAI, alat untuk menghasilkan dataset dan model yang dimodifikasi dengan Trojan guna menguji dan memperkuat AI.
Framework Deteksi Serangan
Peneliti Google merancang framework khusus untuk mendeteksi serangan adversarial. Selain itu, perusahaan teknologi lainnya menyediakan alat seperti:
- Baidu Advbox
- Microsoft Counterfit
- IBM Adversarial Robustness Toolbox
- Salesforce Robustness Gym
- TextFooler dari Laboratorium AI MIT untuk meningkatkan ketahanan model NLP.
Penguatan Algoritma AI
Startup seperti Resistant AI menawarkan produk untuk memperkuat algoritma AI terhadap serangan adversarial.
Deteksi Anomali
Mengintegrasikan sistem deteksi anomali dapat membantu mengidentifikasi input yang mencurigakan sebelum diproses oleh model ML. Ini dapat berfungsi sebagai lapisan keamanan tambahan.
Regularisasi dan Normalisasi Data
Teknik regularisasi dan normalisasi data dapat membantu mengurangi sensitivitas model terhadap perubahan kecil pada input, sehingga mengurangi peluang keberhasilan serangan adversarial.
Audit dan Pengujian Rutin
Melakukan audit dan pengujian model secara berkala dengan berbagai skenario serangan adversarial dapat membantu mengidentifikasi dan memperbaiki kerentanan sebelum dieksploitasi.

Kesimpulan
Serangan adversarial telah menjadi ancaman serius dalam pengembangan dan penerapan model machine learning. Gangguan kecil pada data input dapat menyebabkan model memberikan hasil yang salah, yang berpotensi menimbulkan dampak besar, terutama di industri yang mengandalkan AI untuk pengambilan keputusan kritis.

Oleh karena itu, memahami cara kerja serangan adversarial, jenis-jenisnya, dan strategi perlindungan yang efektif sangat penting untuk meningkatkan keamanan dan keandalan model AI.

Dengan perkembangan teknologi dan penelitian yang terus berlanjut, diharapkan akan muncul lebih banyak solusi inovatif untuk menghadapi tantangan ini, sehingga AI dan machine learning dapat dimanfaatkan secara aman dan optimal di masa depan.

Tag Terkait