Claude Mythos, AI Berbahaya Anthropic yang Tak Dirilis

Rita Puspita Sari
•
17 jam yang lalu

Di tengah pesatnya perkembangan kecerdasan buatan atau artificial intelligence (AI), perusahaan-perusahaan teknologi berlomba menciptakan model AI yang semakin pintar, cepat, dan mampu menyelesaikan berbagai tugas kompleks. Namun, tidak semua model AI akhirnya dirilis ke publik. Ada beberapa yang justru disimpan rapat karena dinilai terlalu berbahaya jika digunakan secara luas.

Salah satu contohnya adalah Claude Mythos, model frontier AI milik perusahaan Anthropic yang disebut-sebut sebagai salah satu model AI paling kuat dan paling sensitif yang pernah mereka buat. Berbeda dengan Claude 3 Haiku, Sonnet, atau Opus yang bisa digunakan publik, Claude Mythos tidak pernah dirilis sama sekali.

Alasannya bukan karena model ini gagal, melainkan justru karena kemampuannya terlalu luar biasa—dan berpotensi menimbulkan risiko besar bagi keamanan dunia digital.

Claude Mythos dikenal karena kemampuannya menemukan ribuan celah keamanan zero-day secara mandiri. Kemampuan ini membuatnya dianggap terlalu berbahaya untuk diakses publik karena bisa dimanfaatkan bukan hanya untuk pertahanan siber, tetapi juga untuk serangan digital berskala besar.

Lalu, sebenarnya apa itu Claude Mythos? Mengapa Anthropic memilih untuk menahannya? Dan apa dampaknya bagi perkembangan AI modern saat ini?

AI yang Tidak Dirancang untuk Publik

Sebagian besar model AI yang kita kenal saat ini dibuat untuk membantu aktivitas sehari-hari, mulai dari menulis, mencari informasi, membuat kode, hingga membantu analisis data. Namun Claude Mythos hadir dengan tujuan yang sangat berbeda.

Model ini tidak dibuat sebagai produk konsumen. Claude Mythos merupakan model riset internal yang dikembangkan untuk menguji batas kemampuan AI frontier, khususnya dalam bidang keamanan perangkat lunak dan keamanan siber.

Anthropic ingin mengetahui sejauh mana large language model (LLM) dapat memahami sistem perangkat lunak yang kompleks dan apakah model tersebut mampu menemukan ancaman keamanan yang bahkan belum diketahui manusia.

Jawabannya ternyata sangat mengejutkan.

Dalam pengujian internal, Claude Mythos berhasil menemukan ribuan kerentanan perangkat lunak yang sebelumnya belum pernah diketahui. Temuan tersebut bukan hasil simulasi sederhana, melainkan celah keamanan nyata pada software yang benar-benar digunakan di dunia nyata.

Kemampuan ini langsung menempatkan Claude Mythos sebagai salah satu model AI paling sensitif yang pernah dikembangkan Anthropic.

Apa Itu Zero-Day Vulnerability?

Untuk memahami mengapa Claude Mythos dianggap sangat berbahaya, kita perlu memahami istilah zero-day vulnerability. Zero-day vulnerability adalah celah keamanan dalam perangkat lunak yang belum diketahui oleh pengembang, belum diumumkan ke publik, dan belum memiliki patch atau perbaikan resmi.

Istilah “zero-day” merujuk pada fakta bahwa pengembang memiliki nol hari untuk memperbaiki masalah tersebut sejak kerentanan itu ditemukan oleh pihak lain.

Celah seperti ini sangat bernilai karena dapat dimanfaatkan penyerang sebelum siapa pun menyadari keberadaannya. Dalam dunia keamanan siber, menemukan zero-day adalah pekerjaan yang sangat sulit dan biasanya hanya bisa dilakukan oleh peneliti keamanan kelas atas.

Mereka harus memeriksa ribuan hingga jutaan baris kode, memahami alur logika sistem, serta menemukan kombinasi kecil kesalahan yang bisa berubah menjadi serangan besar. Biasanya proses ini memakan waktu berminggu-minggu bahkan berbulan-bulan. Namun Claude Mythos mampu melakukannya jauh lebih cepat dan dalam skala yang jauh lebih besar.

Bukan Claude Biasa

Penting untuk dipahami bahwa Claude Mythos bukanlah model Claude yang tersedia untuk umum. Model ini bukan bagian dari Claude 3 Sonnet, Haiku, maupun Opus. Ia juga bukan produk yang tersedia melalui API, bukan layanan yang bisa diakses lewat Claude.ai, dan bukan alat yang dapat digunakan developer biasa.

Claude Mythos adalah sistem internal eksperimental milik Anthropic yang digunakan untuk evaluasi kemampuan AI tingkat lanjut. Model ini dirancang khusus untuk melihat apakah AI modern sudah mencapai titik di mana kemampuannya dapat menimbulkan ancaman serius jika tidak dikendalikan.

Dalam konteks ini, Claude Mythos lebih tepat disebut sebagai alat pengujian atau “probe” daripada produk komersial.

Anthropic menggunakannya untuk menjawab pertanyaan besar: seberapa jauh AI dapat berkembang sebelum menjadi terlalu berbahaya untuk dirilis?

Bagaimana Claude Mythos Menemukan Kerentanan?

Claude Mythos tidak hanya mencari kesalahan penulisan kode sederhana seperti typo atau bug ringan. Model ini bekerja pada level yang jauh lebih kompleks. Berdasarkan evaluasi keamanan yang dilakukan Anthropic, model dengan kemampuan seperti Claude Mythos dapat:

menganalisis source code dan file binary yang sudah dikompilasi,
memahami control flow atau alur logika program,
menilai manajemen memori yang sering menjadi sumber kerentanan besar,
menghubungkan beberapa kelemahan kecil menjadi jalur serangan yang bisa dieksploitasi,
serta membuat proof-of-concept exploit untuk membuktikan bahwa celah tersebut benar-benar dapat digunakan dalam serangan.

Ini adalah kemampuan yang biasanya hanya dimiliki oleh peneliti keamanan elite.

Perbedaannya, manusia memiliki batas waktu, tenaga, dan fokus. AI seperti Claude Mythos tidak mengalami kelelahan dan dapat melakukan analisis secara terus-menerus dalam skala yang sangat besar.

Di sinilah letak kekhawatiran utamanya.

One-Day dan Zero-Day: Perbedaan Besar

Sebelum Claude Mythos, Anthropic banyak menguji model AI mereka pada apa yang disebut one-day vulnerabilities. One-day vulnerability adalah celah keamanan yang sudah diketahui publik tetapi belum diperbaiki. Dalam kasus ini, AI sebenarnya sudah memiliki petunjuk tentang apa yang harus dicari.

Namun zero-day berbeda total. Pada zero-day, AI harus menemukan sendiri potensi masalah dari awal tanpa ada label, petunjuk, atau referensi sebelumnya. Model harus memahami sistem secara mendalam dan menebak apa yang bisa salah berdasarkan prinsip dasar.

Kemampuan inilah yang membuat Claude Mythos dianggap sebagai lompatan besar.

Ia tidak hanya “mengingat” kerentanan yang sudah diketahui, tetapi benar-benar mampu melakukan penalaran baru seperti seorang peneliti keamanan profesional.

Mengapa Anthropic Tidak Merilisnya?

Jawaban utamanya terletak pada kebijakan internal perusahaan yang disebut Responsible Scaling Policy (RSP). RSP adalah kerangka kerja Anthropic untuk menentukan kapan sebuah model AI aman untuk dirilis dan kapan model tersebut harus dibatasi.

Dalam kebijakan ini terdapat tingkatan risiko yang disebut AI Safety Levels (ASL).

ASL-1 adalah model dengan risiko minimal dan hanya melakukan tugas bahasa dasar.
ASL-2 adalah model yang dapat membantu tugas berbahaya secara terbatas tetapi masih bisa dikendalikan.
ASL-3 adalah model yang mampu memberikan peningkatan signifikan kepada pihak yang ingin melakukan kerusakan serius.
ASL-4 dan seterusnya mengacu pada model masa depan dengan potensi risiko yang sangat besar bahkan bersifat katastrofik.

Claude Mythos diperkirakan berada di level ASL-3 atau bahkan lebih tinggi karena kemampuannya menemukan ribuan zero-day secara mandiri.

Artinya, model ini sudah melewati batas aman untuk dirilis secara umum.

Masalah Dual-Use: Berguna Sekaligus Berbahaya

Dalam dunia keamanan siber, ada konsep yang disebut dual-use. Artinya, satu teknologi bisa digunakan untuk tujuan baik maupun buruk.

Claude Mythos adalah contoh paling jelas dari konsep ini.

Di sisi positif, model seperti ini bisa membantu perusahaan memperkuat sistem keamanan mereka sebelum diserang. Ia juga bisa mendukung infrastruktur keamanan nasional, mempercepat program bug bounty, dan membantu responsible disclosure agar vendor segera menutup celah keamanan.

Namun di sisi lain, model yang sama juga bisa menjadi alat yang sangat berbahaya.

Negara dapat menggunakannya untuk operasi siber ofensif. Kelompok kriminal bisa memanfaatkannya untuk serangan otomatis berskala besar. Bahkan pengguna biasa dengan akses API dapat mengubahnya menjadi mesin pencari kerentanan digital.

Anthropic menilai bahwa sistem perlindungan saat ini—seperti alignment, monitoring, dan kontrol akses—belum cukup kuat untuk mencegah penyalahgunaan semacam itu.

Karena alasan itulah Claude Mythos tetap disimpan secara internal.

Bukan Hal Baru di Industri AI

Menahan model AI berbahaya sebenarnya bukan hal baru. OpenAI pernah menunda perilisan penuh GPT-2 pada tahun 2019 karena khawatir model tersebut dapat disalahgunakan untuk spam, manipulasi informasi, dan penyebaran konten berbahaya. DeepMind juga dikenal sering menyimpan model riset paling canggihnya dan tidak langsung merilisnya ke publik.

Yang membuat Claude Mythos menarik adalah tingkat transparansi Anthropic. Perusahaan ini cukup terbuka menjelaskan bahwa model tersebut memiliki kemampuan keamanan siber yang melampaui batas aman untuk dirilis. Langkah ini menunjukkan bahwa industri AI mulai bergerak ke arah evaluasi keselamatan yang lebih serius.

Meski terdengar menakutkan, penting untuk meluruskan satu hal: Claude Mythos bukan robot peretas liar yang sedang menyerang internet.

Menemukan kerentanan tidak sama dengan mengeksploitasi seluruh sistem dunia secara otomatis. Ada jarak besar antara mengidentifikasi kelemahan dan benar-benar mengubahnya menjadi serangan nyata, terutama terhadap sistem produksi yang memiliki banyak lapisan pertahanan.

Selain itu, pengujian Claude Mythos dilakukan dalam kondisi internal yang terkontrol, bukan terhadap sistem publik yang dijaga aktif oleh tim keamanan. Anthropic juga tetap memegang kendali penuh atas model ini. Ia tidak tersedia di internet, tidak dijual, dan tidak dapat diakses oleh pihak luar.

Jadi, narasi yang tepat bukan “AI sedang meretas dunia,” melainkan “AI telah mencapai kemampuan yang menurut kebijakan keselamatan belum layak dirilis.”

Dampaknya bagi Claude yang Bisa Dipakai Publik

Meski Claude Mythos tidak dapat digunakan, keberadaannya memengaruhi cara Anthropic merancang model Claude yang tersedia saat ini.

Model publik seperti Claude 3 Haiku, Sonnet, Opus, hingga seri Claude 3.5 dan 3.7 tetap dirancang untuk membantu developer melakukan code review, audit keamanan dasar, serta memahami konsep keamanan perangkat lunak. Namun kemampuan ekstrem seperti penemuan zero-day secara otonom sengaja dibatasi.

Ketika pengguna merasa model Claude menolak permintaan tertentu terkait eksploitasi sistem atau memberi jawaban yang sangat hati-hati soal keamanan siber, itu bukan sekadar pembatas biasa. Itu adalah hasil dari keputusan sadar tentang batas kemampuan yang dianggap aman untuk dirilis.

Dengan kata lain, Claude Mythos adalah gambaran nyata dari apa yang sedang dicegah oleh pagar pembatas keamanan AI modern. Ia menjadi pengingat bahwa semakin pintar AI berkembang, semakin penting pula aturan keselamatan yang harus menyertainya.