Anthropic Rilis Claude Opus 4.6, Unggul di Coding dan Riset
- Rita Puspita Sari
- •
- 17 jam yang lalu
Ilustrasi Claude Opus 4.6
Perkembangan teknologi kecerdasan buatan kembali mencatatkan lompatan besar. Anthropic secara resmi memperkenalkan Claude Opus 4.6, versi terbaru dari model AI tercerdas mereka yang membawa peningkatan signifikan, terutama dalam kemampuan pemrograman, analisis data, serta pekerjaan profesional sehari-hari.
Claude Opus 4.6 disebut sebagai model paling canggih di lini Claude hingga saat ini. Dibandingkan pendahulunya, Opus 4.5, model ini mampu merencanakan tugas dengan lebih matang, mempertahankan kinerja dalam tugas berbasis agen dalam durasi yang lebih panjang, serta bekerja lebih stabil pada basis kode berukuran besar. Kemampuan review kode dan debugging juga ditingkatkan, memungkinkan model mendeteksi dan memperbaiki kesalahannya sendiri secara lebih akurat.
Salah satu terobosan paling menonjol adalah kehadiran context window hingga 1 juta token dalam versi beta. Ini menjadi pertama kalinya model kelas Opus mendukung konteks sepanjang itu, membuka peluang baru untuk analisis dokumen berskala besar, pemrosesan data kompleks, hingga pengembangan perangkat lunak dengan konteks yang sangat panjang.
Tak hanya unggul dalam pemrograman, Claude Opus 4.6 juga dirancang untuk menunjang berbagai kebutuhan kerja sehari-hari. Model ini mampu menjalankan analisis keuangan, melakukan riset, serta membuat dan mengelola dokumen, spreadsheet, hingga presentasi. Dalam lingkungan Cowork, Claude bahkan dapat bekerja secara mandiri dan multitasking, menangani beberapa tugas sekaligus atas nama pengguna.
Unggul dalam Berbagai Evaluasi
Dari sisi performa, Claude Opus 4.6 mencatatkan hasil yang mengesankan. Model ini meraih skor tertinggi pada Terminal-Bench 2.0, sebuah evaluasi pemrograman berbasis agen, serta memimpin pada Humanity’s Last Exam, tes penalaran multidisiplin yang kompleks.
Dalam evaluasi GDPval-AA, yang mengukur kemampuan AI dalam tugas kerja bernilai ekonomi seperti keuangan dan hukum, Opus 4.6 bahkan mengungguli model pesaing terdekat, OpenAI GPT-5.2, dengan selisih sekitar 144 poin Elo. Jika dibandingkan dengan pendahulunya, Opus 4.5, peningkatan performanya mencapai 190 poin. Selain itu, Opus 4.6 juga menjadi yang terbaik pada BrowseComp, evaluasi yang mengukur kemampuan AI menemukan informasi yang sulit dicari di internet.
Atasi Masalah “Context Rot”
Salah satu masalah klasik AI adalah context rot, yaitu penurunan performa ketika percakapan atau dokumen menjadi terlalu panjang. Claude Opus 4.6 menunjukkan peningkatan signifikan di area ini. Pada tes MRCR v2 varian 1 juta token, model ini meraih skor 76 persen, jauh di atas Sonnet 4.5 yang hanya mencatatkan 18,5 persen. Artinya, Opus 4.6 mampu mempertahankan pemahaman dan penalaran meski harus memproses informasi dalam jumlah sangat besar.
Keamanan Tetap Jadi Prioritas
Anthropic menegaskan bahwa peningkatan kecerdasan ini tidak mengorbankan aspek keamanan. Berdasarkan audit perilaku otomatis, Claude Opus 4.6 menunjukkan tingkat rendah perilaku menyimpang, seperti penipuan, sikap terlalu menyenangkan pengguna, hingga potensi penyalahgunaan. Model ini juga memiliki tingkat over-refusal terendah, yakni kondisi ketika AI menolak pertanyaan yang sebenarnya aman.
Untuk memastikan keamanan, Anthropic melakukan evaluasi paling komprehensif yang pernah diterapkan pada model Claude. Pengujian mencakup kesejahteraan pengguna, kemampuan menolak permintaan berbahaya, hingga analisis potensi tindakan merugikan yang tersembunyi. Pendekatan interpretabilitas juga mulai digunakan untuk memahami alasan di balik perilaku model secara lebih mendalam.
Fitur Baru untuk Pengembang dan Profesional
Claude Opus 4.6 hadir dengan sejumlah pembaruan di Claude Code dan Claude Developer Platform. Kini, pengguna dapat membentuk tim agen AI yang bekerja paralel dalam satu tugas. Melalui API, tersedia fitur context compaction yang secara otomatis merangkum konteks lama agar tugas jangka panjang tidak terhenti oleh batas token.
Anthropic juga memperkenalkan adaptive thinking, di mana model dapat menyesuaikan kedalaman penalarannya sesuai kebutuhan. Tersedia pula empat tingkat effort yang memungkinkan pengembang menyeimbangkan kecerdasan, kecepatan, dan biaya.
Integrasi Claude dengan aplikasi perkantoran juga diperluas. Claude di Excel kini lebih andal menangani tugas kompleks, sementara Claude di PowerPoint diperkenalkan dalam research preview, memungkinkan pengguna mengubah data menjadi presentasi visual yang konsisten dengan identitas brand. Claude Opus 4.6 sudah tersedia melalui claude.ai, API resmi, serta berbagai platform cloud utama.
