CLaRa Apple: Mesin RAG Super Ringkas yang Bikin AI Makin Cerdas

Rita Puspita Sari
•
13 Des 2025 19.42 WIB

Dalam dunia kecerdasan buatan, Retrieval-Augmented Generation (RAG) telah menjadi fondasi penting untuk membuat model bahasa lebih akurat, faktual, dan efisien. Namun, ada satu masalah klasik yang terus menghantui RAG sejak awal: setiap pertanyaan harus memasukkan ribuan bahkan puluhan ribu token ke dalam context window. Retriever dan generator bekerja dalam dua ruang terpisah—retriever memilih dokumen, generator membaca dokumen—tanpa benar-benar “saling memahami.” Akibatnya, RAG sering lambat, mahal, dan jauh dari optimal.

Tim peneliti dari Apple dan University of Edinburgh kini menghadirkan solusi baru yang sangat menjanjikan: CLaRa (Continuous Latent Reasoning). Framework ini terdiri dari tiga model yaitu CLaRa-7B-Base, CLaRa-7B-Instruct, dan CLaRa-7B-E2E yang tidak hanya mempercepat proses retrieval, tetapi juga mempersempit konteks hingga 16x–128x lebih singkat tanpa mengorbankan akurasi. Bahkan, dalam beberapa pengujian, hasilnya lebih baik dibanding RAG yang membaca teks lengkap (full-document RAG).

Mengapa RAG Perlu Dirombak?

Sebelum memahami CLaRa, kita perlu memahami tantangan besar dalam sistem RAG saat ini:

Biaya kontekstual sangat tinggi
Ketika sistem RAG memasukkan artikel Wikipedia, halaman web, atau dokumen panjang ke dalam model, ukuran konteks bisa membengkak secara ekstrem. Semakin banyak token, semakin mahal dan lambat inferensinya.
Retriever dan generator “tidak sejalan”
Retriever memilih dokumen berdasarkan embedding tradisional, sementara generator membaca dokumen sebagai teks penuh. Hal ini menciptakan mismatch antara apa yang dianggap relevan oleh retriever dan apa yang sebenarnya dibutuhkan generator untuk menjawab.
Double encoding
Untuk setiap query, dokumen harus:
- dienkode oleh retriever,
- lalu dibaca ulang oleh generator.
- Dua sistem encoding ini membuat proses semakin berat.
Efisiensi multi-hop reasoning rendah
Terkadang jawaban memerlukan penalaran dari beberapa dokumen sekaligus. RAG klasik tidak memiliki mekanisme internal yang mulus untuk menghubungkan dokumen secara laten.

CLaRa dirancang untuk mengatasi seluruh masalah ini sekaligus.

CLaRa: Mengompresi Dokumen ke Dalam Memory Token Continuum

Inti inovasi CLaRa adalah mengubah setiap dokumen menjadi beberapa token memori kontinu. Alih-alih memproses ribuan token teks asli, CLaRa hanya memproses 4–32 token per dokumen, tergantung tingkat kompresi.

Ini memungkinkan:

context window jauh lebih ringkas,
dokumen dapat direpresentasikan dalam ruang laten yang sama dengan query,
generator dapat memahami memori yang sudah “diringkas” dengan cerdas.

Bagaimana kompresi bekerja?
Semua berawal dari Salient Compressor Pretraining (SCP), sebuah teknik untuk melatih model agar mampu:

memadatkan dokumen,
mempertahankan informasi inti,
memfokuskan diri pada fakta penting,
tetap sinkron dengan generator.

CLaRa menggunakan model Mistral 7B dengan LoRA adapter yang bisa bertukar peran sebagai:

compressor
generator

Setiap dokumen ditempeli sejumlah memory token yang dipelajari (learned tokens). Hidden state final dari token-token inilah yang menjadi representasi terkompresi.

Data pelatihan
Model dilatih menggunakan lebih dari 2 juta artikel Wikipedia 2021.

Model Qwen-32B lokal menghasilkan tiga sinyal supervisi:

QA sederhana
Untuk memastikan fakta dasar tetap terjaga.
QA kompleks
Memaksa model melakukan reasoning multi-hop antar paragraf.
Parafrase
Untuk melatih pemadatan teks tanpa kehilangan makna.

Loop verifikasi hingga 10 kali memastikan kualitas dan konsistensi setiap data sebelum dipakai.

Dua Jenis Loss: Kombinasi yang Bikin Kompresi Stabil dan Akurat

Untuk membuat representasi dokumen tetap padat sekaligus akurat, CLaRa menggunakan dua loss utama:

Cross Entropy
Mendorong generator menjawab hanya berdasarkan memory token, sehingga kompresi dipastikan relevan untuk proses tanya jawab.
Mean Squared Error (MSE)
Menyelaraskan rata-rata embedding dokumen asli dengan memory token.

Walau sederhana, MSE memberikan peningkatan stabil 0.3–0.6 F1 pada kompresi ekstrem seperti 32x dan 128x. Ini membuktikan bahwa MSE membantu menjaga kedekatan semantik antara dokumen asli dan versi terkompresi.

Retrieval dan Generation Kini Berada dalam Ruang Laten yang Sama

Inilah bagian paling revolusioner dari CLaRa. Setelah dokumen dikompresi, proses query dan generation dilakukan oleh model yang sama, di ruang laten yang sama, tanpa double encoding.

Query reasoner
Merupakan adapter LoRA yang mengubah pertanyaan menjadi memory-token embedding dengan panjang yang sama seperti dokumen.
Dengan kata lain:
Pertanyaan dan dokumen kini berbicara dalam “bahasa laten” yang sama.
Retrieval
Dilakukan dengan cosine similarity antara embedding query dan embedding dokumen. Tidak perlu scoring model terpisah, tidak ada pipeline rumit.
Generator
Mengambil memory token dokumen + token query untuk memproduksi jawaban. Pelatihan retrieval+generation dilakukan tanpa label relevansi eksplisit. Model hanya dilatih menggunakan loss prediksi token berikutnya.

Trik Kunci: Differentiable Top-k Selector

Ini adalah teknologi penting yang memungkinkan retriever belajar dari kesalahan generator.

Prosesnya:

Forward pass
Top-k dokumen dipilih secara keras (hard selection).
Backward pass
Softmax dipakai agar gradient dari generator bisa mengalir kembali ke query reasoner.

Hasilnya?

Gradient generator mengajari retriever

Retriever belajar menaikkan skor dokumen yang:

benar-benar mendukung jawaban,
membantu generator menghasilkan respon yang lebih akurat.

Penelitian menunjukkan embedding query bahkan memunculkan sinyal laten seperti “NFL” atau “Oklahoma” pada pertanyaan tentang tokoh bernama Ivory Lee Brown—meski kata-kata tersebut tidak muncul dalam pertanyaan, tetapi muncul dalam artikel sumber.

Artinya, model dapat “menebak” topik pendukung berdasarkan penalaran internal.

Kualitas Kompresi: Lebih Pendek, Lebih Akurat dari Full-Text RAG

Model diuji menggunakan empat dataset besar:

Natural Questions
HotpotQA
MuSiQue
2WikiMultihopQA

Hasil Normal Setting (top-5 dokumen Wikipedia per query)
Dengan kompresi 4x:

F1 rata-rata: 39.86
+5.37 poin dibanding LLMLingua 2
+1.13 poin dibanding PISCO

Hasil Oracle Setting
Dengan kompresi 4x:

F1 rata-rata: 66.76
+17.31 poin dari LLMLingua 2
+5.35 poin dari PISCO

Yang mengejutkan, representasi terkompresi bahkan mengungguli sistem RAG full-text:

+2.36 F1 dibanding Mistral 7B full document
+6.36 F1 dibanding Phi-4-mini full document

Ini menunjukkan bahwa:

Kompresi laten yang dirancang dengan baik dapat mengalahkan RAG berbasis teks penuh, meski panjang konteks 4–128 kali lebih pendek.
Pada kompresi ekstrem (32x–128x), kualitas memang menurun di kondisi Oracle, tetapi tetap stabil di kondisi Normal.

Peneliti menyimpulkan: bottleneck utama adalah retrieval, bukan kualitas kompresinya.

Performa End-to-End: Setara RAG Full-Text, Tapi 16x Lebih Ringkas

Untuk QA end-to-end, CLaRa menggunakan 20 kandidat dokumen per query.

Hasil Normal Setting
Pada kompresi 16x:

50.89 F1 di Natural Questions
44.66 F1 di 2WikiMultihopQA

Angka ini setara dengan:

DRO-Mistral-7B yang memakai teks lengkap
Tetapi CLaRa hanya menggunakan dokumen terkompresi 16x.

Pada beberapa dataset, CLaRa bahkan melampaui DRO.

Oracle Setting
Pada kompresi 4x:

F1 di atas 75 pada Natural Questions dan HotpotQA.

Hasil ini menegaskan bahwa dengan retrieval yang akurat, memory token sudah lebih dari cukup untuk reasoning berbasis bukti.

Performa Retrieval: Mengalahkan BGE dan Reranker Fully Supervised

Ketika dipakai sebagai reranker di Oracle:

CLaRa-Mistral-7B kompresi 4x menghasilkan Recall@5 = 96.21 pada HotpotQA
Mengalahkan BGE Reranker (85.93)
Bahkan melampaui retriever fully supervised dengan label relevansi kontrasif

Ini pencapaian besar, mengingat representasi dokumen sudah dikompresi drastis.

Apa Saja yang Dirilis Apple ke Publik?

Apple merilis tiga model di Hugging Face:

CLaRa-7B-Base
Model dasar untuk eksperimen kompresi dan retrieval.
CLaRa-7B-Instruct
Model RAG terpadu berinstruksi dengan kompresi 16x dan 128x bawaan.
Cocok untuk aplikasi RAG langsung out-of-the-box.
CLaRa-7B-E2E
Model end-to-end untuk workflow lengkap retrieval + generation di ruang laten.

CLaRa-7B-Instruct dibangun dari Mistral-7B-Instruct v0.2, sehingga dapat digunakan layaknya model tanya jawab normal—namun dengan kemampuan membaca dokumen terkompresi secara native.

CLaRa Bisa Menjadi Masa Depan RAG

CLaRa bukan sekadar kompresor dokumen. Framework ini mengubah cara sistem RAG bekerja dari dasar:

Menghilangkan double encoding
Memperpendek konteks hingga 128x
Meningkatkan akurasi retrieval dan QA
Menyatukan query, retrieval, dan generation dalam ruang laten yang sama
Menghadirkan reasoning laten yang lebih fleksibel dan efisien

Dengan hasil yang bahkan mengungguli sistem full-text pada beberapa benchmark, CLaRa membuka peluang baru untuk:

RAG berbiaya rendah
model on-device
aplikasi pengetahuan besar dengan konteks ultra singkat
reasoning multihop yang efisien

Rilis Apple ini menunjukkan sebuah tren baru: masa depan RAG tidak lagi bertumpu pada membaca teks panjang, melainkan memahami representasi laten yang ringkas namun kaya informasi.

Jika pengembang mengadopsi pendekatan seperti CLaRa, kita mungkin akan melihat model bahasa yang lebih cepat, lebih ringan, dan lebih pintar dalam menelusuri pengetahuan.