Apa Itu Tülu 3? Terobosan Baru dalam Post-Training AI
- Rita Puspita Sari
- •
- 14 jam yang lalu
![Ilustrasi Artificial Intelligence](https://b.acaraseru.com/images/e3f5ec1d-6daf-495c-a888-21017da40260/lm-ilustrasi-artificial-intelligence-2.jpg)
Ilustrasi Artificial Intelligence
Dalam dunia kecerdasan buatan (AI), pelatihan model bahasa tidak berhenti hanya pada tahap pelatihan awal. Ada langkah penting setelahnya yang disebut post-training, yaitu serangkaian teknik seperti instruction tuning dan reinforcement learning from human feedback. Langkah ini bertujuan untuk menyempurnakan perilaku model dan membuka kemampuan baru agar lebih responsif terhadap pengguna.
Sejak awal munculnya pendekatan seperti InstructGPT dan ChatGPT versi pertama, metode post-training terus berkembang dengan semakin kompleks. Saat ini, teknik yang digunakan meliputi beberapa putaran pelatihan, penggabungan model, pemanfaatan data sintetis, umpan balik AI, serta berbagai algoritma dan tujuan pelatihan, seperti yang terlihat dalam laporan Llama 3.1.
Namun, meskipun metode post-training terus berkembang, dalam ekosistem AI terbuka, kemajuan dalam metode post-training yang benar-benar transparan mulai mengalami hambatan. Banyak model AI yang kini tidak menyediakan data pelatihan mereka secara terbuka, sehingga sulit untuk mereproduksi hasil atau memahami bagaimana strategi fine-tuning tertentu mempengaruhi performa model.
Untuk mengatasi masalah ini, Tülu 3 hadir sebagai solusi. Model ini tidak hanya menawarkan performa tinggi, tetapi juga menjadikan seluruh proses post-training lebih transparan dan terbuka. Dengan Tülu 3, semua aspek dalam pipeline post-training termasuk dataset pelatihan, alat kurasi data, skrip untuk membersihkan data, kode pelatihan, hingga alat evaluasi tersedia secara terbuka. Hal ini memungkinkan para peneliti dan pengembang untuk memahami serta mengembangkan lebih lanjut metode post-training berbasis AI secara lebih efektif.
Keunggulan Tülu 3 dalam Open Post-Training
Tülu 3 adalah model post-training terbaik yang dirancang dengan pendekatan terbuka dan transparan. Dibandingkan dengan model post-training lainnya, seperti Llama 3.1-Instruct, Qwen2.5-Instruct, Mistral-Instruct, dan Nemotron, Tülu 3 berhasil menunjukkan performa unggul dalam berbagai pengujian.
Model ini dikembangkan dengan tujuan tidak hanya mencapai kinerja terbaik tetapi juga menutup kesenjangan antara model AI open-source dan model proprietary yang dikembangkan secara tertutup oleh perusahaan besar. Dengan menyediakan seluruh pipeline pelatihan secara transparan, Tülu 3 memungkinkan komunitas AI untuk berkontribusi dan meningkatkan metode post-training di masa depan.
Komponen Utama Tülu 3
Keberhasilan Tülu 3 dalam menghadirkan model AI yang unggul dan transparan tidak terjadi secara kebetulan. Model ini dikembangkan melalui inovasi yang sistematis dan terstruktur, memastikan setiap tahap post-training dilakukan dengan pendekatan terbaik. Ada empat komponen utama yang menjadi pilar keberhasilan Tülu 3, yaitu Tülu 3 Data, Tülu 3 Code, Tülu 3 Eval, dan Tülu 3 Recipe.
Setiap komponen ini tidak hanya dirancang untuk meningkatkan performa model, tetapi juga untuk memastikan bahwa AI dapat dikembangkan dengan cara yang terbuka, dapat direproduksi, dan mudah diakses oleh komunitas AI global. Berikut adalah penjelasan lebih rinci mengenai keempat komponen utama Tülu 3:
- Tülu 3 Data: Fondasi Pelatihan Berkualitas Tinggi
Data adalah inti dari setiap model AI yang sukses. Dalam pengembangan Tülu 3, data yang digunakan tidak hanya berasal dari sumber terbuka, tetapi juga dipilih dan dikurasi dengan cermat untuk memastikan kualitasnya.Keunggulan Tülu 3 Data:
- Kualitas Tinggi: Hanya dataset yang memiliki informasi relevan dan kredibel yang digunakan dalam pelatihan.
- Variasi Luas: Dataset mencakup berbagai skenario komunikasi manusia, mulai dari pemrograman, pemecahan masalah matematika, hingga interaksi sehari-hari.
- Gabungan Data Nyata dan Sintetis: Tülu 3 menggunakan data asli dari pengguna serta data sintetis yang dihasilkan oleh model AI untuk meningkatkan variasi dan cakupan pelatihan.
- Bersih dan Terverifikasi: Setiap dataset melewati tahap pembersihan untuk menghilangkan bias serta memastikan tidak ada data duplikat atau informasi yang tidak akurat.
Dengan pendekatan ini, Tülu 3 Data menjadi fondasi yang kokoh dalam membangun model AI yang lebih cerdas, akurat, dan mampu menangani berbagai skenario dengan lebih baik.
- Tülu 3 Code: Infrastruktur yang Dapat Direproduksi
Salah satu tantangan terbesar dalam pengembangan AI adalah memastikan bahwa proses pelatihan dapat direproduksi oleh komunitas peneliti dan pengembang lainnya. Tülu 3 Code dirancang untuk mengatasi tantangan ini dengan menyediakan kode sumber terbuka yang memungkinkan siapa pun untuk memahami, memodifikasi, dan meningkatkan proses pelatihan model AI.Keunggulan Tülu 3 Code:
- Transparansi: Semua skrip pelatihan, pipeline pengolahan data, dan arsitektur model tersedia untuk umum.
- Dapat Direproduksi: Pengembang dapat menjalankan kembali pelatihan model dengan konfigurasi yang sama untuk mendapatkan hasil yang serupa.
- Fleksibilitas dan Skalabilitas: Infrastruktur kode dirancang agar dapat berjalan pada berbagai sistem, mulai dari komputer pribadi hingga pusat data berskala besar.
- Optimasi Performa: Setiap bagian kode dioptimalkan untuk meningkatkan efisiensi komputasi dan mempercepat waktu pelatihan model.
Dengan Tülu 3 Code, komunitas AI tidak hanya dapat menggunakan model yang sudah ada, tetapi juga dapat mengembangkan inovasi baru dengan fondasi yang kuat dan terbuka.
- Tülu 3 Eval: Evaluasi yang Transparan dan Objektif
Keunggulan sebuah model AI tidak hanya ditentukan oleh data dan pelatihannya, tetapi juga oleh bagaimana model tersebut dievaluasi. Tülu 3 Eval adalah toolkit evaluasi yang dirancang untuk mengukur kinerja model dengan standar yang jelas dan terukur.Keunggulan Tülu 3 Eval:
- Metodologi Evaluasi yang Jelas: Pengujian dilakukan dengan standar yang transparan sehingga hasilnya dapat dipercaya.
- Beragam Kriteria Pengujian: Model diuji dalam berbagai aspek, seperti pemahaman bahasa, kemampuan berpikir logis, penyelesaian masalah, serta keakuratan dan konsistensi respons.
- Tolok Ukur yang Dapat Dibandingkan: Performa model dibandingkan dengan model lain di kategori yang sama untuk mengetahui keunggulan dan kelemahannya.
- Alat Evaluasi yang Dapat Diakses: Komunitas AI dapat menggunakan Tülu 3 Eval untuk menguji model mereka sendiri dan membandingkan hasilnya.
Dengan adanya Tülu 3 Eval, pengguna dapat mengetahui dengan pasti seberapa baik performa model AI yang mereka gunakan dan bagaimana cara meningkatkannya di masa depan.
- Tülu 3 Recipe: Metodologi Pelatihan yang Sistematis
Metodologi pelatihan yang tepat sangat penting untuk menciptakan model AI yang tidak hanya pintar, tetapi juga dapat diandalkan dalam berbagai situasi. Tülu 3 Recipe adalah pendekatan lima langkah utama dalam post-training yang menjadikan model ini lebih unggul dibandingkan model open-source lainnya.
Lima Langkah dalam Tülu 3 Recipe:
- Kurasi dan Sintesis Prompt
Model dilatih menggunakan pertanyaan atau skenario interaksi yang mencerminkan berbagai cara pengguna berkomunikasi dengan AI. - Supervised Finetuning (SFT)
Model disempurnakan dengan menggunakan data berkualitas tinggi yang telah dikurasi sebelumnya. - Direct Preference Optimization (DPO)
Teknik ini memungkinkan model untuk belajar dari preferensi pengguna, sehingga memberikan respons yang lebih relevan. - Metode RL berbasis Reward
Model ditingkatkan dengan teknik pembelajaran penguatan yang berbasis sistem reward untuk meningkatkan performanya. - Evaluasi Standar
Sebelum dirilis, model diuji dengan serangkaian evaluasi ketat untuk memastikan bahwa hasil akhirnya benar-benar optimal.
Keunggulan Tülu 3 Recipe:
- Menghasilkan Model yang Lebih Pintar dan Responsif: Dengan metode pelatihan yang sistematis, Tülu 3 dapat memahami dan merespons berbagai jenis pertanyaan dengan lebih baik.
- Menyempurnakan Perilaku Model: Model tidak hanya belajar memberikan jawaban yang benar, tetapi juga memahami konteks dan memberikan respons yang lebih sesuai.
- Dapat Digunakan untuk Berbagai Kebutuhan: Dari chatbot hingga asisten virtual, pendekatan Tülu 3 dapat diterapkan dalam berbagai skenario AI.
Dengan Tülu 3 Recipe, model yang dihasilkan bukan hanya sekadar AI biasa, tetapi sebuah sistem yang benar-benar memahami interaksi manusia dan mampu memberikan respons yang lebih alami serta bermanfaat.
- Kurasi dan Sintesis Prompt
Mengoptimalkan Model Bahasa di Tülu 3
Dalam dunia kecerdasan buatan (AI), pelatihan model bahasa tidak hanya bergantung pada data, tetapi juga bagaimana model belajar dari data tersebut. Salah satu metode yang digunakan untuk meningkatkan kualitas model adalah preference tuning, reinforcement learning, serta evaluasi performa model.
Berikut adalah bagaimana pendekatan tersebut diterapkan dalam Tülu 3, sebuah model AI yang dikembangkan dengan teknik terbaru untuk meningkatkan pemahaman dan akurasi dalam berbagai tugas, seperti menjawab pertanyaan, mengikuti instruksi, serta menyelesaikan soal matematika.
- Penyetelan Preferensi: Mengoptimalkan Respons Model AI
Penyetelan preferensi adalah teknik di mana model AI dilatih untuk memberikan respons yang lebih sesuai dengan harapan pengguna. Dalam Tülu 3, proses ini dilakukan dengan mengumpulkan sekitar 200.000 hingga 300.000 prompt yang kemudian dikonversi menjadi data preferensi menggunakan model on-policy (Tülu 3 suite) dan off-policy (model instruksi lainnya yang tersedia).
Bagaimana proses penyetelan preferensi dilakukan?
- Pengumpulan Prompt
- Data diambil dari kumpulan prompt yang telah digunakan sebelumnya dalam tahap Supervised Fine-Tuning (SFT), serta beberapa prompt baru yang belum pernah digunakan.
- Menghasilkan Respons dari Berbagai Model
- Setiap prompt diberikan kepada beberapa model AI dari kumpulan model yang tersedia untuk menghasilkan berbagai respons.
- Untuk memastikan data on-policy tetap digunakan, respons juga dihasilkan menggunakan model Tülu 3 SFT.
- Menilai Kualitas Respons
- Respons yang dihasilkan kemudian dievaluasi oleh model bahasa besar GPT-4o-2024-0806.
- Penilaian dilakukan berdasarkan empat aspek utama, yaitu:
- Seberapa membantu (helpfulness)
- Kemampuan mengikuti instruksi (instruction-following)
- Kejujuran (honesty)
- Kebenaran informasi (truthfulness)
- Memilih dan Menolak Respons
- Respons dengan skor tertinggi dipilih sebagai contoh respons yang baik.
- Respons dengan skor lebih rendah dipilih secara acak sebagai respons yang ditolak.
Selain itu, data tambahan dikembangkan untuk meningkatkan keterampilan tertentu, seperti mengikuti instruksi secara lebih tepat. Hal ini dilakukan dengan memodifikasi batasan pada prompt dan menghasilkan respons yang ditolak dari prompt yang telah dimodifikasi.Eksperimen dengan Algoritma Preferensi
Beberapa algoritma yang diuji dalam penyetelan preferensi meliputi:- DPO (Direct Preference Optimization)
- PPO (Proximal Policy Optimization)
- SimPO (varian dari PPO dan DPO)
Dari eksperimen ini, ditemukan bahwa DPO dengan normalisasi panjang respons memberikan hasil terbaik dibandingkan metode lainnya. Selain itu, hasil eksperimen menunjukkan bahwa:
- Menambah jumlah prompt unik meningkatkan kinerja DPO secara keseluruhan
- Menggunakan prompt baru dalam campuran DPO lebih efektif dibandingkan hanya menggunakan kembali prompt dari tahap SFT
- Data on-policy (dari Tülu 3) memberikan hasil lebih baik dibandingkan dataset off-policy
Kesimpulannya, dengan menggunakan metode penyetelan preferensi ini, Tülu 3 dapat menghasilkan respons yang lebih relevan, akurat, dan sesuai dengan kebutuhan pengguna.
- Pengumpulan Prompt
- Reinforcement Learning dengan Reward yang Dapat Diverifikasi (RLVR)
Selain penyetelan preferensi, model AI juga dapat dilatih menggunakan Reinforcement Learning (RL). Salah satu metode terbaru yang digunakan dalam Tülu 3 adalah Reinforcement Learning dengan Verifiable Rewards (RLVR).Metode ini berbeda dari Reinforcement Learning with Human Feedback (RLHF) karena menggantikan model reward dengan fungsi verifikasi.
Bagaimana RLVR Bekerja?- Dalam tugas yang memiliki jawaban pasti, seperti pemecahan soal matematika dan mengikuti instruksi, RLVR menggunakan verifikasi jawaban sebagai tolok ukur keberhasilan.
- Model hanya menerima reward jika respons yang dihasilkan terverifikasi benar.
- Dengan cara ini, RLVR lebih sederhana dibandingkan pendekatan lain yang menggunakan umpan balik kompleks.
Hasil Pengujian RLVR
Ketika diterapkan pada Tülu 3, RLVR terbukti meningkatkan performa model dalam berbagai benchmark, seperti:- MATH: +1,7 poin
- GSM8K: +3,3 poin
- IFEval: +1,3 poin
Menariknya, RLVR juga meningkatkan kinerja model pada tugas yang tidak secara langsung dioptimalkan, seperti:
- BigBenchHard
- Drop
- AlpacaEval 2
Hal ini menunjukkan bahwa RLVR tidak hanya meningkatkan kinerja model dalam tugas tertentu, tetapi juga meningkatkan kemampuan pemecahan masalah secara umum.
- Evaluasi Model: Tülu 3 Eval
Setelah model dilatih dengan penyetelan preferensi dan RLVR, langkah berikutnya adalah evaluasi performa model. Untuk itu, Tülu 3 menggunakan Tülu 3 Eval, yaitu rangkaian evaluasi standar dan toolkit untuk menilai kinerja model serta membersihkan data pelatihan.Tujuan Evaluasi Tülu 3 Eval
- Evaluasi harus dapat direproduksi, sehingga hasilnya tetap konsisten di berbagai eksperimen.
- Menilai kemampuan model dalam menggeneralisasi ke tugas yang belum pernah dilihat sebelumnya, bukan hanya benchmark yang digunakan selama pengembangan.
- Metode evaluasi harus adil untuk berbagai jenis model, termasuk template dan strategi pemanggilan yang digunakan.
Dengan Tülu 3 Eval, pengembang dapat mengambil model AI dasar dan melakukan fine-tuning agar lebih optimal untuk berbagai tugas spesifik. Ini membuka jalan bagi penelitian lebih lanjut dalam pengembangan AI yang lebih canggih dan serbaguna.
Kesimpulan
Tülu 3 bukan hanya model AI biasa, tetapi sebuah langkah besar menuju post-training yang lebih transparan dan berkualitas tinggi. Dengan pendekatan yang mengedepankan keterbukaan, Tülu 3 memungkinkan komunitas AI untuk lebih memahami dan mengembangkan metode post-training yang lebih baik.
Dengan performa yang mengungguli banyak model open-source lainnya dan pendekatan yang transparan, Tülu 3 menjadi salah satu inovasi paling menjanjikan dalam dunia AI modern. Model ini membuktikan bahwa keterbukaan dan transparansi dapat menjadi kunci utama dalam menciptakan AI yang lebih cerdas, etis, dan dapat diandalkan.