NExT-GPT: Revolusi AI Multimodal Any-to-Any yang Fleksibel
- Rita Puspita Sari
- •
- 18 Feb 2025 00.58 WIB
![Ilustrasi AI Multimodal](https://b.acaraseru.com/images/ddf2929a-e2ec-48ac-97b4-99a16d416ece/lm-ilustrasi-ai-multimodal.jpg)
Ilustrasi AI Multimodal
Perkembangan kecerdasan buatan (AI) semakin pesat, terutama dalam large language model multimodal (MM-LLMs) yang mampu memahami berbagai jenis input, seperti teks, gambar, audio, dan video. Namun, kebanyakan model AI saat ini masih terbatas dalam menghasilkan output hanya dalam satu format, padahal manusia berkomunikasi dengan beragam cara.
Untuk menjawab tantangan ini, para peneliti dari National University of Singapore mengembangkan NExT-GPT, sebuah model AI multimodal any-to-any yang memungkinkan interaksi lebih fleksibel dengan berbagai jenis input dan output.
Artikel ini akan membahas secara mendalam tentang NExT-GPT, mulai dari arsitektur, cara kerja, hingga keunggulannya dibandingkan AI multimodal lainnya. Simak sampai selesai ya!
Apa Itu NExT-GPT?
NExT-GPT adalah sebuah model AI yang dapat menerima dan menghasilkan berbagai format konten, termasuk teks, gambar, video, dan audio. Model ini menghubungkan LLM dengan adaptor multimodal dan berbagai decoder berbasis difusi.
Dengan memanfaatkan encoder dan decoder yang telah dilatih sebelumnya, NExT-GPT hanya memerlukan sedikit penyesuaian parameter (sekitar 1%), sehingga lebih hemat biaya dan memungkinkan ekspansi ke lebih banyak jenis data di masa depan.
Model ini dikembangkan oleh tim riset NExT++ dari National University of Singapore dan menjadi solusi AI yang lebih fleksibel dalam memahami serta menghasilkan konten dalam berbagai bentuk.
Arsitektur NExT-GPT
- Tahap Pengkodean Multimodal
Pada tahap ini, NExT-GPT menggunakan encoder untuk mengonversi berbagai jenis input menjadi format yang dapat dipahami oleh large language model (LLM). Salah satu encoder utama yang digunakan adalah ImageBind, yang mampu menangani enam jenis data secara bersamaan.Hasil representasi dari berbagai input kemudian dipetakan ke format berbasis teks menggunakan lapisan pemetaan linear sebelum diproses lebih lanjut oleh LLM.
- Tahap Pemrosesan dan Pemahaman LLM
Setelah input diproses oleh encoder, data dikirimkan ke large language model (LLM) untuk analisis semantik dan pemahaman konteks. Dalam NExT-GPT, model LLM yang digunakan adalah Vicuna, sebuah LLM open-source yang telah dioptimalkan untuk tugas multimodal.
LLM ini menghasilkan dua jenis output utama:
- Teks langsung yang dapat dibaca oleh pengguna.
- Token sinyal yang menentukan apakah model perlu menghasilkan konten dalam bentuk multimodal lain (misalnya gambar atau audio).
- Tahap Pembuatan Konten Multimodal
Jika token sinyal yang dihasilkan oleh LLM menunjukkan perlunya output multimodal, maka sinyal tersebut dikirim ke decoder terkait:
- Stable Diffusion (SD): Untuk menghasilkan gambar.
- Zeroscope: Untuk menghasilkan video.
- AudioLDM: Untuk menghasilkan suara.
Decoder berbasis model difusi ini telah terbukti sangat efektif dalam menghasilkan konten berkualitas tinggi yang realistis dan relevan dengan konteks yang diberikan
Kelebihan NExT-GPT
Berikut kelebihan NExT-GPT dibandingkan AI multimodal lainnya:
- Any-to-Any Multimodal
Mampu menangani berbagai kombinasi input dan output, termasuk teks, gambar, video, dan audio, sementara AI multimodal lain biasanya hanya fokus pada satu arah. - Efisiensi Parameter & Hemat Biaya
Hanya memerlukan penyesuaian parameter sekitar 1%, berkat penggunaan encoder dan decoder yang telah dilatih sebelumnya, sehingga lebih hemat sumber daya. - Modality-Switching Instruction Tuning (MosIT)
Memungkinkan AI memahami hubungan antar-modalitas dengan lebih kompleks dan menghasilkan konten multimodal yang lebih akurat serta sesuai konteks. - Integrasi Model Difusi Canggih
Menggunakan Stable Diffusion untuk gambar, Zeroscope untuk video, dan AudioLDM untuk suara, yang menghasilkan output berkualitas tinggi dan realistis. - Penyelarasan Multimodal yang Fleksibel
Sistem Lightweight Multimodal Alignment Learning memungkinkan penyelarasan input-output dengan perubahan minimal pada tahap pengkodean dan dekoding, meningkatkan fleksibilitas dalam pemrosesan data.
Cara Kerja Sistem Inferensi pada NExT-GPT
Dalam dunia kecerdasan buatan (AI), sistem inferensi memainkan peran penting dalam menghasilkan output berdasarkan input yang diberikan oleh pengguna. NExT-GPT adalah salah satu model AI canggih yang mampu bekerja dengan berbagai format input, seperti teks, gambar, audio, dan video. Berikut adalah cara kerja sistem inferensi pada NExT-GPT, serta teknologi penyelarasan multimodal dan teknik penyesuaian instruksi yang digunakan.
Proses Inferensi dalam NExT-GPT
Proses inferensi dalam NExT-GPT terdiri dari beberapa langkah utama yang memastikan model dapat menghasilkan output yang relevan dan sesuai dengan permintaan pengguna:
- Penerimaan Input
Pengguna dapat memberikan input dalam satu atau lebih format, seperti teks, gambar, audio, atau video. - Pengolahan oleh Encoder dan Lapisan Pemetaan
Input yang diterima akan diubah menjadi representasi fitur yang dapat dipahami oleh large language model (LLM). Ini dilakukan melalui encoder dan lapisan pemetaan. - Analisis oleh LLM
LLM menganalisis input dan menentukan jenis output yang perlu dihasilkan. Jika hanya membutuhkan teks, sistem akan langsung memberikan jawaban. - Pengaktifan Token Sinyal Multimodal
Jika output yang dibutuhkan berupa gambar, audio, atau video, LLM akan menghasilkan token sinyal khusus untuk mengaktifkan decoder terkait. - Pembuatan Output oleh Decoder
Token sinyal multimodal akan dikirim ke decoder yang sesuai, yang kemudian menghasilkan output dalam format yang diminta. - Penyampaian Output kepada Pengguna
Output yang telah diproses dikirimkan kepada pengguna dalam format yang sesuai dengan permintaannya.
Untuk menentukan jenis output yang dihasilkan, NExT-GPT menggunakan token sinyal khusus sebagai berikut:
'<IMGi>' (i=0,...,4) untuk gambar,
'<AUDi>' (i=0,...,8) untuk audio,
'<VIDi>' (i=0,...,24) untuk video.
Jika tidak ada token sinyal khusus yang dihasilkan, maka output yang diberikan hanya berupa teks.
Lightweight Multimodal Alignment Learning
NExT-GPT dirancang dengan sistem lightweight multimodal alignment learning yang terdiri dari tiga lapisan utama. Pendekatan ini memungkinkan model untuk bekerja secara fleksibel dengan perubahan minimal pada tahap pengkodean dan dekoding.
- Penyelarasan Multimodal Berbasis LLM di Sisi Pengkodean
Pada tahap pengkodean, data dari berbagai format input diselaraskan ke dalam format berbasis teks. Dengan demikian, LLM dapat memahami input yang diberikan tanpa perlu langsung bekerja dengan data dalam bentuk gambar, audio, atau video. - Penyelarasan Instruksi di Sisi Dekoding
Setelah LLM menghasilkan token sinyal, tahap berikutnya adalah pemetaan token tersebut dengan representasi kondisi model difusi dalam decoder. Salah satu keunggulan sistem ini adalah model difusi tetap dalam kondisi beku, sehingga proses pembelajaran hanya dilakukan berdasarkan referensi teks tanpa memerlukan input visual atau audio tambahan.
Modality-Switching Instruction Tuning (MosIT)
Agar NExT-GPT dapat memahami berbagai jenis input dan menghasilkan output yang relevan, diperlukan teknik penyetelan tambahan yang disebut Modality-Switching Instruction Tuning (MosIT). Teknik ini memungkinkan LLM untuk menangani berbagai skenario input-output multimodal secara lebih efektif.
Cara Kerja MosIT:
- Sistem menerima contoh dialog yang mencakup berbagai jenis input.
- LLM merekonstruksi teks dari input tersebut dan mengidentifikasi konten multimodal menggunakan token sinyal khusus.
- Penyesuaian dilakukan berdasarkan anotasi referensi berkualitas tinggi dan keluaran LLM.
- Token sinyal yang dihasilkan selanjutnya diselaraskan dengan representasi multimodal dalam decoder.
Melalui proses ini, interaksi antara AI dan pengguna menjadi lebih akurat dan sesuai dengan konteks permintaan.
Dataset MosIT: Dasar Pelatihan NExT-GPT
Sebagian besar dataset Instruction Tuning (IT) yang ada saat ini tidak mampu menangani kebutuhan sistem multimodal yang fleksibel. Oleh karena itu, dataset MosIT dikembangkan untuk melatih model MM-LLMs agar dapat berinteraksi dengan pengguna secara lebih efektif.
Dataset MosIT mencakup berbagaia kombinasi input-output multimodal yang kompleks, sehingga memungkinkan AI untuk:
- Memahami berbagai skenario input dan menghasilkan respons yang lebih sesuai.
- Mengembangkan kemampuan dalam menangani perintah dengan format campuran (teks, gambar, audio, dan video).
- Menghasilkan output yang lebih akurat dalam berbagai situasi pengguna.
Kesimpulan:
NExT-GPT merupakan model MM-LLM revolusioner yang dapat menerima dan menghasilkan konten dalam berbagai format, membuka peluang besar bagi pengembangan AI yang lebih mirip manusia. Dengan pendekatan Modality-Switching Instruction Tuning (MosIT) dan penggunaan encoder serta decoder yang telah terlatih sebelumnya, NExT-GPT mampu memahami dan menghasilkan konten dengan lebih efisien.
Ke depan, sistem seperti NExT-GPT dapat menjadi fondasi bagi AI yang lebih canggih dan fleksibel, memungkinkan interaksi yang lebih alami antara manusia dan teknologi.