Google Rilis DiffusionGemma, AI Pembuat Teks 4 Kali Lebih Cepat

Rita Puspita Sari
•
1 hari yang lalu

Persaingan di dunia Artificial Intelligence (AI) terus memasuki babak baru. Setelah menghadirkan keluarga model bahasa Gemma 4, Google kini memperkenalkan DiffusionGemma, sebuah model AI eksperimental yang dirancang untuk menghasilkan teks hingga empat kali lebih cepat dibandingkan pendekatan konvensional pada perangkat GPU khusus.

Teknologi terbaru ini menjadi langkah penting dalam pengembangan AI generatif, terutama bagi peneliti dan pengembang yang membutuhkan proses inferensi berkecepatan tinggi untuk aplikasi interaktif. Berbeda dengan model bahasa tradisional yang menghasilkan teks secara berurutan, DiffusionGemma mengadopsi pendekatan berbasis diffusion, teknik yang sebelumnya lebih banyak digunakan pada generator gambar AI.

Google menjelaskan bahwa DiffusionGemma dibangun di atas fondasi kecerdasan keluarga Gemma 4 yang dipadukan dengan hasil riset Gemini Diffusion. Kombinasi tersebut menghasilkan sebuah model dengan arsitektur baru yang mampu memanfaatkan kemampuan komputasi GPU secara jauh lebih optimal.

Dirancang untuk AI Interaktif Berkecepatan Tinggi

Selama ini, salah satu tantangan terbesar dalam menjalankan model AI secara lokal adalah tingginya latensi saat menghasilkan teks. Model bahasa konvensional biasanya memproses satu token atau potongan kata secara berurutan sehingga membutuhkan waktu lebih lama sebelum menghasilkan jawaban lengkap.

Kondisi tersebut dapat mengurangi kenyamanan pengguna, terutama pada aplikasi AI yang membutuhkan respons instan, seperti editor kode berbasis AI, asisten penulisan, maupun aplikasi kreatif yang mengandalkan interaksi secara langsung.

Melalui DiffusionGemma, Google mencoba mengatasi keterbatasan tersebut dengan menghadirkan mekanisme baru yang memungkinkan model menghasilkan blok teks secara paralel. Hasilnya, waktu yang dibutuhkan untuk menghasilkan respons dapat dipersingkat secara signifikan.

Google menyebutkan bahwa model ini mampu menghasilkan lebih dari 1.000 token per detik menggunakan GPU NVIDIA H100, sementara pada kartu grafis kelas konsumen seperti NVIDIA GeForce RTX 5090, kecepatannya mencapai lebih dari 700 token per detik.

Peningkatan performa tersebut dicapai dengan memindahkan hambatan proses decoding dari keterbatasan bandwidth memori menuju kemampuan komputasi GPU, sehingga perangkat keras dapat dimanfaatkan secara lebih maksimal.

Tetap Ringan Berkat Mixture of Experts

Meskipun memiliki total 26 miliar parameter, DiffusionGemma menggunakan arsitektur Mixture of Experts (MoE) yang hanya mengaktifkan sekitar 3,8 miliar parameter saat proses inferensi berlangsung.

Pendekatan ini membuat kebutuhan sumber daya menjadi lebih efisien dibandingkan jika seluruh parameter harus digunakan secara bersamaan.

Google juga menyebutkan bahwa setelah melalui proses kuantisasi, DiffusionGemma dapat dijalankan menggunakan GPU kelas atas dengan kapasitas VRAM sekitar 18 GB, sehingga lebih mudah diakses oleh pengembang maupun peneliti yang menggunakan perangkat desktop.

Dengan kata lain, pengguna tidak harus memiliki infrastruktur AI berskala perusahaan untuk mencoba model ini.

Menghasilkan 256 Token Sekaligus

Keunggulan utama DiffusionGemma terletak pada mekanisme bi-directional attention atau perhatian dua arah.

Jika model bahasa autoregresif hanya dapat melihat token sebelumnya saat menghasilkan teks, DiffusionGemma memungkinkan seluruh token dalam satu blok saling memperhatikan satu sama lain secara bersamaan.

Dalam setiap proses forward pass, model mampu menghasilkan hingga 256 token sekaligus. Pendekatan tersebut memberikan sejumlah keuntungan pada berbagai skenario penggunaan, antara lain:

Pengeditan teks secara langsung tanpa harus membuat ulang seluruh kalimat.
Penyisipan kode program (code infilling).
Analisis urutan asam amino untuk kebutuhan penelitian biologi.
Penyusunan grafik matematika yang kompleks.
Pembuatan struktur teks yang tidak harus mengikuti urutan linear.

Kemampuan tersebut membuka peluang bagi pengembang untuk membangun aplikasi AI yang lebih interaktif dibandingkan model bahasa konvensional.

Mampu Memperbaiki Kesalahan Sendiri

Selain cepat, DiffusionGemma juga memiliki kemampuan melakukan penyempurnaan hasil secara bertahap. Alih-alih langsung menghasilkan jawaban akhir, model akan mengevaluasi seluruh blok teks yang sedang dibuat, kemudian memperbaiki bagian yang dianggap kurang tepat melalui beberapa iterasi.

Proses ini memungkinkan model melakukan koreksi secara real-time sebelum jawaban akhir diberikan kepada pengguna. Pendekatan tersebut mirip dengan cara kerja generator gambar AI yang secara bertahap mengubah gambar penuh noise menjadi gambar yang semakin jelas.

Pada DiffusionGemma, konsep serupa diterapkan pada teks sehingga kualitas hasil dapat meningkat selama proses pembangkitan berlangsung.

Masih Berstatus Eksperimental

Walaupun menawarkan peningkatan kecepatan yang signifikan, Google menegaskan bahwa DiffusionGemma masih berstatus model eksperimental. Perusahaan mengakui bahwa kualitas hasil yang dihasilkan masih berada di bawah model Gemma 4 berbasis autoregresif, terutama untuk kebutuhan produksi yang mengutamakan akurasi dan kualitas bahasa.

Karena itu, Google tetap merekomendasikan penggunaan Gemma 4 untuk aplikasi komersial yang membutuhkan hasil terbaik. Sebaliknya, DiffusionGemma lebih ditujukan sebagai sarana eksplorasi bagi komunitas riset dan pengembang yang ingin mengembangkan aplikasi AI dengan respons yang jauh lebih cepat.

Meski demikian, performanya masih dapat ditingkatkan melalui proses fine-tuning sesuai kebutuhan masing-masing. Sebagai contoh, platform Unsloth berhasil melakukan fine-tuning terhadap DiffusionGemma agar mampu menyelesaikan permainan Sudoku.

Tugas seperti Sudoku selama ini cukup sulit ditangani model autoregresif karena setiap langkah bergantung pada token yang belum dihasilkan. Dengan mekanisme perhatian dua arah, DiffusionGemma mampu menyelesaikan tantangan tersebut secara lebih efektif.

Mengubah Cara AI Menghasilkan Teks

Google menjelaskan bahwa sebagian besar model bahasa saat ini bekerja layaknya mesin tik. Model akan menghasilkan satu kata atau token demi satu token dari kiri ke kanan hingga membentuk sebuah kalimat. Pendekatan tersebut memang sangat efektif untuk layanan cloud yang menangani ribuan permintaan secara bersamaan.

Namun, ketika dijalankan secara lokal hanya untuk satu pengguna, GPU sering kali tidak dimanfaatkan secara optimal karena harus menunggu proses pembuatan token berikutnya.

DiffusionGemma menawarkan pendekatan berbeda.

Alih-alih menghasilkan kata demi kata, model langsung menyusun sebuah paragraf yang terdiri atas sekitar 256 token sekaligus. Google mengibaratkan perbedaannya seperti mesin tik dibandingkan mesin cetak. Jika model lama mengetik satu karakter secara berurutan, DiffusionGemma mampu "mencetak" satu blok teks dalam satu proses.

Pendekatan ini membuat peningkatan performa paling terasa pada penggunaan lokal dengan jumlah pengguna sedikit atau ukuran batch kecil hingga menengah. Sebaliknya, untuk layanan cloud dengan trafik sangat tinggi, model autoregresif masih dinilai lebih efisien sehingga DiffusionGemma belum tentu memberikan keuntungan dari sisi biaya operasional.

Cara Kerja DiffusionGemma

Secara sederhana, proses pembangkitan teks pada DiffusionGemma berlangsung dalam tiga tahap. Tahap pertama dimulai dengan sekumpulan token acak sebagai titik awal atau placeholder.

Selanjutnya, model melakukan beberapa kali iterasi untuk memperbaiki token yang belum sesuai. Token yang sudah dianggap benar akan dipertahankan dan dijadikan acuan dalam memperbaiki token lainnya. Setelah melalui sejumlah penyempurnaan, model menghasilkan keluaran akhir yang lebih rapi dan koheren.

Karena seluruh paragraf diproses secara bersamaan, DiffusionGemma juga memiliki kemampuan untuk menutup format Markdown yang kompleks secara lebih akurat, menghasilkan sekaligus merender kode hampir secara real-time, serta mendukung proses pengeditan teks yang lebih fleksibel.

Sudah Mendukung Berbagai Framework Populer

Untuk mempercepat adopsi di kalangan pengembang, Google telah menyediakan bobot model DiffusionGemma melalui platform Hugging Face dengan lisensi Apache 2.0 yang bersifat terbuka.

Selain itu, Google juga menyediakan dokumentasi lengkap beserta panduan teknis bagi pengembang yang ingin memahami cara kerja model maupun melakukan eksperimen. DiffusionGemma saat ini telah mendukung berbagai framework populer, seperti MLX, vLLM, dan Hugging Face Transformers.

Google juga menyediakan tutorial fine-tuning menggunakan Hackable Diffusion, sebuah toolbox modular berbasis JAX. Dukungan tambahan juga tersedia melalui Unsloth dan NVIDIA NeMo, sementara kompatibilitas resmi dengan llama.cpp dijadwalkan hadir dalam waktu dekat.

Dioptimalkan Bersama NVIDIA

Untuk memastikan performa maksimal, Google bekerja sama dengan NVIDIA dalam mengoptimalkan DiffusionGemma pada berbagai jenis perangkat keras. Model ini telah dioptimalkan untuk GPU GeForce RTX 5090, RTX 4090, sistem berbasis arsitektur Hopper dan Blackwell, hingga perangkat kelas perusahaan seperti NVIDIA DGX Spark, DGX Station, dan RTX PRO.

Selain itu, dukungan terhadap format NVFP4 (4-bit floating point) memungkinkan peningkatan throughput komputasi tanpa mengorbankan akurasi secara signifikan. Pengguna dapat menjalankan DiffusionGemma secara lokal menggunakan GPU desktop maupun melalui layanan cloud seperti Gemini Enterprise Agent Platform Model Garden dan NVIDIA NIM.

Kehadiran DiffusionGemma menunjukkan bahwa inovasi AI generatif tidak lagi hanya berfokus pada peningkatan kualitas model, tetapi juga pada efisiensi dan kecepatan inferensi. Jika pendekatan diffusion untuk teks terus berkembang, bukan tidak mungkin teknologi ini akan menjadi salah satu fondasi baru bagi generasi model AI yang lebih cepat, responsif, dan mampu menghadirkan pengalaman interaktif yang semakin baik di masa mendatang.