Performa Mengejutkan! ZAYA1 Hadirkan Alternatif GPU Selain NVIDIA
- Rita Puspita Sari
- •
- 3 hari yang lalu
Ilustrasi GPU
Ekosistem kecerdasan buatan skala besar kembali memasuki babak penting. Untuk pertama kalinya, sebuah model AI raksasa berhasil dilatih sepenuhnya tanpa bergantung pada GPU NVIDIA — nama yang selama ini mendominasi pelatihan model AI besar di seluruh dunia. Tiga perusahaan teknologi, yaitu Zyphra, AMD, dan IBM, bekerja selama satu tahun untuk memvalidasi kemampuan GPU dan platform AMD dalam menangani pelatihan AI skala masif. Hasil kerja sama itu melahirkan ZAYA1, model Mixture-of-Experts (MoE) besar pertama yang dibangun dan dilatih murni menggunakan GPU AMD.
Keberhasilan ini bukan sekadar pencapaian teknis, tetapi juga sinyal kuat bagi industri: pelatihan AI berskala besar tidak lagi harus bergantung pada NVIDIA. Di tengah harga GPU yang kian melambung dan ketersediaan yang terbatas, ZAYA1 menawarkan harapan baru bagi perusahaan yang ingin mempercepat transformasi AI tanpa terjebak pada satu vendor teknologi.
GPU AMD Tunjukkan Taji di Pelatihan AI Skala Besar
Model ZAYA1 dilatih menggunakan chip AMD Instinct MI300X, jaringan Pensando, serta perangkat lunak ROCm, dan dijalankan di infrastruktur IBM Cloud. Menariknya, sistem pelatihannya tidak menggunakan desain eksperimental atau konfigurasi yang rumit. Zyphra membangun kluster seperti standar korporasi pada umumnya, tetapi dengan satu perbedaan besar: tanpa satu pun komponen NVIDIA.
Keputusan ini sempat dipandang berisiko, mengingat GPU NVIDIA selama ini menjadi fondasi pelatihan model AI besar seperti GPT, Llama, dan Gemini. Namun hasil evaluasi Zyphra menunjukkan hal sebaliknya. ZAYA1 mampu bersaing dengan, bahkan di beberapa aspek mengungguli, model-model open-source terkenal di bidang penalaran, matematika, dan pemrograman.
Dengan kata lain, perusahaan kini memiliki alternatif kedua yang setara dari segi performa, sesuatu yang selama ini dianggap mustahil di pasar GPU AI.
Kunci Efisiensi: Menghemat Biaya Tanpa Mengorbankan Performa
Salah satu tujuan Zyphra dalam proyek ini adalah membuktikan bahwa penghematan biaya hardware tidak harus berbanding lurus dengan penurunan kemampuan AI. Strateginya berpijak pada prinsip umum banyak organisasi: yang terpenting bukan sekadar throughput teori GPU, melainkan memori besar, komunikasi cepat, dan waktu iterasi stabil.
Di sinilah MI300X menjadi senjata utama. Dengan 192GB memori bandwidth tinggi per GPU, engineer dapat menjalankan pelatihan awal tanpa langsung menerapkan paralelisme tingkat tinggi yang rumit dan rawan error. Pendekatan ini mempermudah eksperimen, mengurangi biaya tuning, dan mempercepat pengembangan model.
Secara arsitektur, Zyphra membangun tiap node dengan delapan GPU MI300X yang terhubung melalui InfinityFabric, masing-masing dipasangkan dengan kartu jaringan Pollara. Sementara satu jaringan terpisah digunakan hanya untuk pembacaan dataset dan penyimpanan checkpoint. Umpan baliknya jelas: semakin sederhana desain jaringan, semakin murah biaya switch dan semakin stabil waktu iterasi.
ZAYA1: Model AI yang Lebih Gesit dari Bobotnya
ZAYA1-base hanya mengaktifkan 760 juta parameter dari total 8,3 miliar, berkat struktur MoE yang memungkinkan hanya sebagian kecil model bekerja pada satu waktu. Model ini dilatih dengan 12 triliun token melalui tiga tahap pelatihan. Pendekatan ini memberi dua keuntungan besar: efisiensi memori saat inferensi dan biaya serving yang lebih rendah.
Untuk mencapai performa optimal, ZAYA1 memadukan dua optimizer, Muon dan AdamW. Penggunaan Muon tidaklah mudah di GPU AMD, sehingga Zyphra menyesuaikan kernel dan mengurangi lalu lintas memori agar proses optimisasi tidak memonopoli waktu komputasi. Seiring meningkatnya batch size selama pelatihan, pipeline penyimpanan harus mampu mengalirkan token tanpa hambatan dan itulah yang berhasil dicapai.
Pada pengujian internal, ZAYA1 mampu bersaing ketat dengan model populer seperti Qwen3-4B, Gemma3-12B, Llama-3-8B, hingga OLMoE. Contoh penerapan nyatanya juga menarik. Misalnya, sebuah bank dapat melatih model AI investigasi keuangan spesifik tanpa perlu menerapkan paralelisme kompleks sejak awal pelatihan. Kombinasi memori besar MI300X dan compressed attention ZAYA1 mempercepat eksperimen dan waktu evaluasi.
Adaptasi ROCm: Tantangan yang Dibalas dengan Solusi
Zyphra tidak menutup-nutupi proses transisi dari alur kerja berbasis NVIDIA ke ROCm. Mereka menyebut prosesnya memakan waktu dan tenaga. Namun alih-alih memaksakan porting buta, tim memilih pendekatan empiris — memahami perilaku hardware AMD lalu menyesuaikan elemen sistem agar sesuai dengan karakteristik MI300X.
Beberapa penyesuaian penting antara lain:
| Tantangan | Solusi |
| Optimasi kolektif di 8 GPU | InfinityFabric dimanfaatkan optimal dengan collective yang melibatkan semua GPU |
| Pollara butuh pesan besar untuk throughput maksimal |
Fusion buffer diperbesar |
| Pelatihan konteks panjang (4k–32k token) | Ring attention untuk sharded sequence dan tree attention saat decoding |
| Checkpointing sering jadi bottleneck | Distribusi penyimpanan ke semua GPU menghasilkan peningkatan >10× |
Pada sisi penyimpanan, Zyphra menggabungkan dataset ke sharded besar untuk mengurangi scattered reads dan meningkatkan page cache per node — keputusan penting untuk pelatihan berbulan-bulan yang rentan rewind.
Stabilitas Sistem Jadi Prioritas
Pelatihan model AI besar sering berjalan selama berminggu-minggu dan error kecil pun bisa menghentikan proses sepenuhnya. Untuk mencegah kerugian jam komputasi yang mahal, Zyphra memperkuat sistem monitoring melalui layanan Aegis, yang mendeteksi gangguan seperti error NIC dan ECC dan melakukan tindakan korektif otomatis.
Sementara itu, batas waktu RCCL dinaikkan sehingga gangguan jaringan singkat tidak langsung menutup seluruh proses training. Pendekatan ini berhasil mengurangi downtime dan menurunkan beban kerja operator secara signifikan.
Tonggak Bersejarah: Apa Artinya Bagi Masa Depan Pengadaan Infrastruktur AI
Dengan keberhasilan ZAYA1, Zyphra merilis laporan lengkap yang menegaskan bahwa ekosistem AMD kini sudah setara dengan NVIDIA untuk pengembangan model AI skala besar. Perbandingannya menjadi sangat jelas:
| NVIDIA | AMD |
| NVLINK | InfinityFabric |
| NCCL | RCCL |
| cuBLASLt | hipBLASLt |
| CUDA | ROCm |
Tetapi laporan itu juga realistis: bukan berarti perusahaan harus meninggalkan NVIDIA. Pendekatan paling efektif justru memadukan keduanya:
Gunakan NVIDIA untuk produksi, gunakan AMD untuk pelatihan fase eksplorasi dan eksperimen.
Pendekatan ini:
- mengurangi ketergantungan pada satu vendor,
- meningkatkan kapasitas pelatihan,
- membantu perusahaan mengendalikan anggaran GPU seiring maraknya AI di industri.
Ada juga empat rekomendasi kunci dari hasil pembelajaran proyek:
- Perlakukan ukuran dan struktur model sebagai variabel fleksibel, bukan aturan tetap.
- Rancang jaringan berdasarkan operasi collective yang benar-benar digunakan pelatihan.
- Bangun sistem toleransi kesalahan yang melindungi jam GPU, bukan hanya mencatat error.
- Modernisasi checkpointing agar tidak mengganggu ritme pelatihan.
ZAYA1 bukan hanya model AI baru namun, ZAYA1 bukti konkret bahwa persaingan GPU untuk pelatihan AI skala besar kini semakin merata. AMD, bersama Zyphra dan IBM, berhasil menunjukkan bahwa pelatihan AI masif tidak lagi harus berjalan di atas platform NVIDIA semata.
Bagi perusahaan, ini membuka peluang besar: lebih banyak pilihan hardware, biaya yang lebih terkendali, dan fleksibilitas lebih tinggi dalam mengembangkan teknologi kecerdasan buatan.
Jika tren ini terus berkembang, pasar AI ke depan bukan hanya soal kecepatan model, tetapi juga soal bagaimana efisiensi, arsitektur terbuka, dan keberagaman vendor dapat mempercepat inovasi.
