NVIDIA Percepat Pengembangan Superkomputer Colossus xAI
- Pabila Syaftahan
- •
- 04 Nov 2024 10.02 WIB
NVIDIA baru-baru ini mengumumkan pengembangan klaster superkomputer Colossus xAI yang berada di Memphis, Tennessee, yang menampung sebanyak 100.000 unit GPU Hopper. Superkomputer ini menggunakan platform jaringan Spectrum-X Ethernet yang canggih, dirancang khusus untuk memberikan performa optimal dalam lingkungan AI multi-penyewa dan hyperscale. Dengan dukungan teknologi Remote Direct Memory Access (RDMA), jaringan ini menjanjikan kecepatan dan efisiensi tinggi.
Colossus, yang diakui sebagai superkomputer AI terbesar di dunia, difungsikan untuk melatih model bahasa besar yang dikenal dengan nama Grok xAI. Selain itu, xAI juga menawarkan chatbot yang terintegrasi dalam layanan X Premium bagi para pelanggannya. Dalam langkah ambisius untuk meningkatkan kapabilitasnya, xAI berencana untuk menggandakan ukuran Colossus menjadi total 200.000 GPU NVIDIA Hopper.
Pembangunan fasilitas dan superkomputer ini dilakukan oleh tim xAI dan NVIDIA dalam waktu yang sangat singkat, hanya 122 hari. Proses ini biasanya memakan waktu berbulan-bulan, bahkan bertahun-tahun, untuk menyelesaikannya. Menariknya, hanya dalam waktu 19 hari setelah rak pertama dipasang, pelatihan model sudah dapat dimulai.
Selama proses pelatihan model Grok yang sangat besar, Colossus menunjukkan kinerja jaringan yang luar biasa. Di setiap tingkat fabric jaringan, sistem ini berhasil mempertahankan latensi aplikasi yang stabil tanpa kehilangan paket data akibat tabrakan aliran. Hal ini sangat penting dalam menjaga kelancaran proses pelatihan AI yang membutuhkan transfer data yang cepat dan andal.
Dengan dukungan kontrol dari Spectrum-X, Colossus mampu mempertahankan 95% throughput data, sebuah capaian yang sulit dicapai dengan menggunakan Ethernet standar. Pada umumnya, jaringan Ethernet tradisional dapat mengalami ribuan tabrakan aliran dan hanya menghasilkan throughput data sebesar 60%. Kondisi ini menunjukkan bahwa untuk aplikasi yang membutuhkan skalabilitas tinggi dan efisiensi, Ethernet berbasis Spectrum-X adalah pilihan yang jauh lebih baik.
Gilad Shainer, Wakil Presiden Senior Jaringan di NVIDIA, menyatakan, “Kecerdasan buatan semakin vital dalam berbagai bidang dan memerlukan peningkatan dalam performa, keamanan, serta efisiensi biaya.” Ia melanjutkan, “Platform jaringan Ethernet NVIDIA Spectrum-X dirancang untuk menyediakan kecepatan pemrosesan, analisis, dan eksekusi yang lebih baik untuk beban kerja AI. Hal ini akan mempercepat pengembangan dan peluncuran solusi AI ke pasar.”
Seorang juru bicara xAI menegaskan bahwa keberhasilan mereka dalam membangun superkomputer terbesar dan terkuat di dunia tidak lepas dari dukungan teknologi GPU Hopper NVIDIA dan jaringan Spectrum-X. "Kami dapat mendorong batasan pelatihan model AI dalam skala besar, menciptakan pabrik AI yang sangat cepat dan teroptimasi berdasarkan standar Ethernet," ungkapnya.
Salah satu komponen kunci dari platform Spectrum-X adalah sakelar Ethernet Spectrum SN5600 yang mampu mendukung kecepatan port hingga 800Gb/s, berbasis pada ASIC sakelar Spectrum-4. xAI memutuskan untuk mengintegrasikan saklar Spectrum-X SN5600 dengan BlueField-3 SuperNIC untuk mencapai kinerja yang belum pernah ada sebelumnya.
Jaringan Ethernet Spectrum-X menawarkan serangkaian fitur canggih yang memberikan bandwidth efisien dan skalabilitas tinggi dengan latensi yang rendah, sebuah keunggulan yang sebelumnya hanya tersedia di sistem InfiniBand. Beberapa fitur penting yang ditawarkan termasuk perutean adaptif dengan teknologi NVIDIA Direct Data Placement, pengendalian kemacetan, serta peningkatan visibilitas fabric AI dan isolasi kinerja. Semua fitur ini sangat penting untuk mendukung lingkungan cloud AI generatif multi-penyewa dan perusahaan besar yang mengandalkan infrastruktur yang kuat dan handal.
Dengan demikian, inisiatif NVIDIA dan xAI untuk mengembangkan superkomputer Colossus menunjukkan kemajuan teknologi yang signifikan dalam dunia AI. Langkah ini tidak hanya meningkatkan kapabilitas pelatihan model, tetapi juga membuka jalan bagi inovasi lebih lanjut di bidang kecerdasan buatan yang dapat memberikan dampak positif dalam berbagai industri.