Qwen 2.5 VL & Max: AI Canggih Alibaba Saingi OpenAI & Google

Rita Puspita Sari
•
01 Feb 2025 18.20 WIB

China semakin agresif dalam inovasi kecerdasan buatan (Artificial Intelligence/AI). Setelah DeepSeek, kini Alibaba melalui tim Qwen meluncurkan model terbaru, Qwen 2.5 VL dan Qwen Max. Kedua model ini diklaim mampu menyaingi bahkan melampaui model AI milik OpenAI dan Google. Dengan kemampuan pemrosesan visual dan pemahaman multimodal yang luar biasa, Qwen berpotensi menjadi pesaing serius di dunia AI.

Qwen 2.5 VL: AI Multimodal yang Canggih
Qwen 2.5 VL adalah model AI yang dirancang untuk memahami berbagai jenis data, mulai dari teks, gambar, hingga video. Model ini tidak hanya mampu membaca teks tetapi juga mengenali elemen visual kompleks, mengotomatisasi tugas di perangkat digital, dan bahkan menganalisis dokumen secara struktural.

Pemahaman Visual yang Lebih Mendalam
Salah satu keunggulan utama Qwen 2.5 VL adalah kemampuannya dalam mengenali objek tidak hanya secara umum, tetapi juga secara kompleks. Misalnya, model ini dapat:
- Mengenali objek seperti bunga dan burung.
- Memahami elemen visual yang lebih rumit seperti grafik, ikon, dan tata letak dokumen.
- Membantu dalam analisis dokumen berbasis gambar, seperti mengurai struktur dan isi teks dalam gambar.
Kemampuan ini menjadikannya berguna dalam berbagai bidang, termasuk desain grafis, riset akademik, dan analisis dokumen hukum.
Berperan sebagai Agen Digital
Tidak seperti model AI lainnya yang hanya memberikan respons pasif, Qwen 2.5 VL dapat bertindak sebagai agen digital. Ini berarti model ini bisa:
- Menjalankan perintah di komputer dan smartphone.
- Berinteraksi dengan berbagai alat digital.
- Mengotomatisasi tugas-tugas sederhana tanpa perlu pelatihan tambahan.
Bayangkan memiliki AI yang dapat secara otomatis mengedit dokumen, mengatur jadwal, atau bahkan mengelola file Anda dengan perintah sederhana.
Memahami Video Panjang
Banyak model AI mengalami kesulitan dalam menganalisis video berdurasi panjang. Namun, Qwen 2.5 VL bisa:
- Memproses video lebih dari satu jam.
- Mengidentifikasi momen-momen penting dengan membagi video ke dalam segmen yang relevan.
- Melakukan lokalisasi kejadian pada tingkat detik, sehingga cocok untuk membuat ringkasan video atau ekstraksi informasi.
Ini berarti Qwen 2.5 VL dapat digunakan untuk merangkum film, webinar, atau bahkan rekaman CCTV dengan lebih efisien.
Pengenalan Objek dalam Gambar
Qwen 2.5 VL juga unggul dalam lokalisasi objek dalam gambar. Model ini dapat:
- Mendeteksi objek secara akurat.
- Memberikan koordinat presisi untuk setiap objek dalam gambar.
- Menghasilkan output dalam format JSON, yang berguna untuk analisis data berbasis struktur.
Misalnya, jika digunakan dalam dunia otomotif, model ini bisa mengenali kendaraan dalam gambar dan memberikan data detail seperti jenis mobil, warna, dan nomor plat.
Memproses Dokumen ke Format Digital
Banyak bisnis dan institusi yang masih bergantung pada dokumen fisik. Dengan Qwen 2.5 VL, dokumen seperti faktur, formulir, dan kontrak dapat dengan mudah dikonversi ke dalam data digital.
- Memungkinkan ekstraksi data otomatis dengan akurasi tinggi.
- Cocok untuk sektor keuangan, perbankan, dan e-commerce yang membutuhkan otomatisasi data berbasis dokumen.
Pengenalan Gambar yang Lebih Akurat
Qwen 2.5 VL bisa mengenali objek dengan cakupan yang lebih luas, termasuk:
- Landmark terkenal seperti Menara Eiffel atau Patung Liberty.
- Spesies hewan dan tumbuhan.
Referensi budaya populer, seperti karakter film atau ikon musik.
Kemampuan ini sangat berguna dalam pencarian gambar otomatis, analisis visual, dan arsip digital.
Pemrosesan Video yang Ditingkatkan
Model ini menggunakan teknologi FPS dinamis dan pengkodean waktu absolut, yang meningkatkan akurasi dalam memahami urutan waktu dalam video. Ini membuatnya lebih efisien dalam:
- Menganalisis adegan dalam video.
- Mengekstrak informasi penting.
- Membuat ringkasan video panjang.
Teknologi ini akan sangat berguna bagi content creator, peneliti, dan media berita.
Lebih Efisien dan Skalabel
Qwen 2.5 VL dirancang dengan arsitektur efisien yang dapat mengurangi beban komputasi tanpa mengorbankan akurasi.
- Menggunakan Vision Transformer (ViT) dengan Window Attention untuk efisiensi komputasi.
- Memiliki tiga ukuran model: 3B, 7B, dan 72B, yang bisa disesuaikan dengan kebutuhan pengguna.
- Modelnya tersedia secara open source di Hugging Face dan ModelScope.

Qwen 2.5 Max: Model Skala Besar yang Menyaingi GPT-4
Jika Qwen 2.5 VL unggul dalam pemrosesan multimodal, Qwen 2.5 Max hadir sebagai model AI berbasis teks yang memiliki skala sangat besar dan performa tinggi.

Model Berbasis Mixture-of-Experts (MoE)
Qwen 2.5 Max menggunakan arsitektur Mixture-of-Experts (MoE) yang dirancang untuk efisiensi dan skalabilitas. Model ini juga dilatih dengan lebih dari 20 triliun token, menjadikannya salah satu model AI paling kuat saat ini.
Ditingkatkan dengan Reinforcement Learning
Qwen 2.5 Max tidak hanya dilatih dengan Supervised Fine-Tuning (SFT), tetapi juga menggunakan Reinforcement Learning from Human Feedback (RLHF) untuk:
- Menyesuaikan respons AI dengan kebutuhan pengguna.
- Meningkatkan pemahaman dalam berbagai tugas spesifik.
Performa Benchmark yang Unggul
Dalam berbagai pengujian, Qwen 2.5 Max mengalahkan DeepSeek V3 dalam beberapa tolok ukur seperti Arena-Hard, LiveBench, LiveCodeBench, dan GPQA-Diamond. Model ini juga menunjukkan hasil yang kompetitif di MMLU-Pro, tolok ukur pengetahuan setingkat perguruan tinggi.
Kompatibilitas API OpenAI
Qwen 2.5 Max tersedia melalui Alibaba Cloud, dengan kompatibilitas OpenAI-API. Ini berarti pengembang dapat dengan mudah mengintegrasikan model ini ke dalam berbagai aplikasi, termasuk chatbot dan sistem otomatisasi berbasis AI.

Alibaba Menantang OpenAI dan Google!
Peluncuran Qwen 2.5 VL dan Qwen 2.5 Max menunjukkan bahwa China semakin serius dalam persaingan AI global. Dengan kemampuan yang lebih canggih dalam pemrosesan teks, gambar, dan video, model ini berpotensi menjadi pesaing berat bagi GPT-4o dan Claude-3.5-Sonnet.

Bagi yang ingin mencoba, model ini tersedia melalui: