Google Perkenalkan AI Penerjemah Suara Real-Time Multibahasa

Rita Puspita Sari
•
22 jam yang lalu

Logo Google Translate

Google kembali menunjukkan ambisinya dalam mengembangkan teknologi kecerdasan buatan (AI) dengan meluncurkan Gemini 3.5 Live Translate, model audio terbaru yang mampu menerjemahkan percakapan suara secara langsung atau hampir real-time dalam lebih dari 70 bahasa. Kehadiran teknologi ini menjadi tonggak penting dalam evolusi layanan penerjemahan digital yang selama dua dekade terakhir terus dikembangkan oleh perusahaan teknologi raksasa tersebut.

Peluncuran Gemini 3.5 Live Translate menandai langkah baru Google dalam mewujudkan komunikasi lintas bahasa yang lebih natural dan tanpa hambatan. Berbeda dengan sistem penerjemahan konvensional yang mengharuskan pengguna menunggu lawan bicara selesai berbicara sebelum hasil terjemahan muncul, model terbaru ini mampu menerjemahkan secara berkelanjutan sambil tetap mempertahankan alur percakapan yang alami.

Google menjelaskan bahwa Gemini 3.5 Live Translate dirancang untuk menghadirkan pengalaman percakapan yang lebih manusiawi. Teknologi ini tidak hanya menerjemahkan kata demi kata, tetapi juga mampu mempertahankan karakteristik suara pembicara, termasuk intonasi, tempo berbicara, dan nada suara. Dengan demikian, hasil terjemahan terdengar lebih alami dan tidak terasa seperti suara robot yang kaku.

Menurut Google, sistem ini secara otomatis dapat mendeteksi lebih dari 70 bahasa tanpa memerlukan konfigurasi atau pengaturan manual dari pengguna. Kemampuan tersebut memungkinkan percakapan berlangsung lebih lancar, bahkan ketika peserta komunikasi menggunakan bahasa yang berbeda.

Mengurangi Hambatan Bahasa Secara Real-Time

Salah satu keunggulan utama Gemini 3.5 Live Translate adalah kemampuannya memproses audio secara streaming. Saat seseorang berbicara, sistem langsung menganalisis dan menerjemahkan ucapan tersebut tanpa harus menunggu kalimat selesai sepenuhnya.

Teknologi ini menggunakan pendekatan yang cerdas dalam menyeimbangkan kebutuhan memahami konteks percakapan dan kecepatan penerjemahan. Hasilnya, audio terjemahan dapat diputar hanya beberapa detik setelah ucapan asli disampaikan, sehingga percakapan tetap terasa mengalir dan tidak terganggu oleh jeda yang panjang.

Pendekatan tersebut dinilai sangat penting untuk berbagai situasi yang membutuhkan komunikasi cepat, seperti rapat bisnis internasional, konferensi virtual, layanan pelanggan global, kegiatan pendidikan, hingga siaran langsung yang melibatkan peserta dari berbagai negara.

Selain itu, Gemini 3.5 Live Translate juga dirancang tahan terhadap gangguan suara di lingkungan yang ramai. Kemampuan ini memungkinkan sistem tetap bekerja secara optimal meskipun digunakan di lokasi dengan tingkat kebisingan tinggi, seperti pusat transportasi, acara publik, atau area perkotaan yang padat.

Hadir untuk Pengembang, Bisnis, dan Pengguna Umum

Google mulai menghadirkan Gemini 3.5 Live Translate di berbagai layanan dan platform. Untuk kalangan pengembang, teknologi ini tersedia melalui Gemini Live API dan Google AI Studio dalam tahap public preview.

Melalui API tersebut, para pengembang dapat membangun berbagai aplikasi berbasis terjemahan suara secara real-time tanpa harus mengembangkan infrastruktur yang rumit dari awal. Sejumlah platform teknologi seperti Agora, Fishjam, LiveKit, Pipecat, dan Vision Agents bahkan telah mengintegrasikan teknologi ini untuk mempermudah pembuatan layanan komunikasi multibahasa.

Google menilai kehadiran Gemini 3.5 Live Translate berpotensi mempercepat lahirnya berbagai aplikasi baru yang dapat menjembatani komunikasi antarbahasa di berbagai sektor industri.

Grab Uji Coba untuk Pengemudi dan Penumpang

Salah satu perusahaan yang telah mulai menguji kemampuan Gemini 3.5 Live Translate adalah Grab. Perusahaan teknologi transportasi dan layanan digital terbesar di Asia Tenggara tersebut tengah mengevaluasi penggunaan model AI terbaru Google untuk membantu komunikasi antara pengemudi dan penumpang yang menggunakan bahasa berbeda.

Pengujian ini dianggap penting mengingat Grab mencatat lebih dari 10 juta panggilan suara setiap bulan melalui platformnya. Dengan adanya fitur terjemahan suara hampir real-time, hambatan bahasa yang selama ini menjadi kendala dalam proses penjemputan atau perjalanan diharapkan dapat diminimalkan.

Jika implementasi berjalan sukses, teknologi ini berpotensi meningkatkan pengalaman pengguna sekaligus memperluas akses layanan bagi wisatawan dan pengguna internasional.

Google Meet Dukung Lebih dari 2.000 Kombinasi Bahasa

Google juga membawa Gemini 3.5 Live Translate ke layanan konferensi video Google Meet. Pembaruan ini akan menghadirkan peningkatan signifikan dibandingkan fitur penerjemahan sebelumnya.

Jika sebelumnya Google Meet hanya mendukung lima bahasa dan sebagian besar berfokus pada terjemahan dari atau ke bahasa Inggris, kini pengguna akan dapat berkomunikasi menggunakan lebih dari 70 bahasa dengan dukungan lebih dari 2.000 kombinasi bahasa dalam satu pertemuan.

Peningkatan tersebut memungkinkan peserta rapat dari berbagai negara berbicara menggunakan bahasa masing-masing tanpa harus beralih ke bahasa pengantar tertentu. Google juga memperbarui antarmuka layanan agar pengguna dapat mengakses fitur penerjemahan suara secara lebih cepat dan mudah.

Saat ini fitur tersebut mulai tersedia dalam tahap private preview bagi sejumlah pelanggan bisnis Google Workspace, sebelum diluncurkan secara lebih luas pada akhir tahun.

Google Translate Kini Lebih Personal

Selain untuk kebutuhan profesional dan bisnis, Gemini 3.5 Live Translate juga mulai tersedia bagi pengguna umum melalui aplikasi Google Translate di Android dan iOS.

Google mengatakan pengguna cukup menghubungkan headphone untuk menikmati pengalaman percakapan yang lebih natural. Sistem akan menerjemahkan suara sambil mempertahankan nuansa emosional dan karakteristik suara pembicara asli.

Khusus pengguna Android, Google memperkenalkan fitur baru bernama Listening Mode. Fitur ini memungkinkan pengguna mendengarkan hasil terjemahan langsung melalui speaker telepon bagian atas atau earpiece.

Cara penggunaannya cukup sederhana. Pengguna hanya perlu menempelkan ponsel ke telinga seperti saat melakukan panggilan telepon biasa. Selanjutnya, hasil terjemahan akan diputar langsung melalui perangkat tanpa perlu menggunakan headphone tambahan.

Fitur ini dinilai praktis dalam berbagai situasi, terutama ketika pengguna membutuhkan terjemahan cepat secara pribadi tanpa mengganggu orang lain di sekitarnya.

Dilengkapi Teknologi Keamanan SynthID

Di tengah meningkatnya penggunaan AI generatif, Google juga menaruh perhatian besar pada aspek keamanan dan transparansi. Karena itu, seluruh audio yang dihasilkan Gemini 3.5 Live Translate akan dibubuhi watermark digital menggunakan teknologi SynthID.

Watermark ini tidak dapat didengar oleh manusia karena tertanam langsung di dalam audio yang dihasilkan AI. Namun, teknologi tersebut memungkinkan sistem mendeteksi apakah sebuah konten suara dibuat menggunakan kecerdasan buatan.

Langkah ini menjadi bagian dari upaya Google untuk mengurangi risiko penyebaran misinformasi, pemalsuan suara, serta penyalahgunaan teknologi AI yang semakin canggih.

Dengan kemampuan menerjemahkan lebih dari 70 bahasa secara hampir real-time, mempertahankan karakteristik suara asli, serta hadir di berbagai layanan populer seperti Google Meet dan Google Translate, Gemini 3.5 Live Translate berpotensi menjadi salah satu inovasi AI paling penting tahun ini. Teknologi tersebut tidak hanya mempermudah komunikasi global, tetapi juga semakin mendekatkan dunia yang selama ini dipisahkan oleh perbedaan bahasa.