OpenAI Luncurkan AI Voice Realtime dengan Kemampuan GPT-5

Rita Puspita Sari
•
2 jam yang lalu

Perkembangan teknologi kecerdasan buatan atau AI kini semakin mengarah pada interaksi yang terasa alami layaknya percakapan manusia sehari-hari. OpenAI resmi memperkenalkan generasi terbaru model suara realtime melalui API yang dirancang untuk menghadirkan pengalaman komunikasi berbasis suara yang lebih cerdas, cepat, dan responsif.

Melalui peluncuran ini, OpenAI menghadirkan tiga model audio terbaru, yakni GPT-Realtime-2, GPT-Realtime-Translate, dan GPT-Realtime-Whisper. Ketiganya dirancang untuk membantu pengembang membangun aplikasi suara generasi baru yang tidak hanya mampu merespons ucapan manusia, tetapi juga memahami konteks, menerjemahkan percakapan secara langsung, hingga mengambil tindakan secara realtime.

Langkah ini menjadi sinyal bahwa teknologi suara kini mulai bertransformasi dari sekadar fitur tambahan menjadi antarmuka utama antara manusia dan perangkat lunak.

AI Suara Kini Tidak Lagi Sekadar Menjawab

Selama beberapa tahun terakhir, asisten suara memang sudah menjadi bagian dari kehidupan digital modern. Namun, kebanyakan sistem masih bekerja dalam pola sederhana: mendengar perintah lalu memberikan jawaban.

OpenAI ingin membawa teknologi ini ke level yang lebih tinggi.

Dengan model baru yang diperkenalkan, AI suara kini dapat memahami maksud pengguna secara lebih mendalam, menjaga alur percakapan tetap alami, serta menyesuaikan respons berdasarkan situasi yang sedang terjadi.

Sebagai contoh, seseorang dapat meminta bantuan saat sedang menyetir mobil, mengubah jadwal penerbangan ketika berjalan di bandara, atau meminta dukungan pelanggan dalam bahasa yang paling nyaman digunakan tanpa harus mengetik.

OpenAI menilai masa depan perangkat lunak akan semakin bergantung pada interaksi suara karena lebih praktis, cepat, dan terasa alami bagi pengguna.

GPT-Realtime-2 Jadi Otak Baru AI Suara

Salah satu model paling menarik dalam peluncuran ini adalah GPT-Realtime-2. Model ini disebut sebagai model suara pertama OpenAI yang memiliki kemampuan reasoning atau penalaran setara GPT-5. Artinya, AI tidak hanya mendengar dan menjawab, tetapi juga mampu memahami masalah yang lebih kompleks serta menjaga percakapan tetap berjalan secara natural.

GPT-Realtime-2 dirancang untuk menangani interaksi suara langsung, termasuk ketika pengguna mengganti permintaan di tengah percakapan, melakukan interupsi, atau meminta AI menjalankan beberapa tugas sekaligus.

Model ini juga memiliki kemampuan “tool calling”, yakni dapat menggunakan berbagai alat bantu digital selama percakapan berlangsung. Misalnya mengecek kalender, mencari informasi, atau menjalankan perintah tertentu sambil tetap berbicara dengan pengguna.

Menariknya, sistem kini mampu memberi tahu pengguna apa yang sedang dilakukan AI. Contohnya seperti:

“Sedang mengecek kalender Anda”
“Tunggu sebentar, saya sedang mencari informasinya.”

Pendekatan ini membuat interaksi terasa lebih manusiawi sekaligus memberi transparansi kepada pengguna.

Bisa Lebih Empatik dan Fleksibel

Tidak hanya lebih pintar, GPT-Realtime-2 juga dirancang agar mampu menyesuaikan nada bicara sesuai situasi.

Saat pengguna sedang frustrasi, AI dapat merespons dengan nada yang lebih empatik. Ketika sedang membantu menyelesaikan masalah, AI bisa berbicara lebih tenang. Sementara ketika sebuah tugas berhasil dilakukan, nada suara dapat dibuat lebih antusias.

Kemampuan ini menjadi penting karena pengalaman suara tidak hanya bergantung pada isi jawaban, tetapi juga cara penyampaiannya.

OpenAI juga meningkatkan kapasitas context window dari 32K menjadi 128K token. Dengan peningkatan ini, AI dapat mengingat percakapan lebih panjang dan menangani alur tugas yang jauh lebih kompleks. Selain itu, model terbaru ini disebut lebih baik dalam memahami istilah teknis, nama khusus, hingga kosakata medis yang sering digunakan dalam kebutuhan industri.

Performa AI Suara Naik Signifikan

Dalam pengujian internal, OpenAI mengklaim GPT-Realtime-2 menunjukkan peningkatan performa yang cukup besar dibanding generasi sebelumnya. Pada benchmark Big Bench Audio, GPT-Realtime-2 versi high mencatat skor 15,2 persen lebih tinggi dibanding GPT-Realtime-1.5 untuk kemampuan kecerdasan audio.

Sementara pada Audio MultiChallenge, versi xhigh mencatat peningkatan 13,8 persen dalam kemampuan mengikuti instruksi dan menjaga konteks percakapan. Hasil ini menunjukkan bahwa model terbaru memiliki kemampuan reasoning, kontrol percakapan, dan pemahaman konteks yang lebih baik dalam komunikasi realtime.

AI Kini Bisa Jadi Penerjemah Suara Langsung

Selain model reasoning suara, OpenAI juga memperkenalkan GPT-Realtime-Translate. Model ini memungkinkan percakapan lintas bahasa berlangsung secara realtime. Pengguna dapat berbicara menggunakan bahasa masing-masing, sementara sistem akan langsung menerjemahkan percakapan dan menampilkan transkripsinya secara bersamaan.

GPT-Realtime-Translate mendukung lebih dari 70 bahasa input dan 13 bahasa output.

Teknologi ini membuka peluang besar untuk berbagai kebutuhan global, mulai dari layanan pelanggan, pendidikan, acara internasional, media, hingga penjualan lintas negara. Salah satu tantangan terbesar dalam penerjemahan suara langsung adalah menjaga makna percakapan sambil tetap mengikuti kecepatan bicara manusia yang alami.

AI juga harus mampu memahami logat regional, perubahan konteks, hingga istilah khusus yang digunakan pengguna. OpenAI mengatakan Deutsche Telekom saat ini sedang menguji model tersebut untuk layanan pelanggan multibahasa agar komunikasi lintas bahasa terasa lebih alami dengan latensi rendah.

Sementara itu, Vimeo mendemonstrasikan bagaimana GPT-Realtime-Translate dapat menerjemahkan video edukasi produk secara langsung saat video diputar. Dengan cara ini, pelanggan global bisa langsung mendengarkan informasi dalam bahasa mereka tanpa harus menunggu proses dubbing atau subtitle manual.

Akurasi Bahasa Regional Meningkat

Dalam pengujian oleh BolnaAI, GPT-Realtime-Translate menunjukkan hasil yang menjanjikan pada bahasa-bahasa regional di India. Co-founder dan CTO BolnaAI, Prateek Sachan, mengatakan model ini menghasilkan tingkat Word Error Rate 12,5 persen lebih rendah dibanding model lain yang mereka uji, khususnya pada bahasa Hindi, Tamil, dan Telugu.

Hal tersebut menjadi pencapaian penting karena bahasa regional sering kali memiliki tantangan fonetik yang kompleks untuk dipahami AI.

GPT-Realtime-Whisper Fokus pada Transkripsi Langsung

OpenAI juga memperkenalkan GPT-Realtime-Whisper, model speech-to-text terbaru yang dirancang untuk transkripsi dengan latensi rendah.

Model ini mampu mengubah suara menjadi teks secara langsung saat seseorang berbicara. Teknologi ini memungkinkan subtitle muncul secara realtime, catatan rapat dibuat otomatis, hingga ringkasan percakapan disusun tanpa harus menunggu pembicaraan selesai.

Dengan kemampuan streaming realtime, AI dapat terus memahami percakapan selama interaksi berlangsung. Teknologi seperti ini dinilai sangat berguna untuk berbagai kebutuhan seperti:

rapat virtual,
ruang kelas digital,
siaran langsung,
layanan pelanggan,
kesehatan,
perekrutan,
hingga industri penjualan.

Kemampuan transkripsi realtime juga memungkinkan perusahaan membangun alur kerja otomatis yang lebih cepat dan efisien.

Perusahaan Mulai Mengadopsi Teknologi Ini

Sejumlah perusahaan besar mulai menguji model suara terbaru dari OpenAI untuk berbagai kebutuhan bisnis. Zillow, misalnya, sedang mengembangkan asisten AI yang dapat membantu pengguna mencari rumah berdasarkan kemampuan finansial, kondisi lingkungan, hingga menjadwalkan tur properti hanya melalui percakapan suara.

Josh Weisberg, SVP dan Head of AI Zillow, mengatakan GPT-Realtime-2 menunjukkan peningkatan signifikan dalam keberhasilan interaksi suara kompleks.

Menurutnya, tingkat keberhasilan panggilan meningkat dari 69 persen menjadi 95 persen setelah optimasi prompt menggunakan model terbaru tersebut. OpenAI menilai perkembangan ini menjadi tanda bahwa AI suara mulai bergerak menuju sistem yang benar-benar mampu bekerja dan membantu manusia secara langsung, bukan hanya menjadi chatbot sederhana.

Keamanan Tetap Jadi Fokus

Meski menawarkan kemampuan baru yang lebih canggih, OpenAI menegaskan bahwa aspek keamanan tetap menjadi prioritas utama.

Realtime API telah dilengkapi berbagai lapisan perlindungan untuk mencegah penyalahgunaan. Sistem classifier aktif akan memantau percakapan dan dapat menghentikan sesi tertentu jika terdeteksi melanggar kebijakan konten berbahaya.

Pengembang juga dapat menambahkan sistem keamanan tambahan menggunakan Agents SDK. Selain itu, OpenAI melarang penggunaan layanan untuk spam, penipuan, maupun aktivitas berbahaya lainnya. Perusahaan juga mewajibkan pengembang memberi tahu pengguna ketika mereka sedang berinteraksi dengan AI, kecuali hal tersebut sudah jelas dari konteks penggunaan.

Harga dan Ketersediaan

Ketiga model terbaru ini kini sudah tersedia melalui Realtime API OpenAI. Untuk GPT-Realtime-2, harga yang ditetapkan adalah:

US$32 per 1 juta token input audio,
US$0,40 untuk cached input tokens,
dan US$64 per 1 juta token output audio.

Sementara GPT-Realtime-Translate dibanderol US$0,034 per menit dan GPT-Realtime-Whisper seharga US$0,017 per menit.

Pengembang kini dapat mencoba model-model tersebut melalui Playground dan mulai mengintegrasikannya ke aplikasi menggunakan Codex.

Dengan hadirnya model-model baru ini, OpenAI tampaknya ingin mempercepat era baru interaksi manusia dan komputer berbasis suara. Jika sebelumnya AI hanya sekadar mendengar dan menjawab, kini AI mulai mampu memahami, menerjemahkan, bernalar, dan mengambil tindakan layaknya asisten digital yang benar-benar aktif membantu pengguna secara realtime.