GPT-Realtime: Inovasi OpenAI dalam Voice Agent Berbasis AI
- Rita Puspita Sari
- •
- 09 Sep 2025 13.50 WIB
Ilustrasi OpenAI
Perkembangan kecerdasan buatan (Artificial Intelligence/AI) dalam beberapa tahun terakhir tidak hanya terbatas pada teks atau gambar, tetapi juga mulai merambah ke ranah suara. Setelah sukses dengan model berbasis teks seperti GPT, kini OpenAI menghadirkan inovasi terbaru berupa GPT-Realtime yang dikombinasikan dengan Realtime API. Inovasi ini membuka peluang baru bagi developer dan perusahaan untuk membangun agen suara (voice agent) yang lebih cerdas, alami, dan siap digunakan dalam skala produksi.
Pada 28 Agustus 2025, Realtime API resmi diluncurkan untuk umum dengan berbagai fitur baru. Kehadirannya memberikan lompatan besar bagi teknologi agen suara karena kini API mendukung server MCP jarak jauh, input gambar, dan bahkan panggilan telepon berbasis SIP. Bukan hanya itu, model speech-to-speech terbaru GPT-Realtime juga diperkenalkan dengan kualitas audio yang lebih halus, kemampuan memahami instruksi lebih baik, serta suara yang terdengar alami layaknya manusia.
Artikel ini akan membahas mengenai GPT-Realtime dan Realtime API, fitur-fiturnya, keunggulannya, serta bagaimana teknologi ini bisa membawa dampak besar bagi industri dan kehidupan sehari-hari.
Mengapa GPT-Realtime Hadir?
Sebelumnya, pembuatan agen suara biasanya dilakukan dengan cara menggabungkan beberapa model berbeda misalnya, model speech-to-text untuk mengubah suara menjadi teks, lalu teks tersebut diproses oleh AI, dan akhirnya hasilnya dikembalikan ke pengguna lewat model text-to-speech.
Metode ini memang berfungsi, tetapi memiliki beberapa kelemahan:
- Latensi Tinggi: Proses panjang membuat respons terasa lambat.
- Hilangnya Nuansa Suara: Perpindahan antar-model sering kali mengurangi ekspresi alami dalam percakapan.
- Kompleksitas Sistem: Developer perlu mengintegrasikan banyak komponen agar sistem bisa bekerja.
Dengan GPT-Realtime, semua itu diselesaikan melalui satu model tunggal yang dapat memproses input suara sekaligus menghasilkan output suara. Hasilnya adalah interaksi yang jauh lebih cepat, ekspresif, dan alami.
Mengenal GPT-Realtime
GPT-Realtime adalah model speech-to-speech terbaru yang dikembangkan untuk mendukung agen suara produksi. Model ini dilatih dengan memperhatikan kebutuhan nyata pengguna di berbagai bidang—mulai dari layanan pelanggan, asisten pribadi, hingga pendidikan.
Model ini unggul dalam empat aspek utama:
-
Kualitas Audio yang Lebih Alami
Suara yang terdengar kaku atau robotik sering membuat pengguna cepat bosan. Untuk itu, GPT-Realtime dirancang agar bisa menghasilkan suara dengan intonasi, emosi, dan tempo seperti manusia. Misalnya, model dapat mengikuti instruksi detail seperti:- “Bicaralah cepat dan profesional.”
- “Gunakan nada empati dengan aksen Prancis.”
Selain itu, dua suara baru bernama Marin dan Cedar dirilis secara eksklusif melalui Realtime API. Keduanya menghadirkan peningkatan signifikan dalam kealamian suara. Bahkan delapan suara lama juga ikut diperbarui agar terdengar lebih hidup.
-
Kecerdasan dan Pemahaman Lebih Tinggi
GPT-Realtime tidak hanya sekadar mendengar kata-kata, tetapi juga memahami konteks percakapan. Model ini bisa:- Menangkap isyarat non-verbal seperti tawa.
- Berpindah bahasa di tengah kalimat.
- Menyesuaikan nada suara sesuai kebutuhan (misalnya tegas dan profesional atau ramah dan empatik).
Dalam uji coba internal, GPT-Realtime berhasil mencatat akurasi 82,8% dalam Big Bench Audio, jauh lebih tinggi dibandingkan model sebelumnya yang hanya mencapai 65,6%.
-
Kepatuhan Instruksi yang Lebih Baik
Salah satu tantangan dalam AI suara adalah memastikan model benar-benar mengikuti instruksi developer. GPT-Realtime kini lebih responsif terhadap instruksi kecil sekalipun.Dalam uji MultiChallenge, tingkat kepatuhan model meningkat hingga 30,5%, naik dari 20,6% pada versi sebelumnya.
-
Pemanggilan Fungsi (Function Calling) yang Cerdas
Agar agen suara benar-benar berguna, ia perlu bisa memanggil alat atau fungsi tertentu di waktu yang tepat. GPT-Realtime mampu melakukannya dengan lebih akurat dalam tiga aspek:- Memanggil fungsi yang relevan.
- Melakukan pemanggilan di waktu yang tepat.
- Memberikan argumen yang sesuai agar hasil lebih akurat.
Dalam evaluasi ComplexFuncBench, GPT-Realtime mencatat skor 66,5%, lebih tinggi dibanding model lama yang hanya 49,7%.
Menariknya, GPT-Realtime juga mendukung pemanggilan fungsi asinkron. Artinya, percakapan tetap bisa berjalan lancar meski ada proses lain yang membutuhkan waktu lama di latar belakang.
Fitur Baru di Realtime API
Selain peningkatan pada model GPT-Realtime, Realtime API juga membawa sejumlah fitur baru yang membuatnya semakin fleksibel dan powerful:
-
Dukungan Server MCP Jarak Jauh
Developer kini bisa mengaktifkan dukungan MCP dengan hanya menambahkan URL server ke konfigurasi sesi API. API secara otomatis akan menangani pemanggilan alat, sehingga tidak perlu repot melakukan integrasi manual.Cukup dengan mengarahkan sesi ke server MCP baru, agen suara bisa langsung memperoleh kemampuan tambahan.
-
Input Gambar
Realtime API tidak lagi terbatas pada suara dan teks, tetapi juga mendukung gambar, foto, maupun tangkapan layar.Dengan ini, percakapan bisa lebih kontekstual. Contohnya:
- “Apa yang kamu lihat di gambar ini?”
- “Bacakan teks pada screenshot ini.”
Fitur ini sangat berguna untuk aplikasi dukungan teknis, pembelajaran, maupun penggunaan sehari-hari.
-
Dukungan SIP (Session Initiation Protocol)
Realtime API kini bisa terhubung dengan jaringan telepon publik, sistem PBX, hingga telepon meja yang menggunakan SIP. Dengan demikian, agen suara bisa langsung digunakan untuk layanan call center skala besar. -
Reusable Prompts
Developer bisa menyimpan prompt yang berisi instruksi, variabel, dan contoh percakapan untuk digunakan kembali di berbagai sesi API. Fitur ini membuat pengembangan lebih efisien dan konsisten.
Keamanan dan Privasi
Sebagai teknologi AI yang interaktif, keamanan dan privasi tentu menjadi hal penting. Realtime API dirancang dengan berbagai lapisan pengaman, antara lain:
- Klasifikasi aktif untuk mendeteksi konten berbahaya dan menghentikan percakapan bila perlu.
- Kebijakan ketat yang melarang penggunaan untuk spam, penipuan, atau penyalahgunaan lainnya.
- Transparansi interaksi di mana pengguna akhir harus diberi tahu jika mereka berinteraksi dengan AI, kecuali konteksnya sudah jelas.
- Suara bawaan yang mencegah penyamaran identitas oleh pihak jahat.
Selain itu, Realtime API mendukung EU Data Residency, sehingga sesuai dengan regulasi privasi Uni Eropa.
Harga dan Ketersediaan
Kabar baiknya, GPT-Realtime dan Realtime API kini tersedia untuk semua developer mulai 28 Agustus 2025. Harga yang ditawarkan juga lebih terjangkau dibanding versi sebelumnya:
- $32 per 1 juta token audio input
- $0,40 per 1 juta token input yang disimpan (cached)
- $64 per 1 juta token audio output
Selain itu, developer juga bisa mengatur batas token percakapan dengan lebih cerdas. Dengan kemampuan memangkas beberapa giliran sekaligus, biaya untuk sesi panjang bisa ditekan secara signifikan.
Dampak Besar GPT-Realtime
Hadirnya GPT-Realtime dan Realtime API berpotensi memberikan dampak besar di berbagai sektor, misalnya:
- Layanan Pelanggan: Call center bisa diotomatisasi dengan agen suara yang ramah, cepat, dan akurat.
- Pendidikan: Siswa bisa belajar dengan asisten suara yang interaktif dan mendukung banyak bahasa.
- Asisten Pribadi: Pengguna bisa memiliki AI yang lebih responsif untuk membantu aktivitas sehari-hari.
- Kesehatan: Dokter dan pasien dapat berkomunikasi melalui agen suara untuk konsultasi cepat.
- Bisnis: Perusahaan bisa mengintegrasikan AI suara dalam sistem kerja mereka untuk meningkatkan efisiensi.
GPT-Realtime dan Realtime API bukan sekadar pembaruan kecil, melainkan lompatan besar dalam dunia teknologi agen suara. Dengan suara yang lebih alami, pemahaman lebih baik, serta fitur tambahan seperti input gambar dan panggilan SIP, teknologi ini siap menjadi fondasi baru bagi interaksi manusia dengan mesin.
Bagi developer maupun perusahaan, hadirnya GPT-Realtime membuka peluang untuk menghadirkan pengalaman pengguna yang lebih baik, efisien, sekaligus hemat biaya. Dan bagi masyarakat umum, kita berada di era baru di mana berbicara dengan AI akan terasa sama alaminya seperti berbicara dengan manusia.
