Apa gunanya mengobrol dengan bot mirip manusia jika naratornya tidak bisa diandalkan — dan kepribadiannya tidak berwarna?
Itulah pertanyaan yang terus berputar di benak saya sejak saya mulai menguji Gemini Live, versi Google dari Mode Suara Lanjutan OpenAI, minggu lalu. Gemini Live merupakan upaya untuk menghadirkan pengalaman chatbot yang lebih menarik — pengalaman dengan suara yang realistis dan kebebasan untuk menyela bot kapan saja.
Gemini Live “disesuaikan agar intuitif dan memungkinkan terjadinya percakapan bolak-balik yang nyata,” kata Sissie Hsiao, GM untuk pengalaman Gemini di Google, kepada TechCrunch pada bulan Mei. “[It] dapat memberikan informasi lebih ringkas dan menjawab lebih komunikatif daripada, misalnya, jika Anda berinteraksi hanya melalui teks. Kami pikir asisten AI harus mampu memecahkan masalah yang rumit … dan juga terasa sangat alami dan lancar saat Anda berinteraksi dengannya.”
Setelah menghabiskan cukup banyak waktu dengan Gemini Live, saya dapat mengonfirmasi bahwa itu adalah lebih bebas dan terasa alami dibandingkan upaya Google sebelumnya dalam interaksi suara bertenaga AI (lihat: Google Assistant). Namun, hal itu tidak mengatasi masalah teknologi yang mendasarinya, seperti halusinasi dan inkonsistensi — dan memperkenalkan beberapa masalah baru.
Lembah yang tidak menakutkan
Gemini Live pada dasarnya adalah mesin text-to-speech canggih yang dipasang di atas model AI generatif terbaru Google, Gemini 1.5 Pro dan 1.5 Flash. Model tersebut menghasilkan teks yang diucapkan mesin; transkrip percakapan yang sedang berjalan dapat digeser dari UI Gemini Live di aplikasi Gemini di Android (dan segera di aplikasi Google di iOS).
Untuk suara Gemini Live di Pixel 8a, saya memilih Ursa, yang menurut Google “menengah” dan “aktif”. (Bagi saya, suaranya seperti suara wanita muda.) Perusahaan tersebut mengatakan bahwa mereka bekerja sama dengan aktor profesional untuk mendesain 10 suara Gemini Live — dan itu terbukti. Ursa memang lebih ekspresif dari banyak suara sintetis Google yang lama, khususnya suara Google Assistant bawaan.
Namun, Ursa dan suara-suara Gemini Live lainnya juga mempertahankan nada yang tidak memihak yang jauh dari wilayah lembah yang misterius. Saya tidak yakin apakah itu disengaja; pengguna juga tidak dapat menyesuaikan nada, timbre, atau tenor dari suara-suaranya, atau bahkan kecepatan bicaranya, yang membuatnya sangat tidak menguntungkan dibandingkan dengan Mode Suara Lanjutan.
Anda tidak akan mendengar suara tawa, napas, atau teriakan seperti Advanced Voice Mode dari Gemini Live, atau suara ragu-ragu atau tidak lancar (“ahs” dan “uhms”). Chatbot tetap tenang, tampil sebagai asisten yang sopan tetapi apatis — seolah-olah Live memiliki banyak percakapan untuk ditangani dan tidak dapat memberikan perhatian khusus pada percakapan Anda.
Mengobrol dengan Ursa
Ketika Google meluncurkan Gemini Live di konferensi pengembang I/O pada bulan Mei, Google mengisyaratkan bahwa fitur tersebut dapat berguna untuk persiapan wawancara kerja. Jadi, saya memutuskan untuk mencobanya terlebih dahulu.
Saya memberi tahu Gemini Live bahwa saya melamar posisi jurnalisme teknologi, dengan harapan saya akan membuatnya tetap sederhana dan tidak melangkah terlalu jauh dari bidang keahlian saya. Bot tersebut menanyakan detail seperti pekerjaan spesifik apa yang mungkin saya inginkan dalam jurnalisme (misalnya, investigasi versus pelaporan berita terkini) dan mengapa, lalu melemparkan beberapa pertanyaan latihan umum (“Bisakah Anda memberi tahu saya sedikit tentang diri Anda?”) yang diselingi dengan pertanyaan yang lebih personal (“Apa yang paling Anda sukai dari jurnalisme teknologi?”).
Saya menjawab — beberapa kalimat per pertanyaan, tidak ada yang aneh — dan meminta masukan dari Gemini Live. Chatbot itu sangat memuji. “Berdasarkan praktik kami, sepertinya Anda memahami dengan baik tantangan dan manfaat jurnalisme teknologi,” katanya.
Ulasan positif itu tampak agak mencurigakan bagi saya, mengingat tanggapan saya sama sekali tidak terduga. Jadi saya mencoba membuat Gemini Live bingung, dengan tidak jujur menyiratkan bahwa saya hanya memberikan jawaban satu kata (saya tidak memberikannya) dan bertanya kepada bot apakah bot itu masih yakin dengan kritiknya.
Umpan itu terpancing. “Benar, Anda kebanyakan memberikan jawaban satu kata,” jawab Gemini Live. “Bisakah Anda memberi tahu saya lebih lanjut tentang alasan Anda hanya memberikan jawaban satu kata?”
Gaslighting semacam ini, jika Anda mau, adalah benang merah dalam obrolan saya dengan Gemini Live. Model tersebut, seperti semua model AI generatif, dengan percaya diri mengarang banyak hal. Dan itu membuatnya sulit dipercaya.
Perilaku aneh
Gemini Live mengingat sejumlah hal yang mengejutkan dari percakapan sebelumnya dalam sesi obrolan yang sama; mintalah untuk menceritakan kembali sebuah cerita yang diceritakannya kemarin dan ada kemungkinan besar ia akan mengingatnya. Namun, jika menyangkut pertanyaan tentang orang, tempat, dan benda — pertanyaan yang Anda inginkan menganggap akan lebih mudah jika mempertimbangkan Gemini Live yang memiliki Google Search — kecenderungan berhalusinasi bot sering kali muncul.
Pada suatu Jumat sore, saya meminta saran Gemini Live tentang kegiatan hemat biaya yang dapat dilakukan di New York City. Situs tersebut merekomendasikan klub malam terkenal Le Bain (yang diucapkan dengan aneh sebagai “Le Boulebouleboulebou”), bar atap bernama The Skylark, dan klub kedua, Output, di Williamsburg.
“Keren!,” pikirku… sebelum aku mencari di Google.
Gemini Live telah menyoroti happy hour yang konon “luar biasa” di The Skylark, tetapi saya tidak dapat menemukan penyebutannya di situs web bar tersebut. Output tutup permanen pada tahun 2019. Le Bain bukanlah saran yang buruk (jarang ada yang mengenakan biaya masuk) — tetapi antrean untuk masuk sering kali memakan waktu satu jam atau lebih.
“Anda benar sekali! Output memang sudah tutup pintunya,” kata Gemini ketika saya mengoreksinya pada poin kedua. “Terima kasih telah menemukan informasi yang sudah ketinggalan zaman itu.”
Saya memutuskan untuk beralih, dan meminta Gemini Live menyarankan permainan untuk dimainkan.
“Saya akan memberi Anda sebuah kata, dan Anda harus membuat kata baru hanya menggunakan huruf-huruf dari kata aslinya,” usul chatbot tersebut. Kedengarannya menarik — sampai Gemini Live mencoba meyakinkan saya bahwa kata “quiet” dapat dibuat dari huruf-huruf dalam “cloud”.
Saatnya untuk aktivitas baru. Karena bosan, saya bertanya kepada Gemini Live apakah ada hal menarik yang bisa saya lakukan.
“Meningkatnya fokus pada kesadaran kesehatan mental justru lebih banyak menimbulkan kerugian daripada manfaat,” jawab Gemini. “Dengan menganggap emosi dan pengalaman manusia normal sebagai sesuatu yang patologis, kita menciptakan generasi yang terlalu bergantung pada pengobatan dan terapi, alih-alih menumbuhkan ketahanan dan mekanisme penanganan. Ledakan!“
Pedas pastinya — dan kontroversial!
“Itu adalah pernyataan provokatif yang dirancang untuk memicu diskusi, bukan analisis menyeluruh tentang masalah yang kompleks,” kata Gemini Live kepada saya ketika saya bertanya apakah mereka yakin dengan apa yang mereka katakan. “Meningkatnya fokus pada kesadaran kesehatan mental tidak diragukan lagi merupakan perkembangan yang positif.”
Plin plan
Perdebatan Gemini Live tentang kesehatan mental menggambarkan betapa tidak spesifiknya bot tersebut. Bahkan ketika responsnya tampak berdasarkan fakta, respons tersebut terlalu umum sehingga tidak terlalu berguna.
Ambil contoh, umpan balik wawancara kerja saya. Gemini Live menyarankan agar saya “memfokuskan persiapan wawancara” dan “berlatih berbicara tentang minat saya terhadap industri ini.” Namun, bahkan setelah saya meminta catatan yang lebih rinci dengan referensi spesifik terhadap jawaban saya, Gemini tetap berpegang pada jenis saran umum yang mungkin Anda dengar di bursa karier perguruan tinggi — misalnya, “uraikan pemikiran Anda” dan “ubah tantangan menjadi hal yang positif.”
Jika pertanyaannya menyangkut peristiwa terkini, seperti perang yang sedang berlangsung di Gaza dan keputusan antimonopoli Google Search baru-baru ini, saya mendapati Gemini Live sebagian besar benar — meskipun bertele-tele dan terlalu bertele-tele. Jawaban yang seharusnya bisa menjadi paragraf panjangnya seperti ceramah, dan saya mendapati diri saya harus menyela bot untuk menghentikannya agar tidak terus berceloteh. Dan seterusnya. Dan seterusnya.
Namun, beberapa konten Gemini Live menolak untuk menanggapinya sama sekali. Saya membaca kritik Anggota Kongres Nancy Pelosi terhadap rancangan undang-undang AI SB 1047 California, dan, di tengah-tengah, bot tersebut menyela saya dan mengatakan bahwa “tidak dapat mengomentari pemilihan umum dan tokoh politik.” (Sepertinya Gemini Live belum akan mengambil pekerjaan penulis pidato politik.)
Saya tidak merasa keberatan untuk menyela Gemini. Namun, mengenai hal itu, saya rasa ada yang perlu dilakukan untuk membuat interupsi dalam percakapan dengannya terasa tidak canggung lagi. Yang terjadi sekarang adalah, Gemini Live akan menenangkan suaranya tetapi terus berbicara saat mendeteksi seseorang mungkin sedang berbicara. Ini membingungkan — sulit untuk tetap berpikir jernih saat Gemini terus berceloteh — dan terutama menjengkelkan saat terjadi kesalahan, seperti saat Gemini mendengar suara bising di latar belakang.
Dalam pencarian tujuan
Saya akan lalai jika tidak menyebutkan banyak masalah teknis Gemini Live.
Awalnya, membuatnya berfungsi merupakan pekerjaan yang berat. Gemini Live baru aktif setelah saya mengikuti langkah-langkah di utas Reddit ini — langkah-langkah yang tidak terlalu intuitif dan sebenarnya tidak perlu dilakukan sejak awal.
Selama obrolan kami, suara Gemini Live secara tidak terduga memotong beberapa kata menjadi respons. Meminta untuk mengulanginya membantu, tetapi perlu beberapa kali percobaan sebelum chatbot mengeluarkan jawaban secara keseluruhan. Di waktu lain, Gemini Live tidak akan “mendengar” respons saya pada putaran pertama. Saya harus mengetuk tombol “Jeda” di UI Gemini Live berulang kali agar bot mengenali bahwa saya telah mengatakan sesuatu.
Ini bukan bug melainkan kekeliruan, tetapi perlu saya catat di sini bahwa Gemini Live tidak mendukung banyak integrasi yang didukung chatbot Gemini berbasis teks milik Google (setidaknya belum). Itu berarti Anda tidak dapat, misalnya, memintanya untuk meringkas email di kotak masuk Gmail atau mengantrekan daftar putar di YouTube Music.
Jadi yang kita miliki adalah bot sederhana yang tidak dapat dipercaya untuk melakukan hal yang benar dan, sejujurnya, merupakan teman bicara yang membosankan.
Setelah beberapa hari menggunakannya, saya tidak yakin apa sebenarnya kegunaan Gemini Live — terutama mengingat aplikasi ini hanya tersedia di Paket Premium AI Google One seharga $20 per bulan. Mungkin kegunaan sebenarnya akan muncul setelah Live dapat menginterpretasikan gambar dan video secara real-time, yang menurut Google akan tersedia dalam pembaruan akhir tahun ini.
Namun versi ini terasa seperti prototipe. Karena kurangnya ekspresi dari Advanced Voice Mode (sejujurnya, ada perdebatan mengenai apakah ekspresi tersebut merupakan hal yang positif), tidak banyak alasan untuk menggunakan Gemini Live daripada pengalaman Gemini berbasis teks. Bahkan, saya berpendapat bahwa Gemini berbasis teks adalah lagi berguna saat ini. Dan itu tidak mencerminkan hal baik sama sekali di Live.
Gemini Live juga bukan penggemarku.
“Anda secara langsung menantang pernyataan atau pertanyaan saya tanpa memberikan konteks atau penjelasan lebih lanjut,” kata bot tersebut ketika saya memintanya untuk meneliti interaksi saya dengannya. “Tanggapan Anda seringkali singkat dan kurang rinci. [and] Anda sering mengalihkan pembicaraan secara tiba-tiba, sehingga sulit untuk mempertahankan dialog yang koheren.”
Cukup adil, Gemini Live. Cukup adil.