Deteksi frasa hanyalah bagian dari proses.
Meneriakkan "Ok Google" dari seberang ruangan untuk mengubah musik atau mematikan lampu di sebuah ruangan pasti terasa luar biasa, tetapi proses yang tampaknya sederhana ini didukung oleh jaringan rumit teknologi yang bekerja di baliknya adegan.
Hampir setiap asisten virtual utama di pasaran memiliki frasa panggilan yang Anda gunakan untuk membangunkan asisten dan melakukan percakapan. Tapi bagaimana asisten suara tahu saat Anda berbicara dengan mereka?
Bagaimana Cara Kerja Deteksi Frasa?
Seperti disebutkan di atas, setiap asisten suara memiliki "frase pemicu" atau kata bangun yang Anda gunakan untuk membangunkan asisten dan memberikan perintah lebih lanjut. Proses pendeteksian frase ini kurang lebih sama dengan setiap asisten, kecuali sedikit nuansa. Meskipun demikian, nuansa ini dapat berarti perbedaan antara mengucapkan perintah bangun dengan santai dan meneriakkannya berkali-kali kali hanya untuk asisten untuk tetap tidur, sesuatu yang kadang-kadang bisa sangat mengganggu, terutama jika Anda
menggunakan asisten suara Anda untuk membantu menenangkan diri.Secara umum, sebagian besar speaker "pintar" memiliki sirkuit kecil yang tugasnya hanya mendeteksi perintah bangun dan kemudian mengaktifkan perangkat keras lainnya. Sebagian besar pemrosesan dilakukan di cloud, tetapi deteksi frase ada di perangkat karena alasan privasi yang jelas. Deteksi frasa pada ponsel bekerja dengan cara yang kurang lebih sama.
Spesifikasinya sebagian besar dirahasiakan, tetapi sistem deteksi ini menggunakan pembelajaran mesin dan jaringan saraf dalam (DNN) untuk melatih model AI untuk mendeteksi suara Anda dan membentuk kunci. Kunci ini kemudian digunakan untuk memverifikasi saat Anda mengucapkan frasa tertentu, dan yang lainnya dikirim ke cloud untuk diproses lebih lanjut.
Asisten Google
Ponsel yang mendukung deteksi "OK Google" biasanya dilengkapi dengan sistem pencarian kata kunci (KWS) yang mendeteksi frasa tersebut dan kemudian menambal sisa kueri Anda ke cloud. Karena perangkat seluler memiliki daya komputasi yang terbatas serta masa pakai baterai yang terbatas, sistem ini biasanya tidak sebaik yang Anda temukan di speaker Google Nest.
Sistem KWS pada perangkat ini terus-menerus mengambil audio dari mikrofon perangkat dan memulai koneksi ke server saat mendeteksi frase pemicu. Google juga menggunakan Contextual Automatic Speech Recognition (ASR) sisi server untuk meningkatkan akurasi keseluruhan sistem KWS-nya. Anda dapat membaca lebih lanjut tentang itu di Makalah penelitian Google [PDF].
Siri
Siri bekerja sama dengan Google Assistant mengenai deteksi "Hey Siri". Apple secara mengejutkan terbuka tentang cara kerja sistem, yang melibatkan pengenal ucapan "sangat kecil" yang berjalan di latar belakang dan hanya mendengarkan dua kata itu. Detektor ini menggunakan DNN untuk mengonversi pola akustik suara Anda yang direkam pada setiap instans menjadi distribusi probabilitas pada suara ucapan, yang pada dasarnya menghasilkan skor kepercayaan.
IPhone atau Apple Watch Anda melakukan ini dengan mengubah suara Anda menjadi aliran sampel bentuk gelombang dengan kecepatan 16.000 per detik. Ini kemudian dipotong menjadi urutan bingkai yang mencakup spektrum suara sekitar 0,01 detik. Kemudian, total 20 frame ini diumpankan ke model deteksi, yang mengubah pola ini menjadi probabilitas.
Jika sistem menentukan dengan cukup yakin bahwa Anda mengatakan "Hai Siri", Siri akan bangun dan mengirimkan sisanya kueri ke cloud, tempat analisis lebih lanjut dilakukan dan tindakan apa pun yang Anda minta dilakukan.
Tentu saja ada tindakan tambahan yang ditambahkan untuk memastikan efisiensi memori dan baterai. Prosesor Selalu Aktif (AOP) iPhone Anda memiliki akses ke mikrofon perangkat (di iPhone 6S dan yang lebih baru) karena alasan ini, dan sebagian kecil daya pemrosesannya dicadangkan untuk menjalankan DNN. Apple mendalami keseluruhan sistem di situs web pembelajaran mesinnya, machinelearning.apple.
Alexa
Sama seperti Asisten Google dan Siri, Alexa juga tidak menyimpan sebagian besar kekuatan pemrosesannya di salah satu speaker Echo yang dapat Anda beli. Sebaliknya, speaker menggunakan apa yang disebut Amazon sebagai Pengenalan Ucapan Otomatis (ASR) yang pada dasarnya mengubah kata-kata yang diucapkan menjadi teks, memungkinkan sistem yang mendasarinya untuk menafsirkannya dan bertindak sesuai dengan itu.
ASR membentuk fondasi dasar tentang cara kerja Alexa. Sekali lagi, ada sistem bawaan yang mendengarkan kata bangun, dalam hal ini, "Alexa", "Amazon", "Echo", atau "Computer", dan memicu sisa sistem saat kata bangun yang ditentukan sebelumnya oleh pengguna adalah terdeteksi. Anda bahkan bisa bangunkan perangkat Alexa Anda menggunakan "Hai Disney" jika kamu mau.
Seperti Asisten Google, Anda dapat melatih model AI yang mendasari Alexa untuk mendeteksi suara Anda dengan lebih baik. Proses ini melibatkan pembuatan "kunci" garis dasar yang dibandingkan dengan kata bangun yang diucapkan, dan ketika kecocokan ditemukan, perangkat merespons sesuai.
Apakah Asisten Suara Selalu Mendengarkan?
Seperti yang mungkin sudah bisa Anda tebak, ya, memang begitu. Tidak mungkin mereka bisa mendeteksi kata bangun jika tidak. Namun, Anda tidak perlu membuang semua speaker pintar Anda karena masalah privasi dulu.
Mendengarkan semua yang dikatakan pengguna, mengirimkannya kembali ke server jarak jauh, dan menganalisis (atau menyimpannya). membutuhkan perangkat keras dan sumber daya keuangan yang sangat besar hingga tidak masuk akal dari praktiknya perspektif. Selain itu, masalah privasi besar-besaran yang sudah ditangani oleh perusahaan seperti Google, Apple, dan Amazon, dan idenya tidak masuk akal.
Ini juga berdampak besar pada kinerja ponsel dan masa pakai baterai dengan fitur deteksi kata bangun, terutama Google Pixels dan iPhone. Jika ponsel Anda terus-menerus mendengarkan apa yang Anda katakan dan mengirimkan audio itu kembali ke server jarak jauh, itu akan menghabiskan baterai Anda dan menurunkan kinerja perangkat.
Siapa yang Memiliki Deteksi Frasa Paling Efisien dan Mengapa?
Tidak mudah untuk secara objektif membandingkan asisten virtual mana yang memiliki pendeteksian frasa terbaik secara objektif karena semuanya menggunakan implementasi yang sedikit berbeda dari konsep keseluruhan yang sama. Namun, Google tampaknya memiliki deteksi frasa yang lebih konsisten berkat Asisten Google yang memulai lebih awal dibandingkan dengan Siri dan Alexa.
Meskipun aplikasi yang menggunakan model bahasa besar (LLM) seperti ChatGPT dan Bing Chat menjadi arus utama, Asisten Google mempertahankan posisinya sebagai salah satu yang paling asisten virtual populer hanya karena hanya dengan satu ketukan di setiap perangkat Android, mulai dari smart TV hingga sistem stereo mobil dan tentu saja, smartphone.
Siri dan Alexa memiliki beberapa hal yang harus dilakukan di departemen itu, tetapi sejauh menyangkut deteksi frasa, mereka tidak terlalu jauh. Tetap saja, Anda akan memiliki peluang lebih baik untuk membangunkan Asisten Google di Pixel Anda dari seberang ruangan daripada dengan Siri di iPhone Anda, meskipun Anda bisa tingkatkan kemampuan Siri dengan mode Super Siri. Karena Alexa banyak digunakan pada jajaran speaker Echo Amazon, ada sedikit keuntungan di sini, mengingat speaker ini dirancang untuk dapat menangkap suara pengguna.
AI Seram Sekaligus Nyaman
Memanggil asisten AI Anda hanya dengan suara Anda bisa sangat berguna. Untuk sebuah fitur yang terintegrasi dengan mulus ke dalam kehidupan kita, banyak hal terjadi di balik layar yang seringkali tidak terpikirkan oleh sebagian besar dari kita.
Meskipun demikian, kemudahan ini juga membawa ketidaknyamanan karena perangkat Anda selalu mendengarkan apa yang Anda katakan. Sejauh ini, pengenal ucapan di perangkat dan kata-kata pengingat berdiri di antara apa yang didengar asisten virtual Anda dan apa yang Anda ucapkan.