Iklan

Kita dapat berbicara dengan hampir semua gadget kita sekarang, tetapi bagaimana cara kerjanya? Ketika Anda bertanya, "Lagu apa ini?" atau katakan "Call Mom", keajaiban teknologi modern sedang terjadi. Dan sementara rasanya seperti itu berada di ujung tombak, ide berbicara dengan perangkat ini kembali beberapa dekade - hampir sejauh jetpack dalam fiksi ilmiah!

Saat ini, sebagian besar perhatian yang diberikan pada komputasi berbasis suara ada pada smartphone. Apple, Amazon, Microsoft, dan Google berada di puncak rantai, masing-masing menawarkan caranya sendiri untuk berbicara dengan elektronik. Anda tahu siapa mereka: Siri, Alexa, Cortana, dan "Ok, Google" yang tanpa nama. Yang menimbulkan pertanyaan besar ...

Bagaimana perangkat mengambil kata-kata yang diucapkan dan mengubahnya menjadi perintah yang dapat dimengerti? Pada intinya, ia datang ke pencocokan pola dan membuat prediksi berdasarkan pola-pola itu. Lebih khusus lagi, pengenalan suara adalah tugas yang kompleks berasal Pemodelan Akustik dan Pemodelan Bahasa.

Pemodelan Akustik: Bentuk Gelombang & Telepon

bentuk gelombang

Pemodelan Akustik adalah proses mengambil bentuk gelombang wicara dan menganalisisnya menggunakan model statistik. Metode yang paling umum untuk ini adalah Pemodelan Markov Tersembunyi, yang digunakan dalam apa yang disebut pemodelan pengucapan untuk memecah pembicaraan menjadi bagian-bagian komponen yang disebut ponsel (jangan dikacaukan dengan perangkat telepon yang sebenarnya). Microsoft telah menjadi peneliti terkemuka di bidang ini selama bertahun-tahun.

Hidden Markov Modelling: Probability States

Hidden Markov Modeling adalah model matematika prediktif di mana keadaan saat ini ditentukan dengan menganalisis output. Wikipedia memiliki contoh yang bagus menggunakan dua teman.

Bayangkan dua teman - Teman Lokal dan Teman Jarak Jauh - yang tinggal di kota yang berbeda. Sahabat lokal ingin mengetahui seperti apa cuaca di mana Remote Friend tinggal, tetapi Remote Friend hanya ingin berbicara tentang apa yang dia lakukan hari itu: berjalan, berbelanja, atau membersihkan. Kemungkinan setiap kegiatan tergantung pada cuaca hari itu.

Pemodelan Markov Tersembunyi

Berpura-pura bahwa ini adalah satu-satunya informasi yang tersedia. Dengan itu, Teman Lokal dapat menemukan tren tentang bagaimana cuaca berubah dari hari ke hari, dan menggunakan tren ini, dia dapat mulai membuat tebakan yang berpendidikan tentang cuaca hari ini berdasarkan aktivitas temannya kemarin. (Anda dapat melihat diagram sistem di atas.)

Jika Anda ingin contoh yang lebih kompleks, periksa contoh ini di Matlab. Dalam pengenalan suara, model ini pada dasarnya membandingkan setiap bagian dari bentuk gelombang dengan apa yang datang sebelum dan apa yang datang sesudahnya, dan dengan kamus bentuk gelombang untuk mengetahui apa yang dikatakan.

Pada dasarnya, jika Anda membuat suara "th", itu akan memeriksa suara itu terhadap suara yang paling mungkin yang biasanya datang sebelum dan sesudahnya. Mungkin itu berarti memeriksa terhadap suara "e", suara "at", dan sebagainya. Ketika polanya cocok dengan benar, maka seluruh kata Anda akan muncul. Ini adalah penyederhanaan yang berlebihan, tetapi Anda dapat melihatnya Seluruh penjelasan Microsoft di sini.

Pemodelan Bahasa: Lebih Dari Suara

Pemodelan Akustik sangat membantu komputer Anda memahami Anda, tetapi bagaimana dengan homonim dan variasi regional dalam pengucapan? Di situlah Pemodelan Bahasa ikut berperan. Google telah mendorong banyak penelitian di bidang ini, terutama melalui penggunaan Pemodelan N-gram.

Ketika Google mencoba memahami pidato Anda, itu dilakukan berdasarkan model yang berasal dari bank besar Voice Search dan transkripsi YouTube. Semua keterangan video yang salah dan lucu itu sebenarnya telah membantu Google untuk mengembangkan kamus mereka. Juga, mereka menggunakan yang meninggal GOOG-411 untuk mengumpulkan informasi tentang bagaimana orang berbicara.

shutterstock_70757203

Semua koleksi bahasa ini menciptakan serangkaian besar pengucapan dan dialek, yang dibuat untuk kamus kata-kata yang kuat dan bagaimana bunyinya. Hal ini memungkinkan untuk pertandingan yang memiliki tingkat kesalahan yang sangat berkurang daripada pencocokan brute force berdasarkan probabilitas mentah. Anda dapat membaca makalah singkat menjelaskan metode mereka di sini.

Sementara Google adalah pemimpin dalam bidang ini, ada model matematika lain yang dikembangkan, termasuk ruang kontinu model dan model bahasa posisi, yang merupakan teknik yang lebih maju yang lahir dari penelitian dalam kecerdasan buatan. Metode-metode ini didasarkan pada replikasi jenis pemikiran yang dilakukan manusia ketika saling mendengarkan. Ini jauh lebih maju baik dalam hal teknologi di belakang mereka, tetapi juga matematika dan pemrograman yang diperlukan untuk memetakan model-model ini.

Pemodelan N-Gram: Probabilitas Memenuhi Memori

Pemodelan N-gram bekerja berdasarkan probabilitas, tetapi menggunakan kamus kata yang ada untuk membuat pohon percabangan kemungkinan, yang kemudian diperhalus demi efisiensi. Di satu sisi, ini berarti bahwa Pemodelan N-gram tidak jauh dengan banyak ketidakpastian dalam Pemodelan Markov Tersembunyi tersebut.

Seperti disebutkan di atas, kekuatan metode ini berasal dari memiliki kamus besar kata-kata dan pemakaian, tidak hanya primitif terdengar. Ini memberi program kemampuan untuk membedakan antara homofon, seperti "beat" dan "bit". Itu kontekstual, yang berarti bahwa ketika Anda berbicara tentang skor semalam, program ini tidak menarik kata-kata tentang borscht.

Tetapi model ini sebenarnya bukan yang terbaik untuk bahasa, terutama karena masalah dengan kemungkinan kata dalam frasa yang lebih panjang. Saat Anda menambahkan lebih banyak kata ke dalam sebuah kalimat, model ini akan sedikit mati karena kata-kata awal Anda tidak mungkin memuat semua yang diperlukan untuk pemikiran Anda sepenuhnya.

Namun, ini sederhana dan mudah diimplementasikan, menjadikannya sangat cocok untuk perusahaan seperti Google yang senang melempar server pada masalah komputasi. Anda dapat membaca lebih lanjut tentang N-gram Modelieng di Universitas Washington, atau Anda dapat menonton kuliah di Coursera.

Berteriak di Awan: Aplikasi & Perangkat

Siapa pun yang menggunakan Siri tahu frustrasi koneksi jaringan yang lambat. Ini karena perintah Anda kepada Siri dikirim melalui jaringan untuk diterjemahkan oleh Apple. Cortana untuk ponsel Windows juga membutuhkan koneksi jaringan agar berfungsi dengan baik. Sebaliknya, Amazon Echo hanyalah pengeras suara Bluetooth tanpa internet.

Kenapa bedanya? Karena Siri dan Cortana memerlukan server tugas berat untuk memecahkan kode ucapan Anda. Bisakah itu dilakukan di ponsel atau tablet Anda? Tentu, tetapi Anda akan mematikan kinerja dan daya tahan baterai Anda dalam proses. Masuk akal untuk melepas pemrosesan ke mesin khusus.

SIGCHI_Conference_Paper_Format _-_ KumarSpeechRecognitionForMobileApps_pdf

Pikirkan seperti ini: perintah Anda adalah mobil terjebak di lumpur. Anda mungkin bisa mendorongnya sendiri dengan cukup waktu dan usaha, tetapi itu akan memakan waktu berjam-jam dan membuat Anda kelelahan. Sebaliknya, Anda memanggil bantuan pinggir jalan dan mereka menarik mobil Anda hanya dalam beberapa menit. Kelemahannya adalah Anda harus menelepon dan menunggu mereka, tetapi itu masih lebih cepat dan lebih sedikit pajak.

Model desktop seperti Nuance cenderung menggunakan sumber daya lokal karena perangkat keras yang lebih kuat. Bagaimanapun, dalam kata-kata Steve Jobs, Anda desktop adalah sebuah truk. (Yang membuatnya agak konyol bahwa OS X menggunakan server untuk pemrosesan.) Jadi, ketika Anda perlu memproses bahasa dan suara, itu sudah dilengkapi dengan cukup baik untuk menanganinya sendiri.

Di sisi lain, Android memungkinkan pengembang untuk memasukkan pengenalan ucapan offline di aplikasi mereka. Google suka unggul teknologi, dan Anda bisa bertaruh platform lain akan mendapatkan kemampuan ini karena perangkat kerasnya semakin kuat. Tidak ada yang suka ketika jangkauan buruk atau penerimaan buruk melobotomisasi perangkat mereka.

Mulai Menggunakan Perintah Suara Sekarang

Sekarang setelah Anda mengetahui konsep dasar, Anda harus bermain-main dengan berbagai perangkat Anda. Cobalah yang baru pengetikan suara di Google Documents Bagaimana Mengetik Suara adalah Fitur Baru Terbaik Google DocumentsPengenalan suara telah meningkat pesat dalam beberapa tahun terakhir. Awal minggu ini, Google akhirnya memperkenalkan pengetikan suara ke Google Documents. Tapi apakah ada gunanya? Ayo cari tahu! Baca lebih banyak . Seolah-olah suite kantor Web belum cukup kuat, kontrol suara memungkinkan Anda untuk sepenuhnya mendikte dan memformat dokumen Anda. Ini berkembang pada teknologi canggih yang telah mereka rancang untuk Chrome dan Android.

Gagasan lain termasuk mengatur Mac untuk menggunakan perintah suara Cara Menggunakan Perintah Pidato di Mac Anda Baca lebih banyak dan mengatur Amazon Echo dengan checkout otomatis Bagaimana Amazon Echo Dapat Membuat Rumah Anda Menjadi Rumah PintarTeknologi rumah pintar masih dalam masa awal, tetapi produk baru dari Amazon yang disebut "Echo" dapat membantu membawanya ke arus utama. Baca lebih banyak . Hiduplah di masa depan dan mulailah berbicara dengan gadget Anda - bahkan jika Anda hanya memesan lebih banyak tisu. Jika Anda seorang pecandu ponsel cerdas, kami juga memiliki tutorial untuknya Siri 8 Hal yang Mungkin Tidak Anda Sadari Siri Dapat LakukanSiri telah menjadi salah satu fitur penentu iPhone, tetapi bagi banyak orang, itu tidak selalu yang paling bermanfaat. Sementara beberapa dari ini adalah karena keterbatasan pengenalan suara, keanehan menggunakan ... Baca lebih banyak , Cortana 6 Hal Paling Keren yang Dapat Anda Kontrol dengan Cortana di Windows 10Cortana dapat membantu Anda melakukan hands-free pada Windows 10. Anda dapat membiarkannya mencari file Anda dan web, membuat perhitungan, atau menarik ramalan cuaca. Di sini kita membahas beberapa keterampilannya yang lebih keren. Baca lebih banyak , dan Android OKE, Google: 20 Hal Berguna yang Dapat Anda Katakan di Ponsel Android AndaGoogle Assistant dapat membantu Anda menyelesaikan banyak hal di ponsel Anda. Berikut adalah sejumlah perintah Google dasar tapi berguna untuk dicoba. Baca lebih banyak .

Apa penggunaan kontrol suara favorit Anda? Beri tahu kami di komentar.

Kredit Gambar: T-flex melalui Shutterstock, Terencehonles via Wikimedia Foundation, Arizona State, Desain Cienpies via Shutterstock

Michael tidak menggunakan Mac ketika mereka ditakdirkan, tetapi ia dapat membuat kode dalam Applescript. Dia memiliki gelar dalam Ilmu Komputer dan Bahasa Inggris; dia sudah menulis tentang Mac, iOS, dan video game untuk sementara waktu sekarang; dan dia telah menjadi monyet TI siang hari selama lebih dari satu dekade, berspesialisasi dalam scripting dan virtualisasi.