Pengenalan Suara Itu Luar Biasa, Tapi Bagaimana Itu Bisa Begitu Baik?

Teknologi pengenalan suara memiliki sejarah perkembangan yang kaya yang menjadikannya seperti sekarang ini. Ini adalah inti kehidupan modern, memberi kita kemampuan untuk melakukan tugas hanya dengan berbicara ke perangkat. Jadi, bagaimana teknologi yang menakjubkan ini berkembang selama bertahun-tahun? Mari lihat.

1952: Sistem Audrey

Langkah pertama dalam pengenalan suara muncul pada awal 1950-an. Bell Laboratories mengembangkan mesin pertama yang dapat memahami suara manusia pada tahun 1952, dan diberi nama Sistem Audrey. Nama Audrey adalah semacam singkatan dari frasa Pengenalan Digit Otomatis. Meskipun ini merupakan inovasi besar, ia memiliki beberapa keterbatasan utama.

Yang paling mencolok, Audrey hanya bisa mengenali angka angka 0-9, tanpa kata-kata. Audrey akan memberikan umpan balik ketika pembicara mengatakan angka dengan menyalakan 1 dari 10 bola lampu, masing-masing sesuai dengan angka.

Kredit Gambar: metamorworks/Shutterstock.com

Meskipun dapat memahami angka dengan akurasi 90%, Audrey terbatas pada jenis suara tertentu. Inilah mengapa satu-satunya orang yang benar-benar akan menggunakannya adalah HK Davis, salah satu pengembangnya. Ketika sebuah nomor diucapkan, pembicara harus menunggu setidaknya 300 milidetik sebelum mengucapkan yang berikutnya.

instagram viewer

Tidak hanya terbatas dalam fungsi, tetapi juga terbatas dalam utilitas. Tidak banyak gunanya mesin yang hanya bisa memahami angka. Salah satu penggunaan yang mungkin adalah memutar nomor telepon, tetapi jauh lebih cepat dan lebih mudah untuk memanggil nomor dengan tangan. Meskipun Audrey tidak memiliki eksistensi yang anggun, itu masih berdiri sebagai tonggak besar dalam pencapaian manusia.

Terkait: Cara Menggunakan Pengetikan Suara di Microsoft Word

1962: Kotak Sepatu IBM

Satu dekade setelah Audrey, IBM mencoba mengembangkan sistem pengenalan suara. Pada Pameran Dunia 1962, IBM memamerkan sistem pengenalan suara bernama Showbox. Seperti Audrey, tugas utamanya adalah memahami angka 0-9, tetapi juga dapat memahami enam kata: plus, minus, false, total, subtotal, dan off.

Shoebox adalah mesin matematika yang dapat mengerjakan soal aritmatika sederhana. Sedangkan untuk umpan balik, alih-alih lampu, Shoebox mampu mencetak hasilnya di atas kertas. Ini membuatnya berguna sebagai kalkulator, meskipun pembicara masih perlu berhenti di antara setiap angka/kata.

1971: Identifikasi Panggilan Otomatis IBM

Setelah Audrey dan Shoebox, lab lain di seluruh dunia mengembangkan teknologi pengenalan suara. Namun, itu tidak lepas landas sampai tahun 1970-an, ketika pada tahun 1971, IBM membawa penemuan pertama dari jenisnya ke pasar. Itu disebut sistem Identifikasi Panggilan Otomatis. Itu adalah sistem pengenalan suara pertama yang digunakan melalui sistem telepon.

Insinyur akan menelepon dan terhubung ke komputer di Raleigh, North Carolina. Penelepon kemudian akan mengucapkan salah satu dari 5.000 kata dalam kosakatanya dan mendapatkan respons "ucapan" sebagai jawaban.

Terkait: Cara Menggunakan Dikte Suara di Mac

1976: Harpy

Pada awal 1970-an, Departemen Pertahanan AS tertarik pada pengenalan suara. DARPA (Defence Advanced Research Projects Agency) mengembangkan program Speech Understanding Research (SUR) pada tahun 1971. Program ini memberikan pendanaan kepada beberapa perusahaan dan universitas untuk membantu penelitian dan pengembangan pengenalan suara.

Pada tahun 1976, karena SUR, Universitas Carnegie Mellon mengembangkan Sistem Harpy. Ini adalah lompatan besar dalam teknologi pengenalan suara. Sistem sampai saat itu mampu memahami kata-kata dan angka, tetapi Harpy unik karena dapat memahami kalimat penuh.

Itu memiliki kosakata hanya sekitar 1.011 kata, yang menurut publikasi oleh B. Lowerre dan R. reddy, disamakan dengan lebih dari satu triliun kemungkinan kalimat yang berbeda. Publikasi kemudian menyatakan bahwa Harpy dapat memahami kata-kata dengan akurasi 93,77%.

Tahun 1980-an adalah waktu yang penting untuk teknologi pengenalan suara, karena ini adalah dekade di mana suara teknologi pengenalan, karena ini adalah dekade kami diperkenalkan dengan Metode Markov Tersembunyi (HMM). Kekuatan pendorong utama di balik HMM adalah kemungkinan.

Setiap kali suatu sistem mendaftarkan fonem (elemen terkecil dari ucapan), ada kemungkinan tertentu tentang apa yang akan terjadi selanjutnya. HMM menggunakan probabilitas ini untuk menentukan fonem mana yang paling mungkin muncul berikutnya dan membentuk kata-kata yang paling mungkin. Sebagian besar sistem pengenalan suara saat ini masih menggunakan HMM untuk memahami ucapan.

Tahun 1990-an: Pengenalan Suara Mencapai Pasar Konsumen

Sejak konsepsi teknologi pengenalan suara, telah dalam perjalanan untuk menemukan ruang di pasar konsumen. Pada 1980-an, IBM memamerkan komputer prototipe yang dapat melakukan dikte ucapan-ke-teks. Namun, baru pada awal 1990-an orang mulai melihat aplikasi seperti ini di rumah mereka.

Pada tahun 1990, Dragon Systems memperkenalkan perangkat lunak dikte ucapan-ke-teks pertama. Itu disebut Dragon Dictate, dan awalnya dirilis untuk Windows. Program senilai $9.000 ini revolusioner untuk menghadirkan teknologi pengenalan suara kepada massa, tetapi ada satu kekurangannya. Perangkat lunak yang digunakan dikte diskrit, artinya pengguna harus berhenti sejenak di antara setiap kata agar program dapat mengambilnya.

Pada tahun 1996, IBM kembali berkontribusi pada industri dengan Medspeak. Ini adalah program dikte ucapan-ke-teks juga, tetapi tidak mengalami pendiktean diskrit seperti yang dilakukan Dragon Dictate. Sebaliknya, program ini dapat mendikte ucapan terus-menerus, yang membuatnya menjadi produk yang lebih menarik.

Terkait: Cara Menggunakan Asisten Google Dengan Headphone

2010: Seorang Gadis Bernama Siri

Sepanjang tahun 2000-an, teknologi pengenalan suara meledak dalam popularitas. Itu diimplementasikan ke lebih banyak perangkat lunak dan perangkat keras daripada sebelumnya, dan satu langkah penting dalam evolusi pengenalan suara adalah Siri, asisten digital. Pada 2010, sebuah perusahaan bernama Siri memperkenalkan asisten virtual sebagai aplikasi iOS.

Pada saat itu, Siri adalah perangkat lunak yang mengesankan yang dapat mendikte apa yang dikatakan pembicara dan memberikan respons yang cerdas dan cerdas. Program ini sangat mengesankan sehingga Apple mengakuisisi perusahaan pada tahun yang sama dan memberi Siri sedikit perombakan, mendorongnya ke asisten digital yang kita kenal sekarang.

Melalui Apple, Siri mendapatkan suara ikoniknya (suara oleh Susan Benett) dan sejumlah fitur baru. Ini menggunakan pemrosesan bahasa alami untuk mengontrol sebagian besar fungsi sistem.

Tahun 2010-an: 4 Besar Asisten Digital

Seperti berdiri, empat asisten digital besar mendominasi pengenalan suara dan perangkat lunak tambahan.

Siri hadir di hampir semua produk Apple: iPhone, iPod, iPad, dan keluarga komputer Mac.
Asisten Google hadir di sebagian besar dari 3 miliar + perangkat Android di pasar. Selain itu, pengguna dapat menggunakan perintah di banyak layanan Google, seperti Beranda Google.
Amazon Alexa tidak memiliki banyak platform khusus di mana ia tinggal, tetapi masih merupakan asisten yang menonjol. Ini tersedia untuk diunduh dan digunakan di perangkat Android, perangkat Apple. dan bahkan pilih laptop Lenovo
Bixby adalah entri terbaru ke daftar asisten digital. Ini adalah asisten digital buatan Samsung, dan hadir di antara ponsel dan tablet perusahaan.

Sejarah yang Diucapkan

Pengenalan suara telah berkembang jauh sejak zaman Audrey. Ini telah membuat keuntungan besar di berbagai bidang; misalnya menurut Hapus Jembatan Ponsel, bidang medis mendapat manfaat dari chatbot yang dioperasikan dengan suara selama pandemi pada tahun 2020. Dari hanya mampu memahami angka hingga memahami berbagai variasi kalimat lengkap, pengenalan suara terbukti menjadi salah satu teknologi paling berguna di zaman modern kita.

MembagikanMenciakSurel

Bagaimana Cara Kerja Pengenalan Suara?

Kami menggunakan pengenalan suara sepanjang waktu, tetapi bagaimana cara kerjanya?

Baca Selanjutnya

Topik-topik yang berkaitan

Teknologi Dijelaskan
Siri
Asisten Google
Alexa
Bixby
Perintah suara

Tentang Penulis

Arthur Brown (31 Artikel Diterbitkan)

Arthur adalah jurnalis teknologi dan musisi yang tinggal di Amerika. Dia telah berkecimpung di industri ini selama hampir satu dekade, menulis untuk publikasi online seperti Android Headlines. Dia memiliki pengetahuan yang mendalam tentang Android dan ChromeOS. Selain menulis artikel informasi, ia juga mahir melaporkan berita teknologi.

Berlangganan newsletter kami

Bergabunglah dengan buletin kami untuk kiat teknologi, ulasan, ebook gratis, dan penawaran eksklusif!

Klik di sini untuk berlangganan

About Technology - denizatm.com

Pengenalan Suara Itu Luar Biasa, Tapi Bagaimana Itu Bisa Begitu Baik?

1952: Sistem Audrey

1962: Kotak Sepatu IBM

1971: Identifikasi Panggilan Otomatis IBM

1976: Harpy

Tahun 1990-an: Pengenalan Suara Mencapai Pasar Konsumen

2010: Seorang Gadis Bernama Siri

Tahun 2010-an: 4 Besar Asisten Digital

Sejarah yang Diucapkan

Berlangganan newsletter kami

kategori

Recent Post

Cara Merekam Video Hands-Free di Snapchat

Cara Memasang dan Mengatur Snap di Arch Linux

Cara Menonaktifkan YouTube Shorts: 2 Cara