Pembuat ChatGPT memiliki alat lain yang bertujuan untuk menghilangkan beban jari Anda.

Orang yang sama di belakang ChatGPT telah menciptakan alat berbasis AI lainnya yang dapat Anda gunakan hari ini untuk meningkatkan produktivitas Anda. Kami mengacu pada Whisper, solusi suara-ke-teks yang melampaui semua solusi serupa yang datang sebelumnya.

Anda dapat menggunakan Whisper di program atau baris perintah Anda. Namun, itu mengalahkan tujuannya: mengetik tanpa keyboard. Jika Anda perlu mengetik untuk menggunakannya, mengapa menggunakannya untuk menghindari pengetikan? Untungnya, Anda sekarang dapat menggunakan Whisper melalui GUI desktop. Lebih baik lagi, itu juga dapat menyalin suara Anda hampir secara real time. Mari kita lihat bagaimana Anda bisa mengetik dengan suara Anda menggunakan Whisper Desktop.

Apa itu Whisper OpenAI?

Whisper OpenAI adalah sistem Pengenalan Ucapan Otomatis (disingkat ASR) atau, sederhananya, adalah solusi untuk mengubah bahasa lisan menjadi teks.

Namun, tidak seperti sistem dikte dan transkripsi lama, Whisper adalah solusi AI yang dilatih selama lebih dari 680.000 jam bicara dalam berbagai bahasa. Whisper menawarkan akurasi yang tak tertandingi dan, cukup mengesankan, tidak hanya multibahasa, tetapi juga dapat menerjemahkan antar bahasa.

instagram viewer

Lebih penting lagi, ini gratis dan tersedia sebagai open source. Berkat itu, banyak pengembang telah memasukkan kodenya ke dalam proyek mereka sendiri atau membuat aplikasi yang mengandalkannya, seperti Whisper Desktop.

Jika Anda lebih suka Whisper versi "vanila" dan keserbagunaan terminal daripada GUI yang kikuk, baca artikel kami di cara mengubah suara Anda menjadi teks dengan Whisper OpenAI untuk Windows.

Apakah Whisper dan Whisper Desktop Sama?

Terlepas dari namanya yang terdengar resmi, Whisper Desktop adalah GUI pihak ketiga untuk Whisper, dibuat untuk semua orang yang lebih suka mengklik tombol daripada mengetik perintah.

Whisper Desktop adalah solusi mandiri yang tidak bergantung pada instalasi Whisper yang sudah ada. Sebagai bonus, ia menggunakan versi Whisper alternatif yang dioptimalkan, sehingga seharusnya berkinerja lebih baik daripada versi mandiri.

Anda berada di ujung spektrum yang lain, dan alih-alih mencari cara yang lebih mudah untuk menggunakan Whisper daripada terminal, Anda mencari cara untuk mengimplementasikannya dalam solusi Anda sendiri? Bersukacitalah, untuk OpenAI telah membuka akses ke ChatGPT dan Whisper API.

Unduh & Instal Whisper Desktop

Meskipun Whisper Desktop lebih mudah digunakan daripada Whisper yang berdiri sendiri, penginstalannya lebih berbelit-belit daripada berulang kali mengklik Next di wizard.

  1. Mengunjungi Halaman Github resmi Whisper Desktop. Lihat di sebelah kanan, dan klik versi terbaru di bawah Rilis.
  2. Di bawah Aktiva, klik WhisperDesktop.zip dan unduh ke PC Anda.
  3. Ekstrak arsip yang diunduh ke folder dan gunakan pengelola file Anda untuk mengunjunginya. Di dalamnya Anda akan menemukan aplikasi Whisper Desktop. Klik dua kali untuk menjalankannya.
  4. Anda juga memerlukan model bahasa Whisper GCML format biner. Whisper Desktop akan memberi Anda dua tautan untuk mendapatkannya. Lewati tautan kedua untuk membuat model Anda sendiri karena ini merupakan proses yang lebih rumit. Klik Wajah Pelukan untuk membuka halaman itu di browser default Anda, dari mana Anda dapat mengunduh file siap pakai.
  5. Versi Whisper Desktop yang kami gunakan saat menulis artikel ini menyediakan tautan ke repositori usang di Hugging Face. Jika Anda menemui masalah yang sama, perhatikan tautan ke a lokasi baru. Klik untuk mengunjungi repositori baru.
  6. Klik tautan yang akan membawa Anda ke yang tersedia model.
  7. Dari daftar itu, klik salah satu ggml-medium.bin atau ggml-medium.en.bin, tergantung pada apakah Anda menginginkan dukungan multibahasa atau hanya bahasa Inggris di Whisper.
  8. Akhirnya, Anda harus mencapai tujuan Anda. Perhatikan baris yang menyatakan bahwa file ini disimpan dengan Git LFS dan terlalu besar untuk ditampilkan, tetapi Anda masih dapat mengunduhnya. Klik unduh untuk melakukan hal itu.
  9. Saat file selesai diunduh, gunakan pengelola file favorit Anda (File Explorer akan melakukannya) untuk memindahkan file model bahasa yang diunduh ke folder yang sama dengan Whisper Desktop.

Mentranskrip Dengan Whisper Desktop

Mentranskripsi dengan Whisper Desktop itu mudah, tetapi Anda mungkin masih membutuhkan satu atau dua klik untuk menggunakan aplikasi ini.

Jalankan kembali Whisper Desktop. Apakah itu (masih) melewatkan jalur yang benar ke model bahasa yang Anda unduh? Klik pada tombol dengan tiga titik di sebelah kanan lapangan dan secara manual pilih file yang Anda unduh dari Hugging Face.

Dari tempat ini, Anda juga dapat menggunakan menu tarik-turun di sebelah Implementasi Model untuk memilih apakah Anda ingin menjalankan Whisper di GPU Anda (GPU), pada CPU dan GPU (Hibrida), atau hanya pada CPU (Referensi).

Itu Canggih tombol mengarah ke lebih banyak opsi yang memengaruhi cara Whisper akan berjalan di perangkat keras Anda. Namun, karena tombol tersebut dengan jelas menyatakan bahwa mereka canggih, kami sarankan Anda hanya men-tweaknya jika Anda memecahkan masalah atau tahu apa yang Anda lakukan. Menyetel nilai opsi yang salah di sini dapat menyebabkan penalti kinerja atau membuat aplikasi tidak dapat digunakan.

Klik OK untuk pindah ke antarmuka utama aplikasi.

Jika Anda sudah memiliki rekaman suara Anda yang ingin diubah menjadi teks tertulis, klik Transkripsi File dan pilih itu. Tetap saja, kami akan menggunakan Whisper Desktop untuk transkripsi langsung untuk artikel ini.

Pilihan yang ditawarkan sangat mudah. Anda dapat memilih bahasa Whisper akan digunakan, pilih jika Anda mau menerjemahkan antara bahasa dan aktifkan aplikasi Debug Konsol.

Sebagian besar pengguna berbahasa Inggris dapat melewati opsi tersebut dengan aman dan hanya memastikan input audio yang benar dipilih dari menu pull-down di sebelah Perangkat Tangkap.

Memastikan Simpan ke file teks Dan Tambahkan ke file itu diaktifkan agar Whisper Desktop menyimpan hasilnya ke file tanpa menimpa kontennya. Menggunakan tombol dengan tiga titik di sebelah kanan bidang jalur file untuk menentukan file teks tersebut.

Klik Menangkap untuk mulai menyalin ucapan Anda ke teks.

Whisper Desktop akan menampilkan tiga indikator saat mendeteksi aktivitas suara, saat aktif menyalin, dan saat proses terhenti.

Anda dapat terus berbicara selama yang Anda suka, dan sesekali Anda akan melihat dua indikator pertama berkedip saat aplikasi mengubah suara Anda menjadi teks. Klik Berhenti ketika selesai.

File teks yang Anda pilih harus dibuka di editor teks default Anda, yang berisi semua yang Anda katakan dalam bentuk tertulis sampai Anda mengklik Berhenti.

Kami harus mencatat bahwa Anda juga dapat melakukan kebalikan dari apa yang kami lihat di sini: mengonversi teks apa pun menjadi ucapan. Dengan cara ini Anda dapat mendengarkan apa pun seolah-olah itu adalah podcast alih-alih melelahkan mata dengan menyipitkan mata ke layar. Untuk info lebih lanjut tentang itu, lihat artikel kami di beberapa alat online gratis terbaik untuk mengunduh text-to-speech sebagai audio MP3.

Tip Mengetik Suara Desktop Whisper

Meskipun Whisper Desktop bisa menjadi penyelamat, memungkinkan Anda untuk menulis dengan suara Anda lebih cepat daripada yang bisa Anda ketik, itu jauh dari sempurna.

Selama pengujian kami, kami menemukan bahwa kadang-kadang gagap, melewatkan beberapa kata, gagal menyalin sampai Anda hentikan dan mulai ulang proses secara manual, atau terjebak dalam lingkaran dan terus menyalin ulang frasa yang sama berkali-kali.

Kami percaya itu adalah gangguan sementara yang akan diperbaiki karena Whisper mandiri tidak menunjukkan masalah yang sama.

Terlepas dari gangguan kecil itu, mengubah suara Anda menjadi teks seharusnya mudah dilakukan dengan Whisper Desktop. Namun, selama pengujian kami, kami menemukan bahwa ini dapat bekerja lebih baik jika...

  1. Alih-alih hanya mengucapkan dua atau tiga kata lalu berhenti, Whisper dapat lebih memahami Anda jika Anda berbicara lebih lama. Cobalah untuk setidaknya memberikan seluruh kalimat sekaligus.
  2. Untuk alasan yang sama, hindari berulang kali memulai dan menghentikan proses transkripsi.
  3. Setiap kali Anda menyadari bahwa Anda melakukan kesalahan, abaikan saja dan teruskan. Memuat dan membongkar model bahasa tampaknya menjadi bagian proses yang paling memakan waktu dengan status Whisper saat ini dan perangkat keras kami yang tersedia. Jadi, lebih cepat untuk terus berbicara dan kemudian mengedit kesalahan Anda sesudahnya.
  4. Seperti halnya Whisper versi mandiri, sebaiknya gunakan model bahasa optimal untuk perangkat keras Anda yang tersedia. Anda dapat menggunakan hingga sedang model jika GPU Anda memiliki VRAM 8GB. Untuk VRAM yang lebih sedikit, gunakan model yang lebih kecil. Hanya pilih yang sedikit lebih akurat tetapi juga jauh lebih menuntut besar model jika Anda menggunakan GPU dengan VRAM 16GB atau lebih.
  5. Ingatlah bahwa semakin besar model bahasanya, semakin lambat proses transkripsinya. Jangan memilih model yang lebih besar dari yang dibutuhkan. Anda mungkin akan menemukan Whisper Desktop sudah dapat "memahami Anda" hampir sepanjang waktu dengan model sedang atau lebih kecil, dengan hanya satu atau dua kesalahan per paragraf.

Apakah Anda Masih Mengetik? Gunakan Suara Anda Dengan Whisper

Meskipun memerlukan beberapa waktu untuk penyiapan, seperti yang akan Anda lihat saat mencobanya, Whisper Desktop bekerja jauh lebih baik daripada kebanyakan alternatif, dengan akurasi yang jauh lebih tinggi dan kecepatan yang lebih baik.

Setelah Anda mulai menggunakannya untuk mengetik dengan suara Anda, keyboard Anda mungkin terlihat seperti peninggalan zaman kuno yang sudah lama hilang.