Whisper OpenAI adalah solusi bertenaga AI baru yang dapat mengubah suara Anda menjadi teks. Yang terbaik dari semuanya, ini datang dengan biaya nol.
Namun, ada kendala: ini lebih menantang untuk diinstal dan digunakan daripada rata-rata utilitas Windows Anda. Terutama jika Anda ingin menggunakan Tensor Cores GPU Nvidia Anda untuk memberikan dorongan yang bagus.
Namun, jangan khawatir. Itu sebabnya kami di sini! Baca terus untuk mengetahui cara menginstal dan menggunakannya, tetapi juga, jika Anda memilikinya, agar Whisper memanfaatkan GPU Nvidia Anda.
Apa itu Whisper OpenAI?
ChatGPT sangat populer saat ini, dan kami sudah melihatnya bagaimana Anda dapat menggunakan ChatGPT oleh OpenAI. Namun, ini bukan satu-satunya proyek menarik dari OpenAI.
Didukung oleh pembelajaran mendalam dan jaringan saraf, Whisper adalah sistem pemrosesan bahasa alami yang dapat "memahami" ucapan dan mentranskripsikannya menjadi teks. Tapi itu juga miliknya sendiri, duduk di tempat yang tepat di antara semua solusi serupa:
- Whisper adalah solusi AI yang "dilatih" dalam bahasa alami. Jadi, lebih baik dalam memahami ucapan manusia "normal" daripada solusi lama.
- Whisper tidak hadir dengan antarmuka, juga tidak dapat merekam audio. Itu hanya dapat mengambil file audio yang ada dan file teks keluaran.
- Karena pandai "memahami bahasa", Whisper juga memiliki kekuatan super dalam penerjemahan otomatis dalam satu langkah.
- Whisper bukan layanan online dan dapat bekerja sepenuhnya offline.
- Jika Anda memiliki GPU Nvidia yang relatif modern (GTX970 atau yang lebih baru), Whisper dapat berjalan dalam "mode akselerasi perangkat keras" untuk meningkatkan kecepatannya.
- Tidak ada persyaratan untuk mendaftar, membeli lisensi, atau membeli langganan.
Mengapa GPU AMD Tidak Didukung?
Agar GPU lebih berguna daripada grafik, mereka harus bertindak sebagai prosesor yang sepenuhnya dapat diprogram. Itu sebabnya Nvidia membuat CUDA, yang secara resmi dianggap sebagai "platform komputasi paralel dan model pemrograman". Untuk mempelajari lebih lanjut tentang CUDA dan perangkat keras terkait ("CUDA core"), baca artikel kami di apa inti CUDA dan bagaimana mereka meningkatkan game PC.
CUDA adalah teknologi milik Nvidia, hanya kompatibel dengan GPU Nvidia. Alternatif terdekat untuk perangkat keras AMD adalah OpenCL dan Radeon Compute Platform. Untuk mempelajari lebih lanjut tentang perbandingan solusi masing-masing perusahaan, lihat artikel kami di Unit Komputasi AMD vs. Inti Nvidia CUDA.
Dibandingkan dengan alternatif lainnya, CUDA dianggap lebih matang, berkinerja, dan lebih mudah digunakan. Dengan demikian, sebagian besar pengembang hanya menargetkan CUDA, yang berarti perangkat lunak mereka hanya memanfaatkan fitur perangkat keras pada GPU Nvidia. Dan itu termasuk Whisper.
Cara Mengunduh dan Menginstal Whisper
Sayangnya, Whisper bukanlah aplikasi mandiri yang dapat Anda unduh, pasang, dan jalankan. Itu bergantung pada perangkat lunak lain, yang juga harus diinstal.
Untuk Windows, agar panduan ini tetap sederhana, kami akan menggunakan Chocolatey secara ekstensif untuk menginstal sebagian besar komponen perangkat lunak yang diperlukan. Lihat panduan kami di cara tercepat untuk menginstal perangkat lunak Windows untuk info lebih lanjut tentang Chocolatey.
Untuk Linux dan Mac, proses penginstalan (tidak termasuk variabel jalur Windows, dan file batch yang mudah digunakan yang akan kami buat) harus serupa.
- Untuk menginstal dan menggunakan Whisper, Anda harus memilikinya Piton dan itu PIP alat diinstal dan ditambahkan ke variabel "Path" Windows. Untuk info tentang itu, lihat artikel kami di cara menginstal Python PIP di Windows, Mac, dan Linux.
- Install FFMPEG melalui Chocolatey dengan perintah ini:
Juga, instal versi Python-nya dengan:coklat Install ffmpeg
pip3 Install python-ffmpeg
- Terakhir, instal Whisper dari halaman Github dengan:
pip3 instal git+https://github.com/openai/whisper.git
Mendapatkan Versi Berkemampuan CUDA Whisper
Meskipun Whisper tidak menggunakan GPU Nvidia, obor paket yang diandalkannya menawarkan versi yang dipercepat CUDA. Menggunakan ini alih-alih versi "biasa" dapat membantu Whisper menyelesaikan transkripsinya lebih cepat dengan bantuan GPU Nvidia Anda.
Agar Whisper menggunakan inti CUDA GPU Nvidia Anda:
- Jika Anda sudah menginstal obor versi "vanilla", hapus instalan dan bersihkan sisa-sisanya dengan:
Setelah selesai, ikuti dengan:pip3 uninstall obor
pip cachemembersihkan
- Instal versi berkemampuan CUDA obor dengan:
pip3 Install obor torchvision obor audio --ekstra-indeks-url https://download.pytorch.org/whl/cu117
- Untuk memeriksa apakah Whisper dapat menggunakan GPU Nvidia Anda, gunakan:
Anda harus melihat (default: cuda) alih-alih (standar: cpu).bisikan --membantu | findstr -i pytorch
Apa yang Harus Dilakukan jika Torch Gagal Dipasang
Jika Anda menemukan kesalahan "tidak ada versi yang ditemukan" saat menginstal obor, Anda mungkin perlu menginstal versi Python yang lebih lama paralel dengan versi Anda saat ini.
Gunakan perintah ini untuk melakukannya:
coklat Install python --versi OLDER_VERSION --berdampingan
Ganti "OLDER_VERSION" dengan versi, seperti 3.10.
Kemudian, gunakan jalur versi sekunder untuk semua perintah Whisper "generik" (mis., "c:\Python310\Scripts\pip.exe" bukan hanya "pip").
Cara Merekam Suara Anda
Anda dapat menggunakan aplikasi perekam suara untuk mengubah suara Anda menjadi file WAV atau MP3. Windows menyertakan aplikasi semacam itu — untuk info lebih lanjut tentang itu, lihat cara menggunakan aplikasi Perekam Suara Windows 10.
Untuk opsi fitur yang lebih lengkap, coba Kenekatan. Pelajari cara melakukannya dengan panduan kami di cara menggunakan Audacity untuk merekam audio di Windows dan Mac.
Cara Memulai Transkripsi Dengan Whisper
Meskipun Whisper tidak hadir dengan GUI yang mudah digunakan, penggunaannya sangat sederhana.
Katakanlah kita memiliki file Catatan Terbaru.mp3 yang berisi ucapan dalam bahasa Yunani, dalam folder c:\MyAudioFiles, dan ingin menerjemahkannya ke bahasa Inggris dan menyalinnya ke dalam file teks.
- Kita mulai dengan berlari Prompt Perintah atau PowerShell.
- Kami "mengubah direktori" tempat file audio disimpan dengan perintah ini:
CD C:\MyAudioFiles
- Kami meluncurkan Whisper pada file dengan:
bisikan--modelbasis--bahasagr--tugasmenerjemahkanCatatan Terbaru.mp3
Setelah diproses, file teks (bernama "LatestNote.mp3.txt") akan muncul di folder yang sama. Buka di editor teks seperti Notepad untuk melihat teks terjemahan.
Kami menggunakan contoh terjemahan karena transkripsi bahasa Inggris bahkan lebih mudah: Anda hanya perlu "kehilangan" flag "--language" dan "-task". Jadi, untuk transkripsi biasa, perintah di atas adalah:
bisikan--modelbasisCatatan Terbaru.mp3
Bendera "model" diperlukan karena Whisper menggunakan salah satu dari berbagai opsi. Mari kembangkan mereka untuk membantu Anda memilih yang terbaik untuk kebutuhan Anda.
Model Mana yang Harus Dipilih?
Whisper menawarkan berbagai model bahasa. Semakin besar modelnya, semakin baik akurasinya, tetapi juga semakin tinggi persyaratan perangkat kerasnya. Mereka:
- Kecil.
- Basis.
- Kecil.
- Sedang.
- Besar.
Sebagian besar penutur asli bahasa Inggris seharusnya baik-baik saja dengan kecil atau basis model. Penutur bahasa Inggris non-asli mungkin melihat hasil yang lebih baik dengan model yang lebih besar, seperti kecil Dan sedang.
Perhatikan, bagaimanapun, bahwa model sedang dan besar membutuhkan lebih dari 8GB VRAM (yaitu, "memori GPU Anda").
Untuk memilih salah satunya, tentukan model setelah tombol "--model" pada perintah:
bisikan --model kecil/kecil/sedang/besar [file]
Misalnya:
bisikan--modelkecilMy_Voice_Note.mp3
Cara Merampingkan Transkripsi Anda
Harus mengetik seluruh perintah Whisper setiap kali Anda ingin menyalin beberapa audio dapat dengan cepat menjadi membosankan. Mari buat file batch yang dapat diakses secara global untuk merampingkan proses.
- Berlari Penjelajah Windows dan kunjungi drive C: Anda.
- Buat folder untuk skrip Anda, dan salin jalurnya ke Clipboard.
- Di menu Start Windows, cari "path" dan pilih Edit variabel lingkungan sistem.
- Temukan Jalur variabel di bawah Variabel pengguna untuk YOUR_USERNAME. Klik dua kali untuk mengeditnya. Klik Baru, dan rekatkan jalur ke folder skrip Anda. Klik OKE untuk menerima perubahan.
- Kembali ke folder skrip Anda di Windows Explorer. Buat file batch baru di sana bernama "wht.bat". "Di dalamnya", tempatkan perintah ini:
bisikan --model kecil --bahasa di %1
- Buat dua file batch lagi, "whs" dan "whm".
- Tempatkan ini di dalam skrip pertama:
bisikan --model kecil --bahasa dalam %1
- Tempatkan ini di dalam yang kedua:
bisikan --model media --bahasa dalam %1
Selamat, Anda sekarang memiliki tiga skrip untuk dengan mudah menggunakan model kecil, kecil, dan sedang Whisper dengan file audio Anda! Untuk menyalin file audio apa pun ke teks:
- Temukan file dengan Windows File Explorer.
- Klik kanan di tempat kosong dan pilih Buka di Terminal.
- Ketik perintah ini, ganti "wht" dengan "whs" atau "whm" untuk menggunakan model bahasa kecil atau menengah:
apaANDA_AUDIO_FILE.mp3
Mengetik dengan Kecepatan Suara Dengan Whisper
Bahkan juru ketik sentuh tercepat pun tidak dapat menandingi kecepatan kita berbicara. Namun, hingga saat ini, berbicara daripada mengetik tidaklah optimal untuk membuat dokumen.
Sebagian besar solusi suara-ke-teks menghasilkan hasil yang biasa-biasa saja. Anda dapat menemukan beberapa solusi yang patut dicoba, tetapi rumit untuk digunakan, atau mahal. Syukurlah, Whisper mengubah semua itu.
Setelah langkah-langkah di atas, Anda harus siap untuk menyalin atau menerjemahkan suara Anda dengan akurasi tinggi, hanya dengan menggunakan satu perintah.