Iklan
Menarik teks dari gambar tidak pernah semudah ini berkat teknologi pengenalan karakter optik (OCR).
OCR memungkinkan kita melakukan segala macam hal berguna, seperti mencari gambar menggunakan kueri teks, mereproduksi dokumen tanpa mengetiknya dengan tangan, dan bahkan mengubah teks tulisan tangan menjadi teks digital Cara Mengonversi Gambar Dengan Tulisan Tangan ke Teks Menggunakan OCRPerlu mendigitalkan catatan tulisan tangan untuk mengedit atau menyimpannya untuk nanti? Berikut adalah alat OCR terbaik untuk mengonversi tulisan tangan menjadi teks. Baca lebih banyak .
Tapi apa itu pengenalan karakter optik? Bagaimana cara kerjanya? Ini mungkin tampak seperti ilmu hitam bagi Anda, tetapi pada akhir artikel ini, Anda akan memiliki pemahaman yang kuat tentang bagaimana komputer dapat mengenali huruf dan kata.
Cara Pengenalan Karakter Optik
Untuk memahami bagaimana teks diekstraksi dari suatu gambar, pertama-tama kita harus memahami apa itu gambar dan bagaimana mereka disimpan di komputer.
SEBUAH pixel adalah satu titik warna tertentu. Sebuah gambar pada dasarnya adalah kumpulan piksel. Semakin banyak piksel dalam suatu gambar, semakin tinggi resolusinya. Komputer tidak tahu bahwa gambar plang benar-benar plang — ia hanya tahu bahwa piksel pertama adalah warna ini, piksel berikutnya adalah warna itu, dan menampilkan semua pikselnya untuk Anda lihat.
Ini berarti teks dan non-teks tidak berbeda dengan komputer, dan itulah sebabnya pengenalan karakter optik sangat sulit. Dengan mengingat hal itu, inilah cara kerjanya.
Langkah 1: Pra-Memproses Gambar
Sebelum teks dapat ditarik, gambar perlu dipijat dengan cara tertentu untuk membuat ekstraksi lebih mudah dan lebih mungkin berhasil. Ini disebut pra-pemrosesan, dan solusi perangkat lunak yang berbeda menggunakan kombinasi teknik yang berbeda.
Teknik pra-pemrosesan yang lebih umum meliputi:
Binarisasi
Setiap piksel dalam gambar dikonversi menjadi hitam atau putih. Tujuannya adalah untuk memperjelas piksel mana yang menjadi milik teks dan piksel mana yang menjadi latar belakang, yang mempercepat proses OCR yang sebenarnya.
Deskew
Karena dokumen jarang dipindai dengan perataan yang sempurna, karakter dapat berakhir miring atau bahkan terbalik. Tujuannya di sini adalah untuk mengidentifikasi garis-garis teks horizontal dan kemudian memutar gambar sehingga garis-garis itu sebenarnya horisontal.
Despeckle
Terlepas dari apakah gambar tersebut telah binarized atau tidak, mungkin ada noise yang dapat mengganggu identifikasi karakter. Despeckling menghilangkan noise itu dan mencoba menghaluskan gambar.
Penghapusan garis
Identifikasi semua garis dan tanda yang kemungkinan bukan karakter, lalu hapus mereka sehingga proses OCR yang sebenarnya tidak menjadi bingung. Ini sangat penting saat memindai dokumen dengan tabel dan kotak.
Zonasi
Memisahkan gambar menjadi potongan teks yang berbeda, seperti mengidentifikasi kolom dalam dokumen multi-kolom.
Langkah 2: Memproses Gambar
Hal pertama yang pertama, proses OCR mencoba untuk menetapkan garis dasar untuk setiap baris teks dalam gambar (atau jika dikategorikan dalam pra-pemrosesan, itu akan bekerja melalui setiap zona satu per satu). Setiap baris karakter yang diidentifikasi ditangani satu per satu.
Untuk setiap baris karakter, perangkat lunak OCR mengidentifikasi jarak antar karakter dengan mencari garis vertikal piksel non-teks (yang seharusnya jelas dengan binarisasi yang tepat). Setiap potongan piksel di antara garis-garis non-teks ini ditandai sebagai "token" yang mewakili satu karakter. Karenanya, langkah ini disebut tokenization.
Setelah semua karakter potensial dalam gambar di tokenized, perangkat lunak OCR dapat menggunakan dua teknik yang berbeda untuk mengidentifikasi karakter token yang sebenarnya:
Pengenalan Pola
Setiap token dibandingkan piksel ke piksel terhadap seluruh rangkaian mesin terbang yang dikenal — termasuk angka, tanda baca, dan simbol khusus lainnya — dan kecocokan terdekat diambil. Teknik ini juga dikenal sebagai pencocokan matriks.
Ada beberapa kekurangan di sini. Pertama, token dan mesin terbang harus memiliki ukuran yang sama atau tidak ada yang cocok. Kedua, token harus dalam font yang sama seperti mesin terbang, yang mengesampingkan tulisan tangan. Tetapi jika font token diketahui, pengenalan pola bisa cepat dan akurat.
Ekstraksi fitur
Setiap token dibandingkan dengan aturan berbeda yang menggambarkan karakter seperti apa itu. Sebagai contoh, dua garis vertikal dengan tinggi yang sama yang dihubungkan oleh satu garis horizontal cenderung menjadi huruf kapital H.
Teknik ini bermanfaat karena tidak terbatas pada font atau ukuran tertentu. Itu juga bisa lebih bernuansa dalam mengenali perbedaan halus antara huruf kapital I, huruf kecil L, dan angka 1. Kelemahannya? Memprogram aturan jauh lebih kompleks daripada hanya membandingkan piksel dalam token dengan piksel dalam mesin terbang.
Langkah 3: Pasca Memproses Gambar
Setelah semua pencocokan token selesai, perangkat lunak OCR bisa memanggilnya sehari dan menyajikan hasilnya kepada Anda. Tetapi biasanya sedikit lebih banyak fudging perlu dilakukan untuk memastikan Anda tidak memutar mata Anda pada hasil omong kosong.
Batasan Leksikal
Semua kata dibandingkan dengan leksikon kata yang disetujui, dan apa pun yang tidak cocok diganti dengan kata pas terdekat. Kamus adalah salah satu contoh leksikon. Ini dapat membantu mengoreksi kata-kata dengan karakter yang salah, seperti "duri" dan bukan "th0rn".
Pengoptimalan Khusus Aplikasi
Ketika OCR digunakan dalam pengaturan ceruk, seperti untuk dokumen medis atau hukum, jenis khusus OCR dapat digunakan yang dirancang khusus untuk pengaturan itu. Dalam kasus ini, perangkat lunak OCR dapat mencari persamaan matematika, istilah khusus industri, dll.
Bahasa Alami
Teknik canggih ini mengoreksi kalimat dengan menggunakan model bahasa yang menggambarkan seberapa besar kemungkinan kata-kata tertentu diikuti oleh kata-kata lain. Ini mirip dengan teknologi yang memprediksi kata apa yang ingin Anda ketikkan berikutnya pada keyboard ponsel.
Ketika dilakukan dengan baik, ini dapat menghasilkan teks yang sangat mudah dibaca.
Alat Pengenalan Karakter Optik yang Direkomendasikan
Sekarang setelah Anda tahu cara kerja OCR, seharusnya mudah untuk melihat bahwa tidak semua alat OCR dibuat sama. Keakuratan hasil Anda akan sangat bergantung pada seberapa baik perangkat lunak mengimplementasikan berbagai teknik OCR yang dibahas dalam artikel ini.
Kami sangat merekomendasikan OneNote untuk ini, yang hanya satu alasan mengapa ini mengalahkan Evernote untuk membuat catatan Evernote vs. OneNote: Aplikasi Pencatat mana yang Tepat untuk Anda?Evernote dan OneNote adalah aplikasi pencatatan yang luar biasa. Sulit untuk memilih di antara keduanya. Kami membandingkan semuanya mulai dari antarmuka hingga organisasi catatan untuk membantu Anda memilih. Apa yang terbaik untuk Anda? Baca lebih banyak . Jika Anda bersedia membayar untuk solusi premium, pertimbangkan OmniPage. Lihat kami perbandingan OneNote vs OmniPage untuk OCR Gratis vs Perangkat Lunak OCR Berbayar: Microsoft OneNote dan Nuance OmniPage DibandingkanPerangkat lunak pemindai OCR memungkinkan Anda mengubah teks dalam gambar atau PDF menjadi dokumen teks yang dapat diedit. Apakah alat OCR gratis seperti OneNote cukup baik? Ayo cari tahu! Baca lebih banyak . Untuk dokumen seluler, Anda ingin melihatnya Aplikasi OCR untuk perangkat Android 6 Aplikasi OCR Android Terbaik untuk Mengekstrak Teks Dari GambarApakah Anda perlu mendigitalkan teks yang dicetak agar Anda dapat mempertahankan salinannya? Jika demikian, yang Anda butuhkan hanyalah alat pengenalan karakter optik (OCR). Baca lebih banyak .
Bagaimana Anda menggunakan OCR? Punya alat OCR favorit yang tidak kami sebutkan? Beri tahu kami di komentar di bawah!
Joel Lee memiliki gelar B.S. dalam Ilmu Komputer dan lebih dari enam tahun pengalaman menulis profesional. Dia adalah Pemimpin Redaksi untuk MakeUseOf.