Cara Mengekstrak Teks Dari PDF dan Gambar di Linux Menggunakan gImageReader

Jika Anda seorang pelajar atau pekerjaan Anda melibatkan bekerja dengan banyak gambar dan PDF, Anda akan, pada titik tertentu, merasa perlu untuk mengekstrak teks dari gambar atau dokumen.

Untungnya, ekstraksi teks memungkinkan hal ini. Dan ada beberapa alat yang dapat Anda gunakan untuk melakukan ini. gImageReader adalah salah satu dari banyak alat. Ini gratis untuk digunakan dan berfungsi dengan file gambar dan dokumen PDF.

Mari selami untuk memeriksa gImageReader secara detail dan melihat bagaimana Anda dapat menggunakannya untuk mengekstrak teks dari gambar dan PDF.

Apa itu gImageReader?

gImageReader adalah aplikasi yang memungkinkan Anda mengekstrak teks dari gambar dan PDF di Linux. Ini pada dasarnya adalah GUI atau front-end untuk mesin Tesseract OCR, sebuah sumber terbuka mesin yang dikembangkan oleh Hewlett-Packard yang dianggap sebagai salah satu mesin OCR terbaik yang tersedia.

Dengan gImageReader, Anda dapat dengan mudah dan akurat mengekstrak teks dari gambar atau dokumen PDF dengan beberapa klik mudah. Anda kemudian dapat mengekspor teks yang diekstraksi ke teks atau file PDF untuk digunakan lebih lanjut.

instagram viewer

Fitur gImageReader

gImageReader mengemas fitur berikut:

Impor dokumen dan gambar PDF dari berbagai sumber (disk, perangkat pemindaian, clipboard, dan tangkapan layar)
Proses batch gambar atau dokumen, yaitu mengekstrak teks dari beberapa gambar atau dokumen sekaligus
Kenali potongan teks sebagai teks biasa atau dokumen hOCR
Pemeriksa ejaan bawaan
Deteksi area teks otomatis
Pengeditan gambar/dokumen dasar
Simpan output sebagai file teks

Cara Menginstal gImageReader di Linux

gImageReader tersedia di sebagian besar distro Linux utama. Tetapi sebelum Anda melanjutkan instalasinya, Anda perlu menginstal mesin Tesseract OCR di sistem Anda.

Untuk melakukan ini, buka Manajer Perangkat Lunak di sistem Anda dan cari tesseract. Ketika mengembalikan daftar hasil, instal tesseract-ocr dan tesseract-ocr-eng paket. Anda juga dapat menggunakan manajer paket baris perintah untuk menginstal paket jika Anda lebih nyaman dengan terminal.

Setelah ini, lihat petunjuk penginstalan di bagian berikut untuk menginstal gImageReader di komputer Anda.

Jika Anda menggunakan Debian atau Ubuntu, buka terminal dan jalankan perintah di bawah ini untuk menginstal gImageReader:

sudo add-apt-repository ppa: sandromani/gimagereader
sudo tepat-Dapatkan memperbarui
sudo tepat Install pembaca gimage

Di Fedora, CentOS, atau Red Hat Enterprise Linux (RHEL):

sudo dnf Install gimagereader-qt

Pada Arch Linux atau Manjaro:

sudo pacman -S gimagereader

pengguna openSUSE dapat menginstal gImageReader menggunakan:

sudo zypper Install pembaca gimage

Jika Anda menggunakan distro Linux lainnya, Anda dapat membuat gImageReader dari sumbernya dengan mengikuti petunjuk di GitHub gImageReader.

Cara Menggunakan gImageReader di Linux

gImageReader cukup mudah digunakan dan bekerja dengan semua jenis file gambar serta dokumen PDF. Ikuti petunjuk di bawah ini untuk mengekstrak teks dari gambar atau PDF di Linux.

Buka menu aplikasi, cari gImageReader, dan luncurkan aplikasi. tekan Maksimalkan tombol di jendela gImageReader untuk membukanya dalam tampilan layar penuh.

Sekarang, klik Tambahkan gambar tombol di panel kiri di bawah bilah alat dan gunakan browser file untuk memilih gambar atau PDF yang ingin Anda ekstrak teksnya.

Klik Oke untuk mengimpor gambar atau PDF ke gImageReader. Atau, jika Anda ingin mengekstrak teks dari apa yang ditampilkan di layar, klik menu tarik-turun di sebelah Tambahkan gambar tombol dan pilih Mengambil screenshot. gImageReader akan mengambil tangkapan layar dari konten layar.

Setelah Anda menambahkan gambar ke gImageReader, klik tombol Alihkan panel keluaran tombol (satu dengan ikon notepad) untuk membuka panel output. Di sinilah teks yang Anda ekstrak dari gambar atau PDF muncul.

Bergantung pada bagaimana Anda ingin melanjutkan, Anda sekarang memiliki opsi untuk mengidentifikasi teks dalam gambar atau PDF secara otomatis atau manual. Untuk melakukan ini secara otomatis, klik pada Tata letak deteksi otomatis tombol, dan itu akan menyorot semua blok teks dalam gambar atau dokumen PDF yang dipilih.

Setelah ini, ketuk Kenali pilihan > Halaman Saat Ini untuk memulai proses ekstraksi teks.

Atau, untuk memilih teks secara manual, arahkan kursor ke teks yang ingin Anda ekstrak, dan gunakan tanda silang untuk menggambar kotak di sekitar area tempat Anda ingin mengekstrak teks. Kemudian, tekan Kenali pilihan tombol untuk melanjutkan.

Jika itu adalah dokumen PDF, dan Anda ingin mengekstrak teks dari halaman yang berbeda, ketuk pada Plus (+) untuk membalik halaman.

Untuk kembali, tekan tombol minus (-) tombol. Dan kemudian, pilih teks yang ingin Anda ekstrak dan tekan tombol Kenali pilihan tombol untuk mengekstraknya.

Meskipun jarang, mungkin ada kalanya gImageReader akan mengembalikan teks yang diekstrak dalam bahasa selain bahasa Inggris. Ketika ini terjadi, cukup ketuk tombol tarik-turun di samping Kenali pilihan tombol dan pilih salah satu opsi bahasa Inggris.

Terakhir, untuk menyimpan teks yang diekstrak, klik tombol Simpan keluaran tombol. Ini akan memunculkan jendela Simpan. Di sini, beri nama file dan tekan Oke.

Apa Lagi yang Dapat Anda Lakukan Dengan gImageReader?

Seperti disebutkan sebelumnya, gImageReader juga memberi Anda opsi untuk memodifikasi aspek tertentu dari gambar atau dokumen yang diimpor, seperti kecerahan, kontras, dan resolusinya. Selain itu, Anda juga dapat membalikkan warna atau memutar gambar atau dokumen, jika diperlukan.

Sebagian besar opsi ini terbukti berguna ketika teks dalam gambar atau dokumen tidak dapat dibaca oleh gImageReader, dan oleh karena itu, mencegah alat mengenali teks.

Untuk mengakses salah satu opsi pengeditan ini, klik Kontrol Gambar tombol, dan itu akan menampilkan toolbar mini di bawah toolbar utama. Dari sini, pilih tombol yang sesuai untuk melakukan operasi pengeditan yang Anda inginkan pada gambar atau dokumen.

Ekstraksi Teks di Linux Menjadi Mudah Dengan gImageReader

Ekstraksi teks sering kali membutuhkan alat yang tepat: alat yang menggunakan mesin OCR yang andal dan akurat yang memungkinkannya mengidentifikasi teks dalam gambar atau dokumen secara efektif, sehingga Anda dapat mengekstraknya secara efisien tanpa kerepotan.

gImageReader menyelesaikan ini dengan baik, berkat mesin Tesseract OCR yang digunakannya di latar belakang. Mempertimbangkan kemudahan penggunaannya, gImageReader tidak diragukan lagi merupakan salah satu alat ekstraksi teks terbaik yang tersedia untuk Linux.

Atau, jika Anda mencari solusi yang lebih sederhana, Anda dapat memeriksa TextSnatcher, yang cepat dan cukup mudah digunakan.

About Technology - denizatm.com

Cara Mengekstrak Teks Dari PDF dan Gambar di Linux Menggunakan gImageReader

Apa itu gImageReader?

Fitur gImageReader

Cara Menginstal gImageReader di Linux

Cara Menggunakan gImageReader di Linux

Apa Lagi yang Dapat Anda Lakukan Dengan gImageReader?

Ekstraksi Teks di Linux Menjadi Mudah Dengan gImageReader

kategori

Recent Post

Cara Benar Menggunakan Fitur Pemutaran Gambar Pada Kamera Digital Anda

Cara Konsisten Menang di Rock, Paper, Scissors

Situs Web Ini Menunjukkan Seperti Apa Punya Disleksia