Cara extract text dari images

Mencetak teks ke kertas dilakukan setiap hari, namun pada beberapa kesempatan sebaliknya diperlukan - mendapatkan kembali pesan asli dari gambar atau foto yang dipindai, untuk mengedit lebih lanjut dan penggunaan.

Konversi ini bernama Optical Character Recognition atau OCR untuk jangka pendek, dan dapat mengkonversi scan buku dan dokumen menjadi teks yang dapat diedit, untuk mendapatkan teks yang dapat diedit dari PDF dibuat melalui pemindaian, atau bahkan mendapatkan teks dari screenshot dan gambar.

Ada berbagai alat yang tersedia untuk pengenalan karakter dan beberapa dari mereka bebas untuk menggunakan. Artikel ini akan membantu Anda menemukan dan memilih antara beberapa alat OCR gratis.

Memilih alat OCR yang tepat tergantung pada kebutuhan spesifik Anda. Umumnya alat OCR dapat dibagi menjadi dua - layanan online dan perangkat lunak desktop, keduanya memiliki sisi positif dan negatif mereka.

Kali ini saya akan membahas alat OCR perangkat lunak desktop yang dapat di download dan tidak perlu online dalam pelaksanaannya.

Dengan Desktop Software Anda tidak perlu khawatir tentang meng-upload informasi sensitif ke server luar negeri, atau apakah file Anda akan memakan waktu terlalu lama untuk meng-upload. Beberapa program perangkat lunak desktop umumnya memberikan ulasan Pilihan teks yang lebih baik, dan beberapa integrasi dengan menawarkan perangkat lunak pemindai.

Software Desktop Anda perlu men-download dan menginstal ke komputer Anda, dan mereka biasanya memiliki lebih banyak pilihan daripada alat dikonfigurasi secara online. Beberapa program mencakup kemampuan untuk mendapatkan gambar langsung dari scanner sehingga Anda tidak perlu menggunakan program lain untuk melakukan itu.

Perangkat lunak OCR berikut yang akan direview:

Cuneiform OpenOCR, FreeOCR, gImageReader, Puma.NET and SimpleOCR.

Ada beberapa alat yang lebih bebas yang tersedia, yang terutama dimaksudkan untuk tugas-tugas yang lebih spesifik. JOCR adalah untuk mendapatkan teks dari screenshot, membutuhkan Microsoft Office 2003 atau yang lebih baru untuk diinstal. Juga ada Nuance PDF Reader yang mampu meng-upload PDF dipindai ke layanan online untuk pengenalan karakter. Nuance PDF Reader. Dan akhirnya, ada MyMorph, program yang dimaksudkan untuk mengkonversi file dokumen arsip dari satu format ke format lainnya, seperti TIFF, PDF, RTF dll MyMorph dapat mengkonversi file gambar yang dapat diedit file teks.

1. Cuneiform OpenOCR

OpenOCR didasarkan pada Cuneiform produk komersial yang dirilis sebagai freeware pada tahun 2007.

License: freeware
Input image: most bitmap file formats
Input PDF: no
Scanner input: yes
Output: TXT, RTF, HTML + output to Word/Excel
Dictionary languages: 20+

Cuneiform OpenOCR / PROS:	CONS:
Termasuk kedua file tunggal dan batch mode pemrosesan file.	Program instalasi menciptakan cara pintas menu start yang tidak valid seperti NewFolder1

7. FreeOCR

Ini adalah satu lagi dari program yang menggunakan open source Tesseract mesin OCR. Tesseract pada awalnya dikembangkan oleh HP dan saat ini disponsori oleh Google.

License: freeware
Requires: Microsoft .NET
Input image: TIFF, multi-page TIFF
Input PDF: yes
Scanner input: yes
Output: TXT
Dictionary languages: 9

FreeOCR / PROS:

CONS:

Tesseract mesin OCR memiliki akurasi yang baik.

Teks saja output, ada pengakuan format
Tidak ada dukungan multi-kolom (harus memotong gambar secara manual ke satu kolom)

8. gImageReader

gImageReader adalah salah satu dari OCR gratis Tesseract. Anda perlu men-download dan menginstal Tesseract terpisah dari halaman ini. Mesin Tesseract menggunakan kamus OpenOffice dan spellcheckers yang dapat didownload dari Disini.

License: freeware (GNU)
Requires: Tesseract, need to download separately
Input PDF: yes
Dictionary languages: many, uses freely downloadable OpenOffice spellcheckers
Scanner input: yes
Input image: JPEG, GIF, PNG, TIFF
Output: TXT

gImageReader / PROS:

CONS:

Tesseract mesin OCR memiliki akurasi yang baik
OCR daerah (s) dapat dipilih secara manual

Teks output saja, tanpa ada pengakuan format

9. Puma.NET

Puma.NET sebenarnya bukan solusi pengguna tapi kit pengembangan berdasarkan mesin OCR runcing, meskipun berisi contoh program dengan front-end.

Setelah menginstal tidak akan ada ikon peluncuran di Start Menu tetapi Anda dapat menemukan Puma.Net.Sample.exe program yang jauh di C: \ Program Files \ Puma.NET \ Contoh \ bin \ x86 \ Debug \ folder.

License: freeware (BSD)
Requires: Microsoft .NET
Input image: BMP, GIF, EXIG, JPG, PNG and TIFF
Input PDF: no
Scanner input: no
Output: TXT, RTF, HTML
Dictionary languages: 27

Puma.NET / PROS:	CONS:
Deteksi Font and formatting	Anda harus membuat shortcut untuk start program

10. SimpleOCR

SimpleOCR menggunakan mesin OCR sendiri nya yang mampu belajar font di dokumen tertentu.

License: free for all non-commercial purposes
Input image: TIFF, JPG, BMP
Input PDF: no
Scanner input: yes
Output: DOC, TXT
Dictionary languages: 3

Note: SimpleOCR tampaknya memberikan hasil yang lebih baik dari JPEG berwarna, bukan grayscale.

SimpleOCR / PROS:

CONS:

Kata demi kata teks revisi
Kemampuan untuk melatih mesin untuk menggunakan font tertentu
Termasuk kedua file tunggal dan batch mode pemrosesan file

Hanya 3 bahasa kamus.
Tidak ada deteksi font dan format

Tips Cakemier