www.emiertips.info Tips Blog | Games Anak | Software Cara extract text dari images | Tips Cakemier
Subscribe:

Cara extract text dari images

Mencetak teks ke kertas dilakukan setiap hari, namun pada beberapa kesempatan sebaliknya diperlukan - mendapatkan kembali pesan asli dari gambar atau foto yang dipindai, untuk mengedit lebih lanjut dan penggunaan.

Konversi ini bernama Optical Character Recognition atau OCR untuk jangka pendek, dan dapat mengkonversi scan buku dan dokumen menjadi teks yang dapat diedit, untuk mendapatkan teks yang dapat diedit dari PDF dibuat melalui pemindaian, atau bahkan mendapatkan teks dari screenshot dan gambar.

Ada berbagai alat yang tersedia untuk pengenalan karakter dan beberapa dari mereka bebas untuk menggunakan. Artikel ini akan membantu Anda menemukan dan memilih antara beberapa alat OCR gratis.


Memilih alat OCR yang tepat tergantung pada kebutuhan spesifik Anda. Umumnya alat OCR dapat dibagi menjadi dua - layanan online dan perangkat lunak desktop, keduanya memiliki sisi positif dan negatif mereka.

Kali ini saya akan membahas alat OCR perangkat lunak desktop yang dapat di download dan tidak perlu online dalam pelaksanaannya.

Dengan Desktop Software Anda tidak perlu khawatir tentang meng-upload informasi sensitif ke server luar negeri, atau apakah file Anda akan memakan waktu terlalu lama untuk meng-upload. Beberapa program perangkat lunak desktop umumnya memberikan ulasan Pilihan teks yang lebih baik, dan beberapa integrasi dengan menawarkan perangkat lunak pemindai.
 
Software Desktop Anda perlu men-download dan menginstal ke komputer Anda, dan mereka biasanya memiliki lebih banyak pilihan daripada alat dikonfigurasi secara online. Beberapa program mencakup kemampuan untuk mendapatkan gambar langsung dari scanner sehingga Anda tidak perlu menggunakan program lain untuk melakukan itu.

Perangkat lunak OCR berikut yang akan direview:


Cuneiform OpenOCR, FreeOCR, gImageReader, Puma.NET and SimpleOCR.

Ada beberapa alat yang lebih bebas yang tersedia, yang terutama dimaksudkan untuk tugas-tugas yang lebih spesifik. JOCR adalah untuk mendapatkan teks dari screenshot, membutuhkan Microsoft Office 2003 atau yang lebih baru untuk diinstal. Juga ada Nuance PDF Reader yang mampu meng-upload PDF dipindai ke layanan online untuk pengenalan karakter. Nuance PDF Reader. Dan akhirnya, ada MyMorph, program yang dimaksudkan untuk mengkonversi file dokumen arsip dari satu format ke format lainnya, seperti TIFF, PDF, RTF dll MyMorph dapat mengkonversi file gambar yang dapat diedit file teks.

Cuneiform 11. Cuneiform OpenOCR

OpenOCR didasarkan pada Cuneiform produk komersial yang dirilis sebagai freeware pada tahun 2007.
  • License: freeware
  • Input image: most bitmap file formats
  • Input PDF: no
  • Scanner input: yes
  • Output: TXT, RTF, HTML + output to Word/Excel
  • Dictionary languages: 20+
Cuneiform OpenOCR / PROS:CONS:
  • Termasuk kedua file tunggal dan batch mode pemrosesan file.
  • Program instalasi menciptakan cara pintas menu start yang tidak valid seperti NewFolder1

FreeOCR7. FreeOCR

Ini adalah satu lagi dari program yang menggunakan open source Tesseract mesin OCR. Tesseract pada awalnya dikembangkan oleh HP dan saat ini disponsori oleh Google.
  • License: freeware
  • Requires: Microsoft .NET
  • Input image: TIFF, multi-page TIFF
  • Input PDF: yes
  • Scanner input: yes
  • Output: TXT
  • Dictionary languages: 9
FreeOCR / PROS:CONS:
  • Tesseract mesin OCR memiliki akurasi yang baik.
    • Teks saja output, ada pengakuan format
    • Tidak ada dukungan multi-kolom (harus memotong gambar secara manual ke satu kolom)

      gImageReader8. gImageReader

      gImageReader adalah salah satu dari OCR gratis Tesseract. Anda perlu men-download dan menginstal Tesseract terpisah dari halaman ini. Mesin Tesseract menggunakan kamus OpenOffice dan spellcheckers yang dapat didownload dari Disini.
      • License: freeware (GNU)
      • Requires: Tesseract, need to download separately
      • Input PDF: yes
      • Dictionary languages: many, uses freely downloadable OpenOffice spellcheckers
      • Scanner input: yes
      • Input image: JPEG, GIF, PNG, TIFF
      • Output: TXT
      gImageReader / PROS:CONS:
        • Tesseract mesin OCR memiliki akurasi yang baik
        • OCR daerah (s) dapat dipilih secara manual
            • Teks output saja, tanpa  ada pengakuan format

          Puma.NET 19. Puma.NET

          Puma.NET sebenarnya bukan solusi pengguna tapi kit pengembangan berdasarkan mesin OCR runcing, meskipun berisi contoh program dengan front-end.

          Setelah menginstal tidak akan ada ikon peluncuran di Start Menu tetapi Anda dapat menemukan Puma.Net.Sample.exe program yang jauh di C: \ Program Files \ Puma.NET \ Contoh \ bin \ x86 \ Debug \ folder.
          • License: freeware (BSD)
          • Requires: Microsoft .NET
          • Input image: BMP, GIF, EXIG, JPG, PNG and TIFF
          • Input PDF: no
          • Scanner input: no
          • Output: TXT, RTF, HTML
          • Dictionary languages: 27
          Puma.NET / PROS:CONS:
          • Deteksi Font and formatting
            • Anda harus membuat shortcut untuk start program

          SimpleOCR10. SimpleOCR

          SimpleOCR menggunakan mesin OCR sendiri nya yang mampu belajar font di dokumen tertentu.
          • License: free for all non-commercial purposes
          • Input image: TIFF, JPG, BMP
          • Input PDF: no
          • Scanner input: yes
          • Output: DOC, TXT
          • Dictionary languages: 3
          Note: SimpleOCR tampaknya memberikan hasil yang lebih baik dari JPEG berwarna, bukan grayscale.
          SimpleOCR / PROS:CONS:
            • Kata demi kata teks revisi
            • Kemampuan untuk melatih mesin untuk menggunakan font tertentu
            • Termasuk kedua file tunggal dan batch mode pemrosesan file
                • Hanya 3 bahasa kamus.
                • Tidak ada deteksi font dan format

                   

                  Tidak ada komentar:

                  masukkan email anda: