FreeOCR 3.0 von Peter Denker

Installation und Einrichtung eines kostenlosen Texterkennungsprogramms

[Bildkommentar]

Free OCR 3.0

Free OCR ist ein komplettes Scan- und OCR-Freeware-Programm für Windows 2000/XP/Vista/7 von softi.co.uk, das die freie Tesseract OCR-Engine v2 verwendet. Es ist einfach zu installieren und zu bedienen. Das Programm unterstützt Twain-Scanner, Fax- und PDF-Dokumente sowie die meisten Arten digitaler Bilder, einschließlich komprimierter Tiffs.

Programm herunterladen und installieren

Das Programm wird z.B. auf der Seite [1] www.freeware-base.de kostenlos zum Herunterladen angeboten. Der auf dieser Seite unten mit "Download" bezeichnete Link führt zur aktuellen Version 3.0 (Jan. 2010), der mit "Download 2" bezeichnete Link zu älteren Versionen. Nach dem Herunterladen der Installationsdatei freeocr.exe, die in einem beliebigen Downloadordner gespeichert werden kann, erfolgt die Installation durch Doppelklick auf den Dateinamen automatisch und ohne anschließenden Systemneustart.

OCR-Modul herunterladen

Eine Liste verfügbarer Schrifterkennungsmodule für diverse Sprachen findet sich nebst dem Link auf deren Quelle auf einer Seite von [2] www.paperfile.net. Auf der dort referenzierten [3] Google-Seite finden sich u.a. die Links zu zwei deutschsprachigen Schrifterkennungs-Modulen, und zwar

Die gewünschte GZ-Datei wird heruntergeladen und z.B. im gleichen Download-Ordner wie die Datei freeocr.exe gepseichert.

OCR-Modul dekomprimieren

Die erwähnten GZ-Dateien sind zweifach komprimiert. Ein Dekromimierungsprogramm wie z.B. 7-Zip muss darum zweifach angewendet werden. Damit wird z.B. aus tesseract-2.00.deu.tar.gz die Datei tesseract-2.00.deu.tar und daraus das Verzeichnis tessdata erzeugt, das die eigentlichen Sprachmodul-Dateien enthält.

OCR-Modul implementieren

Bei Installation des Programms FreeOCR ist im Systemverzeichnis (meist "C:/WINDOWS/") schon ein Ordner "tessdata" angelegt worden, der die Schrifterkennungsmodule für Englisch enthält. In diesen Ordner werden alle Dateien aus dem im vorigen Abschnitt beschriebenen Ordner gleichen Namens (mit Administrator-Rechten) hineinkopiert.
Soll das OCR-Modul für gotische Schrift zusätzlich verfügbar werden, müssen die Dateien mit der Bezeichnung "deu-f.*" im Systemordner "tessdata" so umbenannt werden, dass der Hauptbezeichner 3 Zeichen lang ist und sich von "deu" unterscheidet, z.B. in "def.*" .

Auswahl des OCR-Moduls

Nach Neustart des Programms FreeOCR steht im Auswahlfeld "OCR language" statt "eng" nun auch "deu" zur Verfügung. Die Bedienoberfläche bleibt allerdings englischsprachig.

Bedienoberfläche von FreeOCR 3
Bedienoberfläche von FreeOCR 3

Kurzanleitung als Hilfe

Zur Dokumentation der Bedienoberfläche und der Anwendung des Programms dient die Seite "FreeOCR Guide" (englisch), zu der man durch Anklicken des Hilfe-Symbols oben rechts auf der Startseite des Programms oder durch Aufruf der [6] help-Seite bei paperfile.net gelangt.

 


LINKS:
[1] Freeware-Base.de Beschreibung u. Link: www.freeware-base.de/freeware-weiter-file-21485.html - zurück zu [1] -
[2] Paperfile.net Schriftenmodul-Liste: www.paperfile.net/ocr_lang.htm - zurück zu [2] -
[3] Google-Liste Verschiedensprachige OCR-Module: http://code.google.com/p/tesseract-ocr/downloads/list - zurück zu [3] -
[4] Tesseract-Deutsch moderne Schrift: http://tesseract-ocr.googlecode.com/files/tesseract-2.00.deu.tar.gz - zurück zu [4] -
[5] Tesseract-Deutsch gothische Schrift: http://tesseract-ocr.googlecode.com/files/tesseract-2.01.deu-f.tar.gz - zurück zu [5] -
[6] Paperfile.net FreeOCR Guide: www.paperfile.net/freeocr/help.htm - zurück zu [6] -


© Copyright 2009 by PUBLICATIONES - details: www.publicationes.de/allgemeines/copyright.html