Beschreibung:
Dieses Programm zur optischen Zeichenerkennung, das nicht installiert werden muss, wurde ursprünglich von Hewlett Packard entwickelt, dann 2005 von Google übernommen und seitdem unter der Open Source-Apache-Lizenz verbreitet.
Die Kommandozeilen-Syntax lautet:
tesseract.exe {Grafik-Datei} {Name der Ausgabe-Datei}
Grafik-Datei = Pfad zur Bild-Datei, die ausgelesen werden soll. Diese kann auch vorher mit einem Grafik-Programm wie
IrfanView
eingescannt werden. Es werden die Grafik-Formate Tiff-, Jpeg, JPG und Bmp unterstützt.
Name der Ausgabe-Datei = Als Ausgabe-Format ist TXT vorgegeben.
Zur Erleichterung der Arbeit habe ich vier Batch-Dateien erstellt und darin mit den Platzhaltern %1 (Datei-Name) und %2 (Datei-Erweiterung) gearbeitet:
- Mit `Tesseract2003.bat` kann man den in einer Grafik-Datei erkannten deutschen text in einem Word 97/2000/2002/2003-Dokument öffnen lassen.
- Mit `tesseract2007.bat` kann man den in einer Grafik-Datei erkannten deutschen text in einem Word 2007/2010/2013-Dokument öffnen lassen.
Beim Öffnen der Word-Datei wird man aufgefordert, aus UTF 8 zu konvertieren, was man mit Enter bestätigen muss. Nun kann der erkannte Text mit deutschen Umlauten ggf. nach einer Überarbeitung in diesem Format gespeichert werden.
Anmerkung: Bei MS Word muss im `Optionen`-Untermenü des `Extras`-Menüs auf der Registerkarte `Allgemein` die Option `Konvertieren beim Öffnen bestätigen" aktiviert sein.
- Mit `TesseractUTF8.bat` wird der erkannte Text aus der Grafik-Datei in einer Text-Datei im UTF8-Format gespeichert.Dann kann man diese in einem UTF8-fähigen Text-Editor wie
SuperEdi
öffnen, ggf. überarbeiten und beispielsweise im ANSI-Format speichern.
- In der vierten Batch-Datei namens `Beispiel.bat`habe ich ein Beispiel für die Benutzung der Kommandozeile vorgegeben. Darin wird die Grafik-Datei namens `Test.JPG`, die im Programm-Archiv enthalten ist, mit `Tesseract2003.bat` ins Word-2003-Format konvertiert.
Wer jedoch nicht so gern mit der Kommandozeile arbeitet und lieber eine grafische Oberfläche hat oder wer auch PDF-Dateien erkennen und Dokumente auch einscannen möchte, der sollte
FreeOCR
benutzen,das ebenfalls mit Tesseract-OCR arbeitet.
Windows:
Xp, Vista, 7 und 8
Lizenz: Open Source
Sprache: mehrsprachig
Dateigröße: 2,42 MB
Externer Download-Link:
Tesseract-OCR