Beschreibung:
Diese Texterkennungssoftware kann auch Bilder vom Scanner speichern, hat sich aber auf das Erkennen von Text in Bildern spezialisiert, die mit Digitalkameras oder Smartphones aufgenommen wurden. Nach Herstellerangaben ist die Erfolgsrate bei der Texterkennung 99,8 Prozent. Dabei soll es nicht wichtig sein, ob sich noch andere grafische Elemente im Bild befinden. Die Software soll darüber hinaus auch schräg oder mit diffusem oder unregelmäßigem Licht aufgenommene Bilder erfolgreich erkennen können.
Um das Schriftgut von einem TWAIN-kompatiblen Scanner zu erfassen und als Bild zu speichern, geht man im Menü `File` (Alt-F) auf `Select Source` und wählt dort `Scanner` aus. Dann geht man im gleichen Menü auf `Acquire`, um zu scannen und ein Bild zu erzeugen. Anschließend speichert man das Bild mit `Save as` im gewünschten Grafik-Format und kann es nun per Kommandozeile erkennen lassen.
Die Texte können im TXT-, HTML-oder durchsuchbarem PDF-Format gespeichert werden. Zudem ist es möglich, elf verschiedene Sprachen auszulesen und von der eingebauten Rechtschreibkorrektur korrigieren zu lassen. Sogar eine Übersetzungsfunktion ist vorhanden. Außerdem ist die Speicherung des erfassten Textes in einer Sounddatei und das Erstellen ganzer eBooks möglich.
Das Programm erzielt mit einer Kamera mit mindestens 3 Megapixeln und einer guten Linse auch unter schlechten Bedingungen gute Resultate bei der Texterkennung. Dabei ist folgendes zu beachten:
- Bei guter Beleuchtung sollte der ISO-Wert der Kamera möglichst niedrig eingestellt werden. Je schlechter das Llicht, desto höher sollte dieser Wert sein.
- Die Bildkompression sollte auf die niedrigste Stufe gestellt werden.
- Der AutoFocus genügt.
- Der Blitz sollte abgestellt sein.
- Die Kameralinse sollte möglichst parallel zum Schriftgut ausgerichtet sein, weil sonst Verzerrungen die Erkennung verschlechtern.
- Die Kamera sollte möglichst ruhig gehalten werden. Wenn eine Anti-Wackel-Funktion vorhanden ist, sollte sie aktiviert werden.
- Das Licht sollte von der Seite kommen und auf keinen fall genau von oben. Schatten - auch von der Kamera oder einem selbst - sollten unbedingt vermieden werden. Wenn möglich, sollte man zwei Lampen benutzen, denn das reduziert die Schattenbildung. Vorteilhaft ist auch ein Stativ.
Wenn die Kamera über einen Landschaftsmodus verfügt, sollte dieser unbedingt eingestellt werden.
- beim Optimieren der Möglichkeiten des Menüs `Kamerafilter` sollte man zuerst `resolution enhancement` abstellen und dann den `Adaptive Thresholding`-parameter vergrößern bzw. verkleinern. Den Schärfe-Filter sollte man zuerst mit der niedrigsten Einstellung testen.
- Die eingebaute Funktion zum automatischen Drehen von Landschafts-Modus-Aufnahmen in die richtige Position zur Schrifterkennung muss beim Aufnehmen von Bildern im Landschaftsmodus aktiviert werden. Die linke Seite des Schriftstücks muss dann im Querformat bei den Aufnahmen unten liegen.
Bei der Benutzung des Kommandozeilen-Modus gilt folgende Syntax:
TopOCR.exe Bilddatei.* [Optionen und Parameter] Textausgabe.*
Als eingabeformate werden .gif, .jpeg, .tiff und .bmp in 24-Bit, 8-Bit und 1-Bit pixel Tiefe unterstützt. Ohne Angabe der Dateierweiterung versucht das Programm das Format selbst zu erkennen.
Optionen und Parameter können in beliebiger reihenfolge gesetzt werden. Parameter sind:
-THRESH,
-SHARPEN,
-DESPECKLE,
-LANGUAGE; ENG=Englisch ist voreingestellt, GRN=Deutsch muss angegeben werden. Weitere Sprachen sind FRN=Französisch, ITL=Italienisch, SPN=Spanisch, POR=Portugiesisch, SWD=Schwedisch, DAN=Dänisch, NOR=Norwwegisch, DCH=Niederländisch und FIN=Finnisch.
- RESENHANCE.
Die ausgegebene textdatei hat das ISO-8859-Format und unterstützt die 11 Sprachen. Neuer text wird am Dateiende an den alten angehängt.
Beispiele:
topocr image1.tif -RESENHANCE -THRESH 6 test1.txt
topocr.exe italian.jpg -LANGUAGE ITL test3.txt
topocr.exe doc144c.tif test8.txt
Bei Fehlern wird das Programm beendet und eine Fehlermeldung in einer Datei namens `error.log` ausgegeben. Bei Verwendung in einer Batch-Datei gilt folgende Syntax:
for %%x in (*.jpg) do topocr.exe %%x output.txt
Mit dem Namen eines Verzeichnisses aufgerufen, wird der Text aus allen darin enthaltenen .jpg-Dateien automatisch in der textdatei output.txt gespeichert.
Windows: 98, ME, NT, 2000, XP, Vista und 7
Lizenz: Freeware
Sprache: Englisch
Dateigröße: 8,09 MB
Externer Download-Link:
TopOCR