Free OCR

Free OCR 5.X
Schrifterkennung vom Scanner, aus PDF- und aus Grafik-Dokumenten

Beschreibung:
Mit diesem kompletten Scan-und Schrifterkennungs-Programm mit einer integrierten Open Source-OCR-Engine (Tesseract) können Sie (auch mehrseitige) Dokumente in den Formaten PDF, JPEG, JPG, Bmp und TIFF bearbeiten. Wenn Sie eine Seite einscannen oder eine Datei öffnen, extrahiert und erkennt das Programm den vorhandenen Text, den Sie dann speichern und weiter bearbeiten können.

Die Sprache der grafischen Programm-Oberfläche ist zwar Englisch, aber beim Scannen werden diverse Sprachen erkannt. Die einzelnen Optionen erreichen Sie über die Menüleiste. Um deutsche Texte erkennen zu lassen, gehen Sie folgendermaßen vor:

Wechseln Sie in den Unterordner `c:\FreeOCR\tessdata` mit den Sprachdateien.

Benennen Sie die Datei `eng.traineddata`in `eng.traineddata.old` um.

Speichern Sie eine Kopie der Datei `deu.traineddata` unter dem neuen Namen `eng.traineddata`.

Schließen Sie den Unterordner wieder mit der Tastenkombination Alt+F4.

Nach einem Neustart des Programms können Sie nun in drei Schritten Quellen mit text öffnen und den gefundenen Text speichern:

Im `File`-Menü können Sie entweder
- eine Bild-Datei auswählen und öffnen (`Open`) ,
- eine PDF-Datei auswählen und öffnen (`Load PDF`) oder
- Ihren TWAIN- oder VIA-Scanner starten und ein Dokument einlesen (`Scan`).

Das Programm erkennt automatisch jeden angeschlossenen Scanner und öffnet beim Scannen ein Menü zum Einrichten des Scanners, das Sie mit der Tab-Taste durchlaufen können. Für bestmögliche Resultate stellen Sie als Auflösung 300 DPI, als Quelle Text und als Modus schwarzweiß ein. Bei weiteren Scans können Sie die gemachten Einstellungen einfach mit Enter übernehmen.

Nun klicken Sie im `OCR`-Menü auf die Option `Start OCR Process`. Die Erkennung dauert einige Sekunden, so dass Sie ein wenig warten sollten.

Dann wählen Sie im `Text`-Menü entweder die Option
- `Copy Text to Clipboard`, wenn Sie den erkannten Text in die Zwischenablage kopieren wollen, oder
- `Save Text`, wenn Sie den Text im Txt- oder Word-Format speichern wollen. Beim Exportieren in eine Word-Datei geben Sie einfach beim Datei-Namen als Erweiterung `.doc` oder `.docx` ein.

Zur weiteren Bearbeitung der erkannten Texte bietet das Programm noch folgende Möglichkeiten:

Vor dem Speichern oder kopieren können Sie auf Wunsch mit der Option `Remove Line Breaks` alle Zeilenschaltungen im text entfernen und so einen Fließtext erzeugen.

Im Programm-Ordner finden Sie zum Ausprobieren zwei testseiten namens `Test.tiff` und `test.tif.pdf`, in denen einige englische Sätze in verschiedenen Schriftarten enthalten sind.

Im Programm-Fenstter für das Erkennungs-ergebnis stehen oben einige englische Scan-Anweisungen. Diese können Sie entweder mit dem Befehl `Clear Text Window` vor dem Scannen oder nach dem Speichern bei der weiteren Bearbeitung der Texte löschen können.

Sie können die Erkennung trainieren, also noch verbessern, indem Sie im `Settings`-Menü durch Anklicken der Option `Post Text Processing` die Datei `Post_Proc.txt` öffnen. Diese ähnelt einem Wörterbuch, und Sie können Darin nach dem Muster der bereits vorgenommenen Eintragungen weitere Ersetzungsvorgaben machen: in jede Zeile zuerst die zu korrigierende Zeichenfolge, dann ein Leerzeichen und dahinter die richtige Schreibweise.

HINWEIS: Zur Ausführung dieses Programms ist die Betriebssystem-Komponente Microsoft.Net Framework 2.0 oder höher erforderlich.

Windows: XP, Vista, 7, 8 und 10
Lizenz: Freeware
Sprache: Englisch
Dateigröße: 10,80 MB

Externer Download-Link:
Free OCR

Zurück zur Kategorie "Screen Reader und Texterkennung"