OCR mit Tesseract und ImageMagick
Von Carsten
Vor ein paar Tagen habe ich mir Googles Tesseract unter Mac OS X installiert und will damit meinen gescannten Briefe und Rechnungen einen Volltextindex verpassen. Ich scanne allerdings gerne als PNG und Tesseract versteht nur TIFF. Daher müssen die Dateien mit ImageMagick konvertiert werden:
convert -compress none -density 150x150 /PFAD/ZUM/BILD.png /PFAD/ZUM/TEMPBILD.tif
Anschliessend kann man die Datei mit Tesseract durchleuchten lassen und erhält eine Textdatei:
tesseract /PFAD/ZUM/TEMPBILD.tif /PFAD/ZUR/TEXTAUSGABE
Tesseract hängt die Endung .txt
selbst an.