„Wie bekomme ich die alten Texte in den Rechner?“ Vor dieser Frage stand ich neulich. Den ersten Schritt macht natürlich der Einzugsscanner. Der schmeißt aber PDFs aus. Ich habe dann also einen Stapel PDFs mit Bildern drin. Mit den Texten kann kann dann noch lange nicht arbeiten. Da muss es doch was von Open-Source geben, habe ich mir gedacht und wurde fündig: Imagemagick wandelt die PDFs in TIFs und Tesseract macht dann Texte draus.
Das letzte mal mit einer OCR-Software habe ich glaube ich Ende der 90er gearbeitet – nicht weil ich es musst, sondern weil es ging. Oder sagen wir, es ging so la la… Das Programm war sperrig, man musste den Text von Hand markieren usw. Jetzt aber, auf der Suche nach einer freien Lösung, bin ich auf Tesseract gestoßen. Das ist ein Kommando-Zeilentool, dass es für Windows, Linux und Mac gibt. Tesseract wurde von 1985 bis 1995 von HP entwickelt und war 1995 eine der Top-OCR-Engines. 2005 hat HP den Code freigelassen und seit 2006 kümmert sich Google um die Entwicklung. Tesseract ist inzwischen die Basis für die Texterkennung für Google Books.
Im Blog von Frans de Jonge habe ich eine kleine Anleitung dazu gefunden, wie ich aus den PDFs zunächst TIFs erstelle und die dann an Tesseract übergeben. Frans hat dazu ein Bash-Skript geschrieben. In der Installation und in dem Skript musste ich nur das „nld“ für Holländisch durch „deu“ für Deutsch ersetzen. Jetzt habe ich ein Skript mit dem Namen pdftotext – das muss ich jeweils mit dem Namen der PDF-Datei aufrufen, um aus den PDFs Texte zu erstellen.
Das papierlose Büro
Ich könnte mir auch vorstellen, dass das ein Ansatz für ein digitales Büro sei könnte: Man schmeißt alle Briefe in den Scanner, der speichert alles in einem Verzeichnis. Regelmäßig schaut ein Skript, ob neue PDFs vorliegen. Die werden dann in Text gewandelt – Tesseract kann die Dateien auch in hOCR wandeln und damit das Layout des Originals erhalten. Mit hocr2PDF kann man dann wieder PDFs daraus erstellen, die aus dem Originalbild und einer Text-Schicht darüber bestehen. So werden die PDFs durchsuchbar. Und dann verschiebt man sie automatisch in Monatsordner. Die Archivierungssoftware Archivista macht das offenbar so ähnlich.
Die Ergebnisse können sich wirklich sehen lassen. Zwar ist das noch nicht so schwierig – sind die Vorlagen alle reiner Text. Aber selbst vergilbte Schreibmaschinenseiten werden äußerst zuverlässig erkannt. Insgesamt bin ich sehr zufrieden mit den Ergebnissen. Und gerade für größere Menge PDFs ist das eine flotte Lösung. Wer Tesseract mal testen möchte, kann das mit dem Online-Service OCRexrACT machen.
Links
- Homepage: Tesseract
Schreibe einen Kommentar