Steffen Voß - Technologie & Gesellschaft

Das papierlose Büro : OCR mit Tesseract und Imagemagick

Gescannte Vorlage
Gescannte Vorlage

„Wie bekomme ich die alten Texte in den Rechner?“ Vor dieser Frage stand ich neulich. Den ersten Schritt macht natürlich der Einzugsscanner. Der schmeißt aber PDFs aus. Ich habe dann also einen Stapel PDFs mit Bildern drin. Mit den Texten kann kann dann noch lange nicht arbeiten. Da muss es doch was von Open-Source geben, habe ich mir gedacht und wurde fündig: Imagemagick wandelt die PDFs in TIFs und Tesseract macht dann Texte draus.

Von Steffen Voß / / 13 Kommentare