Steffen Voß - Technologie & Gesellschaft

Digitalisierung : Eigene Scans in durchsuchbare PDFs umwandeln

Scan
Beispielscan

Aus selbst gescannten Dokumenten lassen sich relativ einfach durchsuchbare PDFs erzeugen – zumindest unter Linux.

Von Steffen Voß / / 8 Kommentare

Das papierlose Büro : OCR mit Tesseract und Imagemagick

Gescannte Vorlage
Gescannte Vorlage

„Wie bekomme ich die alten Texte in den Rechner?“ Vor dieser Frage stand ich neulich. Den ersten Schritt macht natürlich der Einzugsscanner. Der schmeißt aber PDFs aus. Ich habe dann also einen Stapel PDFs mit Bildern drin. Mit den Texten kann kann dann noch lange nicht arbeiten. Da muss es doch was von Open-Source geben, habe ich mir gedacht und wurde fündig: Imagemagick wandelt die PDFs in TIFs und Tesseract macht dann Texte draus.

Von Steffen Voß / / 13 Kommentare