Das papierlose Büro

OCR mit Tesseract und Imagemagick

Kommentare

  1. Avatar von Usul
    Usul

    Eigent­lich soll­te gscan2pdf die­se Funk­tio­nen alle unter einer Ober­flä­che bün­deln: Scan­nen, OCR, PDF mit unsicht­ba­rem, aber durch­such­ba­ren OCR-Lay­er erzeu­gen. Theo­re­tisch soll gscan2pdf das machen, es hat aber bei mir nie funk­tio­niert. Ist aller­dings schon ein paar Mona­te her, dass ich das mal getes­tet habe, viel­leicht funk­tio­niert das mitt­ler­wei­le bes­ser. Hast du mal gscan2pdf probiert?

  2. Avatar von Frans

    Ich freue mich, dass mei­ne Noti­zen hilf­reich waren. Ich schrei­be sie in ers­ter Linie für mich selbst, aber ich stel­le sie online, da ande­re sie mög­li­cher­wei­se auch gebrau­chen können.

  3. Avatar von Steffen Voß

    @Frans: Dan­ke! So mache ich das auch. Ich habe sogar schon beim Goo­geln nach bestimm­ten Pro­ble­men alte Arti­kel von mir wie­der­ge­fun­den, die ich schon ver­ges­sen hatte.

  4. Avatar von Steffen Voß

    @Usul: gscan2pdf habe ich noch nicht getes­tet – aller­dings setzt das nicht auf Tes­seract auf. Und soweit ich das her­aus­fin­den konn­te, die Tes­seract mit Abstand die bes­te freie OCR-Engine.
    Ich habe mir aber OCR-Fee­der ange­schaut. Das nutzt Tes­seract – aller­dings habe ich nicht her­aus­ge­fun­den, wo man die Scan-Spra­che ein­stel­len kann – oder ob das über­haupt geht. Die Ergeb­nis­se waren ent­spre­chend kata­stro­phal schlecht. Damit konn­te man nicht ein­mal weiterarbeiten.

  5. Avatar von Usul
    Usul

    @Steffen
    Das stimmt so nicht, tat­säch­lich unter­stützt gscan2pdf sogar ver­schie­de­ne OCR-Engi­nen, die man je nach Wunsch instal­lie­ren kann. Die gna­den­los schlecht les­ba­re Anlei­tung unter
    http://gscan2pdf.sourceforge.net/
    lis­tet die­se unter­stütz­ten Engi­nes auf: gocr, tes­seract, ocro­pus, cun­ei­form. Die kann man, wenn instal­liert, ganz ein­fach in der Pro­gramm­kon­fi­gu­ra­ti­on auswählen.

  6. Avatar von Frans

    @Steffen, Usul: Do you mind if I wri­te in Eng­lish to be a bit quicker? I’m a tad out of prac­ti­ce spea­king Ger­man, and wri­ting Ger­man is a step up from that.
    Any­way, back when I wro­te that shell script, I also found that Tes­seract was sup­po­sed to be the best, and I think that gscan2pdf migh­t’­ve only sup­port­ed gocr then? In any case, I was actual­ly loo­king for plain-text out­put, not for mer­ging the text back in with the PDF or any­thing like that. But it looks like gscan2pdf sup­ports seve­ral dif­fe­rent OCR engi­nes, and on Debi­an Whee­zy it defaults to Tes­seract. I just did a quick test and it seems to be doing the trick. Nevert­hel­ess, I’d argue that using a shell script can often be both more satis­fy­ing and ulti­m­ate­ly fas­ter, but of cour­se ever­yo­ne will have to deci­de when that’s the case for themselves.

  7. […] OCR mit Tesser­act und Imagemagick […]

  8. Avatar von Steffen Voß

    @Frans: Eng­lisch is okay. 😉 I took a look at gscan2pdf and it look quite pro­mi­sing for manu­al scan­ning. But I real­ly like the com­man­do line opti­on and the pos­si­ble auto­ma­tis­a­ti­on. I don’t want to take care of ever­y­thing manually.
    Have you seen unpa­per (http://unpaper.berlios.de/). It seems to be a sen­si­ble step in bet­ween imagemagick’s pdf to tif and tes­seract. At least if you have to scan a lot of books. Nor­mal docu­ments should­n’t have this kind of qua­li­ty problem…

  9. Avatar von Jonathan

    Cool! Tes­seract kann­te ich noch nicht und wuss­te auch nicht, dass Goog­le das benutzt. Ich glau­be die füt­tern re-captcha mit den Wor­ten, die es nicht ganz ver­steht und lässt die Nut­zer es dann in den captchas für sie crowd-lösen.
    In DK gibt es wenig Papier, da hier so ein de-mail Klon exis­tiert, der qua­si Pflicht ist, schön mit JavaApp­let als Log­in (würg)

  10. Avatar von Tobias
    Tobias

    Das klingt ja inter­es­sant. Wel­chen Vor­la­gen­scan­ner benutzt Du, und kannst Du den empfehlen?

  11. Avatar von Steffen

    @Tobias: Ich befürch­te, dass Dir das nicht hilft: Das ist so ein Pro­fi­ge­rät bei der Arbeit. Unter Linux sol­len aber die Kom­bi-Gerä­te von HP ganz gut funk­tio­nie­ren. Ich habe mich da aber noch nicht dran gewagt.

  12. Avatar von Jurek
    Jurek

    Ich woll­te das The­ma „Papier­lo­ses Büro“ noch­ein­mal auf­grei­fen, da sich ja auf die­sem Gebiet immer mal wie­der was tut. Ich bin gera­de dabei, unser kom­plet­tes Büro von Win­dows 7 auf Linux umzu­stel­len. Wir habe auch schon für die meis­ten unse­rer Arbeits­schrit­te einen pas­sen­den Ersatz unter Linux gefunden.
    Ein­zig eine intui­ti­ver PDF-Work­flow fehlt uns noch. Wir nut­zen meh­re­re Doku­men­ten­scan­ner vom Typ Sam­sung ScanS­nap S1500. Die funk­tio­nie­ren zum Glück unter Linux.
    Work­flow unter Win­dows ist bis­her so:
    1. Ein­ge­hen­de Post wird in den Ein­zugs­schacht eines der Scans­nap S1500 ein­ge­legt. Ein Druck auf die Scan­tas­te star­tet den Scanprozess.
    2. Die Win­dows-Soft­ware des Scan­ners erstellt nun aus den Datei­en ein PDF-Doku­ment und führt mit dem mit­ge­lie­fer­ten ABBY eine OCR-Tex­terken­nung durch. Danach wird das PDF-Doku­ment auto­ma­tisch umbe­nannt (YYYY_MM_DD_HH_MM.pdf) und auf einem unse­rer Netz­lauf­wer­ke abgelegt.
    Die Qua­li­tät des Scans an sich und die Tex­terken­nung durch ABBY ist per­fekt. Ich ver­su­che nun gera­de unter Linux, exakt die­sen Work­flow eben­so hin­zu­be­kom­men. Der User soll ein­fach nur die Scan­tas­te betä­ti­gen und der Rest wird auto­ma­tisch erledigt.
    Der­zeit expe­ri­men­tie­re ich mit gscan2pdf in Ver­bin­dung mit Tes­seract und unpa­per. Von einer Auto­ma­ti­sie­rung bin ich aber lei­der noch recht weit ent­fernt. Bin also für jeden Tip dank­bar, wie ich die ein­zel­nen Arbeits­schrit­te auto­ma­ti­sie­ren kann (bin Linux-Neuling).
    P.S. Habe auf einem unse­rer PCs nicht Ubun­tu, son­dern Linux Mint 16 (Petra) lau­fen und gscan2pdf über die Soft­ware­ver­wal­tung instal­liert. Hier wur­de jedoch ledig­lich gscan2pdf in der Ver­si­on 1.0.4 instal­liert. Die­se ist jedoch nicht mit Tes­seract komap­ti­bel. Abhil­fe schaff­te erst die Befehlskette:
    sudo add-apt-repo­si­to­ry ppa:jeffreyratcliffe/ppa
    sudo apt-get update
    sudo apt-get install gscan2pdf
    Dies instal­lier­te gscan2pdf in Ver­si­on 1.2.4. Danach muss­te noch unpa­per nach­in­stal­liert wer­den. Nun klapt die OCR-Erken­nung mit gscan2pdf und Tes­seract auch unter Mint.

  13. […] vor eini­ger Zeit habe ich mich damit beschäf­tigt, wie man unter Ubun­tu alte Doku­mente digi­ta­li­sie­ren kann. Das ist wei­ter­hin ein gutes […]

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert