blank page detection nach dem scannen
Ralf Gesellensetter
ralf.gesellensetter at web.de
Wed Apr 15 09:47:45 CEST 2009
Am Mittwoch 08 April 2009 16:41:09 schrieb Florian Lohoff:
> Was setzt ihr das als OCR ein? Ich habe mal ein bischen mit den
freien
> gespielt und da taugt nix - Wer einmal OmniPage probiert hat der
ist
> von allem anderen enttaeuscht ...
Hi. Ich fand Abbyy Finereader noch besser - zumal man da fremde
Schriften (z.B. Fraktur) "lernen" konnte. Es gibt ein Linux-Interface für
Abbyy - wie es genau funktioniert, kann ich nicht sagen.
Zur Dateigröße als Schwelle für leere Seiten:
Die Kompressionsverfahren reduzieren Redundanzen ("Leere") und
sind damit ein gutes Maß für Entropie ("Gehalt"). Dummerweise ist
dabei zufälliges Rauschen besonders "gehaltvoll" - lässt sich kaum
komprimieren. Beim Scannen von Altpapier und anderen fleckigen
Quellen könnte ein vorgeschalteter Grafikfilter (entflecken) helfen.
Umgekehrt könnte die Schwelle auch unterschritten werden, wenn
ein blütenweißes Papier mit nur wenigen aber dafür scharf
umrissenenen Buchstaben versehen ist.
Sind die Daten erstmal auf dem Rechner, und hat dieser etwas
Rechenleistung, so kann man sicher eine gute Filterkette erfinden.
Andernfalls sollte man das schnellste Kompressionsverfahren (gz?)
wählen.
Bei USB 1.x wäre eine Alternative, einen Vorschauscan mit <100 dpi
zu starten und daraufhin zu entscheiden, ob ein Vollscan mit 200-300
dpi folgt.
Wer übrigens ganze Bücher scannen möchte (da macht sich ein
automatischer Einzug schlecht), möchte vielleicht lieber ein Stativ +
Digitalkamera + Ringleuchte einsetzen. So sind >50 Seiten/Min.
möglich.
Gruß
Ralf
More information about the Linux
mailing list