blank page detection nach dem scannen

Wed Apr 15 09:47:45 CEST 2009

Am Mittwoch 08 April 2009 16:41:09 schrieb Florian Lohoff:
> Was setzt ihr das als OCR ein? Ich habe mal ein bischen mit den 
freien
> gespielt und da taugt nix - Wer einmal OmniPage probiert hat der 
ist
> von allem anderen enttaeuscht ...

Hi. Ich fand Abbyy Finereader noch besser - zumal man da fremde 
Schriften (z.B. Fraktur) "lernen" konnte. Es gibt ein Linux-Interface für 
Abbyy - wie es genau funktioniert, kann ich nicht sagen.

Zur Dateigröße als Schwelle für leere Seiten:
Die Kompressionsverfahren reduzieren Redundanzen ("Leere") und 
sind damit ein gutes Maß für Entropie ("Gehalt"). Dummerweise ist 
dabei zufälliges Rauschen besonders "gehaltvoll" - lässt sich kaum 
komprimieren. Beim Scannen von Altpapier und anderen fleckigen 
Quellen könnte ein vorgeschalteter Grafikfilter (entflecken) helfen.

Umgekehrt könnte die Schwelle auch unterschritten werden, wenn 
ein blütenweißes Papier mit nur wenigen aber dafür scharf 
umrissenenen Buchstaben versehen ist. 

Sind die Daten erstmal auf dem Rechner, und hat dieser etwas 
Rechenleistung, so kann man sicher eine gute Filterkette erfinden. 
Andernfalls sollte man das schnellste Kompressionsverfahren (gz?) 
wählen.

Bei USB 1.x wäre eine Alternative, einen Vorschauscan mit <100 dpi 
zu starten und daraufhin zu entscheiden, ob ein Vollscan mit 200-300 
dpi folgt. 

Wer übrigens ganze Bücher scannen möchte (da macht sich ein 
automatischer Einzug schlecht), möchte vielleicht lieber ein Stativ + 
Digitalkamera + Ringleuchte einsetzen. So sind >50 Seiten/Min. 
möglich.

Gruß
Ralf