blank page detection nach dem scannen

Thu Apr 16 10:18:02 CEST 2009

On Thu, 2009-04-16 09:48:31 +0200, Florian Lohoff <flo at rfc822.org> wrote:
> On Thu, Apr 16, 2009 at 09:18:09AM +0200, Jan-Benedict Glaw wrote:
> > Ich hab' vor längerer Zeit schonmal damit herumprobiert. Ganz zufällig
> > war das Ergebnis nicht. Aber so gut, wie einige Kommerzielle sein
> > wollen, sind die Lösungen noch nicht...
> 
> Tesseract ist die einzige OpenSource OCR Software die diesen Namen 
> verdient - Da sind zumindest einzelne Woerter und unter guten
> bedingungen ganze Saetze zu erkennen.
> 
> Von OmniPage ist das ganze aber lichtjahre entfernt ...

Diese ganzen Namen :)  Tesseract ist wohl mal umbenannt worden.
Zwischendurch hab' ich dann was über `hocr' gelesen, um dann bei einem
OCR-System für hebräischen Text zu landen. (Später hab' ich dann
herausgefunden, daß das ein HTML-Dialekt ist, um OCR-Ergebnisse
Flächen auf einem Bild zuzuordnen...)

Bild+Text in einem PDF bekomm' ich mittlerweile an sich hin. Nur ist
der Text leider nicht an der passenden Stelle. Wenn ich den dann
markiere, hat der eine gefühlte Größe von 60..90pt, wobei normaler
Fließtext (~ 12pt) gescannt und OCRt worden ist.

MfG, JBG

-- 
      Jan-Benedict Glaw      jbglaw at lug-owl.de              +49-172-7608481
 Signature of:                    Don't believe in miracles: Rely on them!
 the second  :
-------------- next part --------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 197 bytes
Desc: Digital signature
URL: <http://lug-owl.de/pipermail/linux/attachments/20090416/dcbd6a50/attachment.sig>