OCR-Ergebnis mit in ein PDF packen (was: blank page detection nach dem scannen)

Wed Apr 15 17:53:20 CEST 2009

On Wed, Apr 15, 2009 at 01:43:19PM +0200, Jan-Benedict Glaw wrote:
> 
> Beim Stichwort "OCR"...
> 
...
> Was ich nun aber suche: Ist es möglich, den OCRten Text irgendwie in
> die PDFs zu packen? Und optimalerweise so, daß der via der
> Such-Funktionen in den PDF-Betrachtern dann auch den einzelnen Seiten
> (also gescannten Bildern dieser) zugeordnet werden kann?

Ich habe es letztens gelesen ich meine im Linux-Magazin, finde
es aber nicht auf den Webseiten (vielleicht finde ich die Zeitung
nochmal - war nicht meine).

Aber schau dir mal die "archivista-box" ( www.archivista.ch ) an.
Die tun sowas unter Linux und man kanns dowloaden und anschauen.

> 
> Ich *meine*, schonmal gescannte PDFs gesehen zu haben, bei denen man
> vom gescannten Text quasi cut'n'paste machen konnte. Das würd'
> (nur so könnte ich mir das erklären) nur gehen, wenn der entsprechende
> OCR-Text dem jeweiligen Bild hinterlegt ist.  

Dazu muss das OCR-Programm Layouterkennung bieten, ist aber wohl
auch möglich.

> 
> MfG, JBG
> 

Gruß

Johannes