OCR-Ergebnis mit in ein PDF packen (was: blank page detection nach dem scannen)
Johannes Goecke
goecke at upb.de
Wed Apr 15 17:53:20 CEST 2009
On Wed, Apr 15, 2009 at 01:43:19PM +0200, Jan-Benedict Glaw wrote:
>
> Beim Stichwort "OCR"...
>
...
> Was ich nun aber suche: Ist es möglich, den OCRten Text irgendwie in
> die PDFs zu packen? Und optimalerweise so, daß der via der
> Such-Funktionen in den PDF-Betrachtern dann auch den einzelnen Seiten
> (also gescannten Bildern dieser) zugeordnet werden kann?
Ich habe es letztens gelesen ich meine im Linux-Magazin, finde
es aber nicht auf den Webseiten (vielleicht finde ich die Zeitung
nochmal - war nicht meine).
Aber schau dir mal die "archivista-box" ( www.archivista.ch ) an.
Die tun sowas unter Linux und man kanns dowloaden und anschauen.
>
> Ich *meine*, schonmal gescannte PDFs gesehen zu haben, bei denen man
> vom gescannten Text quasi cut'n'paste machen konnte. Das würd'
> (nur so könnte ich mir das erklären) nur gehen, wenn der entsprechende
> OCR-Text dem jeweiligen Bild hinterlegt ist.
Dazu muss das OCR-Programm Layouterkennung bieten, ist aber wohl
auch möglich.
>
> MfG, JBG
>
Gruß
Johannes
More information about the Linux
mailing list