Scan / OCR -> PDF

Johannes Goecke jg-ml at web.de
Fri Jul 19 21:33:51 CEST 2024


Hi,

> Hi!
>
> Ich guck' gerade, welche Möglichkeiten es gibt, Text zu scannen, OCR
> darüber zu machen und das dann (Bild+Text) möglichst verlustfrei in
> PDFs zu packen. Hier geht's mir aktuell nicht um ein paar Seiten,
> sondern eher um etliche Regalmeter an Akten...
>
>   Was mir bisher über den Weg gekommen ist, sind letztlich
> Abwandlungen von tesseract mit PDF-Output oder hOCR und irgendwelche
> Kombinations-Tools. Allen gemein scheint aber zu sein, daß sie das
> ursprüngliche Scan-Bild in JPEG (lossy) bringen wollen. Ich würde aber
> gerne lossless arbeiten, auch wenn das dann vermutlich 2 MB  pro Seite
> im PDF bedeutet. (Ich starte hier mit RGB TIFFs mit 8bit bei 300dpi,
> macht ~ 26 MB. Lossless mit img2pdf kommt man bei groben 2 MB pro
> Seite heraus.) Allerdings fehlt mir eine Möglichkeit, das OCR-Ergebnis
> da einzubauen. Alles, was ich gefunden hab', bastelt nochmal an den
> Bildern herum und `pdfimages -list` verrät dann, daß es JPEG geworden
> ist. Suboptimal...
>
>   Irendwelche Tips, über welchen Weg ich von Bildern zu einem PDF
> kommt, das mit Scan-Text und verlustfrei eingebetteten Bildern
> auftrumpfen kann?
>

hast du Dir schon mal "ocrmypdf" angeschaut?
Das gibts als Paket in debian, ich habe das mal bei ein paar PDFs die
mein MuFu (der macht selst kein OCR) auf dem Netz ablegt gemacht, aber
nicht "großflächig" im Einsatz.

Wie der Name andeutet ist es ein Postprocessing-Tool für PDF-Dateien
und legt da ein OCR-Layer zu.
Wenn ich die optimize Option richtig verstehe geht 0 oder 1 in die
gewünschte Richtung.

-----
Optimization options:
  Control how the PDF is optimized after OCR

  -O {0,1,2,3}, --optimize {0,1,2,3}
                        Control how PDF is optimized after processing:0 - do
                        not optimize; 1 - do safe, lossless optimizations
                        (default); 2 - do lossy JPEG and JPEG2000
                        optimizations; 3 - do more aggressive lossy JPEG and
                        JPEG2000 optimizations. To enable lossy JBIG2, see
                        --jbig2-lossy.

----

> MfG, JBG
>
> --

Gruß
Johannes



> > --
> > Linux mailing list Linux at lug-owl.de
> > subscribe/unsubscribe: https://lug-owl.de/mailman/listinfo/linux
> > Hinweise zur Nutzung: http://www.lug-owl.de/Mailingliste/hints.epo
>


More information about the Linux mailing list