Scan / OCR -> PDF

Dipl.-Ing. Rolf Kröger rk at zepman.de
Sat Jul 20 09:49:32 CEST 2024


Hi Benedict,

vielleicht ist 
https://www.naps2.com/
einen Blick wert.

Macht mit GUI unterschiedliche Schritte vom Bild-Scan bis PDF mit OCR Text auch als Batch und auf verschiedenen Plattformen notfalls auch mal portabel.

Grüße
Rolf

Am 19. Juli 2024 21:33:51 MESZ schrieb Johannes Goecke <jg-ml at web.de>:
>Hi,
>
>> Hi!
>>
>> Ich guck' gerade, welche Möglichkeiten es gibt, Text zu scannen, OCR
>> darüber zu machen und das dann (Bild+Text) möglichst verlustfrei in
>> PDFs zu packen. Hier geht's mir aktuell nicht um ein paar Seiten,
>> sondern eher um etliche Regalmeter an Akten...
>>
>>   Was mir bisher über den Weg gekommen ist, sind letztlich
>> Abwandlungen von tesseract mit PDF-Output oder hOCR und irgendwelche
>> Kombinations-Tools. Allen gemein scheint aber zu sein, daß sie das
>> ursprüngliche Scan-Bild in JPEG (lossy) bringen wollen. Ich würde aber
>> gerne lossless arbeiten, auch wenn das dann vermutlich 2 MB  pro Seite
>> im PDF bedeutet. (Ich starte hier mit RGB TIFFs mit 8bit bei 300dpi,
>> macht ~ 26 MB. Lossless mit img2pdf kommt man bei groben 2 MB pro
>> Seite heraus.) Allerdings fehlt mir eine Möglichkeit, das OCR-Ergebnis
>> da einzubauen. Alles, was ich gefunden hab', bastelt nochmal an den
>> Bildern herum und `pdfimages -list` verrät dann, daß es JPEG geworden
>> ist. Suboptimal...
>>
>>   Irendwelche Tips, über welchen Weg ich von Bildern zu einem PDF
>> kommt, das mit Scan-Text und verlustfrei eingebetteten Bildern
>> auftrumpfen kann?
>>
>
>hast du Dir schon mal "ocrmypdf" angeschaut?
>Das gibts als Paket in debian, ich habe das mal bei ein paar PDFs die
>mein MuFu (der macht selst kein OCR) auf dem Netz ablegt gemacht, aber
>nicht "großflächig" im Einsatz.
>
>Wie der Name andeutet ist es ein Postprocessing-Tool für PDF-Dateien
>und legt da ein OCR-Layer zu.
>Wenn ich die optimize Option richtig verstehe geht 0 oder 1 in die
>gewünschte Richtung.
>
>-----
>Optimization options:
>  Control how the PDF is optimized after OCR
>
>  -O {0,1,2,3}, --optimize {0,1,2,3}
>                        Control how PDF is optimized after processing:0 - do
>                        not optimize; 1 - do safe, lossless optimizations
>                        (default); 2 - do lossy JPEG and JPEG2000
>                        optimizations; 3 - do more aggressive lossy JPEG and
>                        JPEG2000 optimizations. To enable lossy JBIG2, see
>                        --jbig2-lossy.
>
>----
>
>> MfG, JBG
>>
>> --
>
>Gruß
>Johannes
>
>
>
>> > --
>> > Linux mailing list Linux at lug-owl.de
>> > subscribe/unsubscribe: https://lug-owl.de/mailman/listinfo/linux
>> > Hinweise zur Nutzung: http://www.lug-owl.de/Mailingliste/hints.epo
>>
>-- 
>Linux mailing list Linux at lug-owl.de
>subscribe/unsubscribe: https://lug-owl.de/mailman/listinfo/linux
>Hinweise zur Nutzung: http://www.lug-owl.de/Mailingliste/hints.epo


More information about the Linux mailing list