Scan / OCR -> PDF

Thu Jul 18 21:40:31 CEST 2024

Hi!

Ich guck' gerade, welche Möglichkeiten es gibt, Text zu scannen, OCR
darüber zu machen und das dann (Bild+Text) möglichst verlustfrei in
PDFs zu packen. Hier geht's mir aktuell nicht um ein paar Seiten,
sondern eher um etliche Regalmeter an Akten...

  Was mir bisher über den Weg gekommen ist, sind letztlich
Abwandlungen von tesseract mit PDF-Output oder hOCR und irgendwelche
Kombinations-Tools. Allen gemein scheint aber zu sein, daß sie das
ursprüngliche Scan-Bild in JPEG (lossy) bringen wollen. Ich würde aber
gerne lossless arbeiten, auch wenn das dann vermutlich 2 MB  pro Seite
im PDF bedeutet. (Ich starte hier mit RGB TIFFs mit 8bit bei 300dpi,
macht ~ 26 MB. Lossless mit img2pdf kommt man bei groben 2 MB pro
Seite heraus.) Allerdings fehlt mir eine Möglichkeit, das OCR-Ergebnis
da einzubauen. Alles, was ich gefunden hab', bastelt nochmal an den
Bildern herum und `pdfimages -list` verrät dann, daß es JPEG geworden
ist. Suboptimal...

  Irendwelche Tips, über welchen Weg ich von Bildern zu einem PDF
kommt, das mit Scan-Text und verlustfrei eingebetteten Bildern
auftrumpfen kann?

MfG, JBG

-- 
-------------- next part --------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 195 bytes
Desc: not available
URL: <http://lug-owl.de/pipermail/linux/attachments/20240718/d9b38233/attachment.sig>