Scan / OCR -> PDF

Fri Jul 19 08:25:42 CEST 2024

Moin Benedict,

On Thu, Jul 18, 2024 at 09:40:31PM +0200, Jan-Benedict Glaw wrote:
> Hi!
> 
> Ich guck' gerade, welche Möglichkeiten es gibt, Text zu scannen, OCR
> darüber zu machen und das dann (Bild+Text) möglichst verlustfrei in
> PDFs zu packen. Hier geht's mir aktuell nicht um ein paar Seiten,
> sondern eher um etliche Regalmeter an Akten...
> 
>   Was mir bisher über den Weg gekommen ist, sind letztlich
> Abwandlungen von tesseract mit PDF-Output oder hOCR und irgendwelche
> Kombinations-Tools. Allen gemein scheint aber zu sein, daß sie das
> ursprüngliche Scan-Bild in JPEG (lossy) bringen wollen. Ich würde aber
> gerne lossless arbeiten, auch wenn das dann vermutlich 2 MB  pro Seite
> im PDF bedeutet. (Ich starte hier mit RGB TIFFs mit 8bit bei 300dpi,
> macht ~ 26 MB. Lossless mit img2pdf kommt man bei groben 2 MB pro
> Seite heraus.) Allerdings fehlt mir eine Möglichkeit, das OCR-Ergebnis
> da einzubauen. Alles, was ich gefunden hab', bastelt nochmal an den
> Bildern herum und `pdfimages -list` verrät dann, daß es JPEG geworden
> ist. Suboptimal...
> 
>   Irendwelche Tips, über welchen Weg ich von Bildern zu einem PDF
> kommt, das mit Scan-Text und verlustfrei eingebetteten Bildern
> auftrumpfen kann?
> 

kuck dir mal

https://diybookscanner.org/archivist/

an, da ist auch etwas Software dabei, ist lange nicht angepackt
worden, war aber brauchbar.

Das Scannen mit zwei Kameras geht ganz flott. Ich hatte so ein Teil
schon mit zwei Canon Kameras am laufen.....

lg

Michael