Scan / OCR -> PDF

Mon Jul 22 16:05:05 CEST 2024

Hola,

On Thu, Jul 18, 2024 at 09:40:31PM +0200, Jan-Benedict Glaw wrote:
> Hi!
> 
> Ich guck' gerade, welche Möglichkeiten es gibt, Text zu scannen, OCR
> darüber zu machen und das dann (Bild+Text) möglichst verlustfrei in
> PDFs zu packen. Hier geht's mir aktuell nicht um ein paar Seiten,
> sondern eher um etliche Regalmeter an Akten...

>   Was mir bisher über den Weg gekommen ist, sind letztlich
> Abwandlungen von tesseract mit PDF-Output oder hOCR und irgendwelche
> Kombinations-Tools. Allen gemein scheint aber zu sein, daß sie das
> ursprüngliche Scan-Bild in JPEG (lossy) bringen wollen. Ich würde aber
> gerne lossless arbeiten, auch wenn das dann vermutlich 2 MB  pro Seite
> im PDF bedeutet. (Ich starte hier mit RGB TIFFs mit 8bit bei 300dpi,
> macht ~ 26 MB. Lossless mit img2pdf kommt man bei groben 2 MB pro
> Seite heraus.) Allerdings fehlt mir eine Möglichkeit, das OCR-Ergebnis
> da einzubauen. Alles, was ich gefunden hab', bastelt nochmal an den
> Bildern herum und `pdfimages -list` verrät dann, daß es JPEG geworden
> ist. Suboptimal...

Also ich hab mit tesseract eher schlechte Erfahrung - Da kommt
hauptsächlich Schrott raus. Es gab aber irgendeine "Gui" wo lauter
zeugs mit drin war - der hat so PDFs zusammengebaut.

>   Irendwelche Tips, über welchen Weg ich von Bildern zu einem PDF
> kommt, das mit Scan-Text und verlustfrei eingebetteten Bildern
> auftrumpfen kann?

Mit Open Source kenne ich nichts.

Wenn du das scannst ist "unpaper" noch spannend. Scans sind ja nie
gerade und haben auch gerne mal den knick des Buches in der mitte. Sowas
bekommt unpaper alles weg. Also für die gesamtpipeline.

Ich habe mal irgendwo mit "Abbyy Server" rumgespielt - das war ein
Linux Binary - musste man nach Seiten Lizensieren wenn ich mich
richtig entsinne.

Wenn du da was rein steckst dann kommt das als PDF und/oder als
.xlsx/.docx/.pptx raus. Und da sind Bilder als Bilder drin, Tabellen
als Tabellen, Fußnoten als Fußnoten. Das ist schon sehr beeindruckend.

Und der kann halt auch "mixed mode PDF" - D.h. du SIEHST das Bild
des Scans, aber der Text liegt da unsichtbar drüber. Das ist bei
komplexem Layout ziemlich cool weil das am ende ein durchsuchbares
PDF ist, aber die Ansicht ist die des scans.

Wobei die normale variante alles was er sauber layouten kann wirklich
als Text drin zu haben und dann eben nur partielle Grafiken meist
viel besser aussieht.

Alternativ könnte man mal mit textract rumspielen oder anderen API
basierten dingern.

https://aws.amazon.com/textract/

Dann scannt man den ramsch - und schiebt das dann mal in so einem
"Monthly Plan" da durch 

Aber gibt ja Zig solche Dienste:

https://ocr.space/ocrapi
https://www.convertapi.com/pdf-to-ocr
https://developer.adobe.com/document-services/docs/overview/pdf-services-api/howtos/ocr-pdf/

Flo
-- 
Florian Lohoff                                                     f at zz.de
  Any sufficiently advanced technology is indistinguishable from magic.
-------------- next part --------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 833 bytes
Desc: not available
URL: <http://lug-owl.de/pipermail/linux/attachments/20240722/74c2ad7d/attachment.sig>