Scan / OCR -> PDF
Jan-Benedict Glaw
jbglaw at lug-owl.de
Mon Jul 22 20:30:00 CEST 2024
Hi Flo,
On Mon, 2024-07-22 16:05:05 +0200, Florian Lohoff <f at zz.de> wrote:
> On Thu, Jul 18, 2024 at 09:40:31PM +0200, Jan-Benedict Glaw wrote:
> > Ich guck' gerade, welche Möglichkeiten es gibt, Text zu scannen, OCR
> > darüber zu machen und das dann (Bild+Text) möglichst verlustfrei in
> > PDFs zu packen. Hier geht's mir aktuell nicht um ein paar Seiten,
> > sondern eher um etliche Regalmeter an Akten...
>
> Also ich hab mit tesseract eher schlechte Erfahrung - Da kommt
> hauptsächlich Schrott raus. Es gab aber irgendeine "Gui" wo lauter
> zeugs mit drin war - der hat so PDFs zusammengebaut.
Das kann ich bisher nicht bestätigen. Das `apt-get install`ierte
tesseract (zusammen mit den deutschen Schrift-/Sprachdaten) liefert
echt ganz passable Ergebnisse. Klar, das sind mal Fehler drin, aber
ganz grundsätzlich tut das hinreichend gut.
> > Irendwelche Tips, über welchen Weg ich von Bildern zu einem PDF
> > kommt, das mit Scan-Text und verlustfrei eingebetteten Bildern
> > auftrumpfen kann?
>
> Mit Open Source kenne ich nichts.
Schade. Ich bin jetzt dazu übergegangen, erst zu scannen und die TIFFs
dann einmal mit `tiffcp -c zip` intern zu komprimieren.
Separat davon laß' ich dann ein PDF-Script laufen, das die TIFFs
durch Tesseract schiebt und in einem Rutsch (pro Seite) ein PDF
(Bild+Text), TXT und hOCR erzeugt. Die PDF-Seiten montier' ich dann
mit `pdftk` zu einem PDF und lösch' die Einzelseiten-PDFs.
> Wenn du das scannst ist "unpaper" noch spannend. Scans sind ja nie
> gerade und haben auch gerne mal den knick des Buches in der mitte. Sowas
> bekommt unpaper alles weg. Also für die gesamtpipeline.
Ich lasse also erstmal die Original-Scans komprimiert liegen. Sind
zwar 2 MB pro Seite, aber who cares. ^^ `unpaper` guck' ich mir mal
noch an, aber da ich wirklich "nur" Ordner voller Rechnungen,
Verträge, etc. habe, sind's typischerweise nur zwei waagerechte Knicke
vom Versandt in DL-Umschlägen. Aber vielleicht bekommt man die auf dem
Wege auch noch weg.
> Ich habe mal irgendwo mit "Abbyy Server" rumgespielt - das war ein
> Linux Binary - musste man nach Seiten Lizensieren wenn ich mich
> richtig entsinne.
>
> Wenn du da was rein steckst dann kommt das als PDF und/oder als
> .xlsx/.docx/.pptx raus. Und da sind Bilder als Bilder drin, Tabellen
> als Tabellen, Fußnoten als Fußnoten. Das ist schon sehr beeindruckend.
Mein Anwendungsfall ist letztlich, die Briefe zu finden, wo z.B.
dieselbe Kundennummer vorkommt. Oder derselbe Firmenname. Ist also ein
wenig data mining, um einen Überblick über Vertragspartner, Rente,
Versicherungen etc. zu bekommen.
MfG, JBG
--
-------------- next part --------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 195 bytes
Desc: not available
URL: <http://lug-owl.de/pipermail/linux/attachments/20240722/5347951c/attachment.sig>
More information about the Linux
mailing list