-
-
Save jojomi/d83f23868ed7e75a588123939804baa3 to your computer and use it in GitHub Desktop.
| #!/bin/sh | |
| set -ex | |
| NAME=schufaselbstauskunft | |
| convert *.jpg "${NAME}.pdf" | |
| alias docker_ocrmypdf='docker run --rm -i jbarlow83/ocrmypdf' | |
| docker_ocrmypdf - - <"${NAME}.pdf" >"${NAME}-scan.pdf" |
Danke für den Hinweis dass unter dem Link zur elektronischen Datenkopie im Schufa Auskunftsbrief keine zusätzlichen Informationen gibt!
Hatte ich mich immer gefragt, denn ich hatte die letzten Jahre den Brief jedes Mal zu lange im Eingang herumliegen lassen und bei Öffnung war der Link dann jeweils schon abgelaufen ... m(
Kommentare zum Script:
Imagemagick (convert) ist leider nicht so gut geeignet um jpgs nach PDF umzuwandeln, weil es den Input re-komprimiert, obwohl das nicht notwendig ist.
Das Kommando img2pdf schafft die Umwandlung ohne weitere Verluste: https://pypi.org/project/img2pdf/
Eine Alternative zu Docker ist eine Linux Distribution wie Fedora, wo ocrmypdf im Hauptrepository verfuegbar ist,
also die Dependency-Hölle dann darüber eingefangen wird.
FWIW, falls man einen Einzugsscanner hat, kann man auch mein Tool https://pypi.org/project/adf2pdf/ verwenden um den Schufa Brief zu digitalisieren. Das fügt auch ein OCR Text Layer dem finalen PDF hinzu. Wenn man es schon installiert hat kommt man ggf. sogar schneller an's Ziel als mit dem Schufa-Download herumzukämpfen ... ;-)
Danke für die nützlichen Hinweise zum Skript, @gsauthof, so soll es sein. Jeder darf und soll ich dann herauspicken, was in seinem Usecase am besten passt bzw. verfügbar ist, Vielfalt ist hilfreich :).
Benötigt
dockerfürocrmypdf, um der Dependency-Hölle ein Stück weit zu entkommen.convertstammt aus demimagemagick-Paket.Schönen Gruß an die Schufa, die diesen Prozess bewusst möglichst menschenfeindlich gebaut hat. Unter dem Link, der im Brief der Schufa so wirkt, als gäbe es dort weitere oder detailliertere Informationen, findet man nach Eingabe mehrerer Identifikations-Werte (u.a. ein 16-stelliger "Download-Code", der auch gemischte Groß-/Kleinschreibung und Sonderzeichen wie ; _ und + enthalten kann und damit weit "sicherer" als Windows-Seriennummern ist) einen Download einer ZIP-Datei (!) mit exakt dem Brief, den man gerade in Händen hält. Das ursprüngliche PDF ist mit Aufwand in JPGs (!) der Einzelseiten (!) zerhackt, damit es möglichst nervig und schlecht verwendbar ist. Danke, Schufa!
Dieses kleine Skript macht aus den Bildern im gleichen Ordnern (1.jpg, 2.jpg usw.) wieder ein PDF, das auch durchsuchbar ist.