Die meisten Büros, aber zunehmend auch Privatpersonen, haben große Mengen eingescannter PDF-Dokumente auf ihren Festplatten liegen. Digitale Dokumente haben zwar diverse Vorteile gegenüber klassischen Papierdokumenten, aber Scans können den größten Vorteil digitaler Dokumente leider nicht ausspielen: Sie sind standardmäßig nicht durchsuchbar.
Suchen Sie also einen Begriff innerhalb eines solchen Dokuments müssen Sie wie bisher mühsam von oben nach unten durchlaufen und alles lesen. Das geht besser. Dafür muss das Dokument aber durchsuchbar gemacht werden. Und dazu wird zumeist teure OCR-Software benötigt.
Da ich selbst vor einiger Zeit vor dem Problem stand, meine recht umfangreiche eingescannte Dokumentensammlung durchsuchbar zu machen und leider nichts adäquates im Internet gefunden habe, was sich vor die einfache Verarbeitung vieler Dokumente eignete, dachte ich mir, ich starte ein kleines Projekt. Dieses hatte zum Ziel, eine Open-Source-Alternative der teuren Software, die sich im Internet findet, zu entwickeln und der Allgemeinheit zur Verfügung zu stellen.
Und jetzt ist es soweit:
Das Projekt findet sich unter Github. Eine Installationsanleitung (in englischer Sprache) findet sich ebenfalls dort. Die deutsche Installationsanleitung sowie eine englische Bedienungsanleitung werde ich in den nächsten Tagen in diesem Blog veröffentlichen. Die Software wird unter GPL3 lizenziert, ist also für jeden frei verfügbar und kann unter der Voraussetzung, dass der Sourcecode wieder veröffentlicht wird, geändert werden.
Hier der Link zu dem Github-Projekt:
https://github.com/philipp-eger-dev/Spectrum
Und hier ein Link zum aktuellen Setup auf meinem OneDrive-Konto. Dieses schließt die Installation der benötigten Tesseract-Engine leider noch nicht ein, das kommt in einer späteren Version:
Ich wünsche viel Spaß damit!
