Projekt

pd3f

Textextraktion für deutsche PDFs mit Machine Learning

· #ml #forschung

Über PDF hinausgehen mit pd3f. pd3f ist eine Open-Source-Pipeline zur PDF-Textextraktion, die selbst gehostet, lokal und Docker-basiert ist. pd3f rekonstruiert den ursprünglichen kontinuierlichen Text mit Hilfe von Machine Learning.

Die Arbeit wurde vom deutschen Bundesministerium für Bildung und Forschung im Rahmen des Prototype Fund gefördert.

Webseite:
pd3f.com
Förderung:
Prototype Fund
Quellcode:
GitHub