Über PDF hinausgehen mit pd3f. pd3f ist eine Open-Source-Pipeline zur PDF-Textextraktion, die selbst gehostet, lokal und Docker-basiert ist. pd3f rekonstruiert den ursprünglichen kontinuierlichen Text mit Hilfe von Machine Learning.

Die Arbeit wurde vom deutschen Bundesministerium für Bildung und Forschung im Rahmen des Prototype Fund gefördert.