Projekt

pd3f

Textextraktion für deutsche PDFs mit Machine Learning

August 2020 · #ml #forschung

Über PDF hinausgehen mit pd3f. pd3f ist eine Open-Source-Pipeline zur PDF-Textextraktion, die selbst gehostet, lokal und Docker-basiert ist. pd3f rekonstruiert den ursprünglichen kontinuierlichen Text mit Hilfe von Machine Learning.

Die Arbeit wurde vom deutschen Bundesministerium für Bildung und Forschung im Rahmen des Prototype Fund gefördert.

Webseite:: pd3f.com
Förderung:: Prototype Fund
Quellcode:: GitHub