Dieses Repository enthält verschiedene Ansätze zur Extraktion von Tabellen aus gescannten PDF-Dateien in CSV-Format. Die Skripte sind in verschiedene Ordner unterteilt, je nachdem, welche Technologien und Methoden verwendet wurden.
Das Ziel dieses Projekts ist es, Tabellen aus gescannten Dokumenten in ein maschinenlesbares Format (CSV) zu extrahieren. Dazu wurden unterschiedliche OCR-Technologien und Ansätze zur Datenverarbeitung getestet.
- tesseract/: Enthält Skripte, die Tesseract OCR für die Texterkennung verwenden.
- docrt/: Enthält Skripte, die DocRT für die Texterkennung und Tabellenerkennung verwenden.
- paddleocr/: Enthält Skripte, die PaddleOCR für die Texterkennung verwenden.
Dieses Skript verwendet Tesseract OCR, um Text aus gescannten PDFs zu extrahieren und anschließend mit Hilfe eines Sprachmodells Tabellen zu rekonstruieren.
In diesem Skript wird DocRT verwendet, um Text und Tabellen aus gescannten PDFs zu extrahieren und in Textdateien zu speichern.
Dieses Skript nutzt PaddleOCR, um Tabellen aus gescannten PDFs zu extrahieren und diese als strukturierte Daten in CSV-Dateien zu speichern.
Ein weiteres Skript, das PaddleOCR verwendet, um Tabellen direkt aus PDFs in CSV-Dateien zu exportieren. Es verbessert den Extraktionsprozess durch fortschrittliche Clustering-Algorithmen.
Ein Testszenario für die Verwendung von PaddleOCR zur Extraktion von Text und Tabellen aus PDFs.
Jedes Verzeichnis enthält eigene Skripte für die jeweilige Technologie. Um ein Skript auszuführen, navigieren Sie in das entsprechende Verzeichnis und führen Sie es mit Python aus:
cd paddleocr
python ocr_table.pyPython 3.x Tesseract OCR PaddleOCR DocRT
Installation Um die benötigten Bibliotheken zu installieren, verwenden Sie:
pip install -r requirements.txt