VERWENDUNG VON IRONPDF FOR PYTHON

Wie man in Python eine Tabelle aus einer PDF-Datei extrahiert

Chaknith Bin

22. Juli 2023

Aktualisiert 21. September 2024

Teilen Sie:

In diesem Artikel wird gezeigt, wie IronPDF, eine leistungsstarke Bibliothek zur PDF-Verarbeitung, verwendet wird, um mühelos Daten aus komplexen Tabellen in beliebigen PDF-Dateien zu extrahieren.

IronPDF

Python bietet Programmierern im Vergleich zu anderen Sprachen deutlich mehr Flexibilität und ermöglicht es Entwicklern, grafische Benutzeroberflächen einfach und effizient zu gestalten. Daher ist die Einbindung der IronPDF-Bibliothek in Python ein unkomplizierter Prozess. Um schnell und sicher eine voll funktionsfähige grafische Benutzeroberfläche zu erstellen, kann eine Reihe von vorinstallierten Tools wie PyQt, wxWidgets, Kivy und verschiedene andere Pakete und Bibliotheken verwendet werden.

IronPDF vereinfacht Python-Webdesign und -Entwicklung. Das liegt vor allem an der Fülle der verfügbaren Python-Frameworks für die Webentwicklung, wie Django, Flask und Pyramid. Zu den bemerkenswerten Websites und Online-Diensten, die diese Frameworks verwendet haben, gehören Reddit, Mozilla und Spotify.

Wie man in Python eine Tabelle aus einer PDF-Datei extrahiert

Laden Sie ein Python-Modul zum Extrahieren von Tabellen aus PDF herunter
Verwenden Sie die FromFile-Methode, um die PDF-Datei zu importieren
Extrahieren Sie Text aus den Tabellen mit der ExtractAllText-Methode
Iterieren Sie durch den extrahierten Text, um Zeilen aufzuteilen
Ausgabe des extrahierten Textes auf der Konsole oder in einer Textdatei

Merkmale von IronPDF

Nachfolgend sind einige Funktionen von IronPDF aufgeführt:

PDF-Dateien können aus einer Vielzahl von Quellen wie HTML, HTML5, ASP, PHP und mehr erstellt werden. Zusätzlich können Bilddateien in PDF umgewandelt werden, zusammen mit HTML-Dateien.
IronPDF ermöglicht die Erstellung von interaktiven PDF-Dokumenten. Es bietet Funktionen wie das Aufteilen und Kombinieren von PDF-Dateien, Extrahieren von Text und Bildern aus PDF-Dateien, Rasterisieren von PDF-Seiten in Bilder, Konvertieren von PDF in HTML, Drucken von PDF-Dateien, Ausfüllen und Absenden von interaktiven Formularen und Aufteilen und Zusammenführen von PDF-Dateien.
Mit IronPDF ist es möglich, ein Dokument aus einer URL zu erzeugen. Es unterstützt auch Benutzeragenten, die sich über HTML-Anmeldeformulare, Proxys, Cookies, HTTP-Header, spezielle Netzwerk-Anmeldedaten, Formularvariablen und Benutzeragenten anmelden.
Das IronPDF-Programm ermöglicht die Prüfung und Annotation von PDF-Dateien.
IronPDF ermöglicht die Extraktion von Bildern aus Dokumenten.
IronPDF bietet Benutzern die Möglichkeit, Kopf- und Fußzeilen, Text, Fotos, Lesezeichen, Wasserzeichen und mehr zu Dokumenten hinzuzufügen.
Mit IronPDF können Sie Seiten in einem neuen oder bestehenden Dokument aufteilen und zusammenführen.
Die Umwandlung von Dokumenten in PDF-Objekte ist auch ohne Acrobat-Viewer möglich.
IronPDF ermöglicht die Erstellung eines PDF-Dokuments aus einer CSS-Datei.
Mit IronPDF können Dokumente mit CSS-Dateien erstellt werden, die Medientyp-Definitionen enthalten.

Python-Umgebung konfigurieren

Einrichtung Python

Stellen Sie sicher, dass Python auf Ihrem Computer installiert ist. Um die neueste Version von Python für Ihr Betriebssystem herunterzuladen und einzurichten, besuchen Sie die offizielle Python-Website. Sobald Python installiert ist, trennen Sie die Anforderungen für Ihr Projekt ab, indem Sie eine virtuelle Umgebung erstellen. Mit Hilfe des venv-Moduls können Sie virtuelle Umgebungen erstellen und verwalten, um Ihrem Konvertierungsprojekt einen ordentlichen und organisierten Arbeitsbereich zu bieten.

Neues Projekt in PyCharm

Für dieses Tutorial wird PyCharm, eine IDE für die Python-Entwicklung, empfohlen.

Nachdem Sie die PyCharm IDE gestartet haben, wählen Sie "Neues Projekt" aus dem Menü, wie in der Abbildung unten gezeigt.

So extrahieren Sie eine Tabelle aus PDF in Python, Abbildung 1: PyCharm-IDE

PyCharm IDE

Wenn Sie "Neues Projekt" wählen, erscheint ein neues Fenster, in dem Sie den Speicherort des Projekts und die Python-Umgebung festlegen können (siehe Abbildung unten).

So extrahieren Sie eine Tabelle aus PDF in Python, Abbildung 2: Ein neues Projekt in PyCharm erstellen

Erstellen Sie ein neues Projekt in PyCharm

Nachdem Sie den Standort und die Umgebung für das Projekt ausgewählt haben, klicken Sie auf die Schaltfläche Create, um es zu starten. Python-Dateien können in dem neu gestarteten Fenster geöffnet werden, damit Sie Ihren Code eingeben können. In diesem Handbuch wird Python 3.9 verwendet.

Wie man eine Tabelle aus einem PDF in Python extrahiert, Abbildung 3: die Haupt-Python-Datei

die Haupt-Python-Datei

IronPDF-Bibliotheksanforderung

IronPDF for Python stützt sich auf .NET 6.0 als Kerntechnologie. Um IronPDF for Python verwenden zu können, muss auf Ihrem Computer daher die .NET 6.0-Laufzeitumgebung installiert sein. Linux- und Mac-Benutzer müssen möglicherweise .NET installieren, bevor sie dieses Python-Modul verwenden können. Laden Sie die erforderliche Laufzeitumgebung von Microsoft herunter.

IronPDF-Bibliothek einrichten

Das ironpdf-Paket muss installiert sein, um Dateien mit der Erweiterung ".pdf" zu erstellen, zu bearbeiten und zu öffnen. Um das Paket in PyCharm zu installieren, öffnen Sie ein Terminalfenster und geben Sie den folgenden Befehl ein:

 pip installieren ironpdf

Der untenstehende Screenshot zeigt den Installationsprozess des ironpdf-Pakets.

Wie man eine Tabelle aus PDF in Python extrahiert, Abbildung 4: Installieren Sie das IronPDF-Paket

Installieren Sie das IronPDF-Paket

Extrahieren von Tabellendaten aus einer PDF-Datei

Mit der IronPDF for Python-Bibliothek können wir mühelos Daten aus PDF-Dateien extrahieren. IronPDF erleichtert die Analyse von Textdaten und die Extraktion von Tabellen aus PDF-Dateien. Nachfolgend finden Sie einen Beispielcode, der zeigt, wie Daten aus PDF-Tabellen extrahiert werden können, wobei das bereitgestellte Bild als Referenz dient.

Wie man eine Tabelle aus einer PDF-Datei in Python extrahiert, Abbildung 5: Die Beispieldaten aus einer PDF-Datei

Die Beispieldaten aus einer PDF-Datei

from ironpdf import *

pdf = PdfDocument.FromFile("sampleData.pdf")
all_text = pdf.ExtractAllText()
for row in all_text.split("\n"):
    print(row)

py

PYTHON

Der mitgelieferte Code demonstriert, wie IronPDF mit nur wenigen Zeilen Python-Code Tabellen aus PDF-Dateien extrahieren kann. Zunächst importieren wir die IronPDF-Bibliothek, um auf ihre Funktionalität zuzugreifen und Zugang zu allen IronPDF-Funktionen zu erhalten. Als nächstes können mit Hilfe der PdfDocument-Klasse bestehende PDF-Dateien verarbeitet werden, wodurch verschiedene Operationen auf ihnen durchgeführt werden können.

Beim Verwenden der FromFile-Funktion steht das Argument zum Laden der Eingabedatei im PDF-Format zur Verfügung. Anschließend wird die Funktion ExtractAllText verwendet, um alle Tabellendaten von allen Seiten innerhalb der PDF-Dateien zu extrahieren. Dann wird die Split-Funktion verwendet, um die extrahierten Tabellendaten in mehrere Zeilen zu unterteilen und auf dem Konsolenbildschirm anzuzeigen.

So extrahieren Sie Tabellen aus PDF in Python, Abbildung 6: Die extrahierten Daten

Die extrahierten Daten

In der obigen Ausgabe werden die Daten Zeile für Zeile angezeigt, um zu zeigen, wie Tabellendaten extrahiert werden können. Erfahren Sie mehr über IronPDF, indem Sie die Produktdokumentation durchsehen.

Schlussfolgerung

Die IronPDF-Bibliothek bietet robuste Sicherheitsmaßnahmen, um potenzielle Risiken zu minimieren und die Datensicherheit zu gewährleisten. Sie ist mit allen gängigen Browsern kompatibel und nicht auf einen bestimmten Browser beschränkt. Mit IronPDF können Programmierer mit nur wenigen Zeilen Code effizient PDF-Dateien erstellen und lesen. Um den unterschiedlichen Anforderungen von Entwicklern gerecht zu werden, bietet die IronPDF-Bibliothek verschiedene Lizenzierungsoptionen, darunter eine kostenlose Entwicklerlizenz und zusätzliche Entwicklungslizenzen, die erworben werden können.

Das Lite-Paket, zum Preis von $749, enthält eine unbefristete Lizenz, eine 30-tägige Geld-zurück-Garantie, ein Jahr Softwarewartung und Upgrade-Möglichkeiten. Nach dem Erstkauf fallen keine weiteren Kosten an, und diese Lizenzen können in Produktions-, Staging- und Entwicklungsumgebungen verwendet werden. IronPDF bietet auch kostenlose Lizenzen mit einigen Zeit- und Weiterverbreitungsbeschränkungen an. Benutzer können das Produkt in einer realen Umgebung mit einer kostenlosen Testversion testen, die kein Wasserzeichen enthält. Für detaillierte Informationen zu den Kosten und der Lizenzierung der Testversion von IronPDF klicken Sie bitte auf die folgende Lizenzierungsseite.

Chaknith Bin

Jetzt mit dem Ingenieurteam chatten

Software-Ingenieur

Chaknith arbeitet an IronXL und IronBarcode. Er hat tiefgehende Expertise in C# und .NET und hilft, die Software zu verbessern und Kunden zu unterstützen. Seine Erkenntnisse aus Benutzerinteraktionen tragen zu besseren Produkten, Dokumentation und einem insgesamt besseren Erlebnis bei.

< PREVIOUS
Wie man eine PDF-Datei in Python schreibt

NÄCHSTES >
Wie man in Python PDF von einer URL herunterlädt