Extraktion von PDF-Daten für das Datenmapping

MapForce PDF Extractor

  • Einfache Definition von Regeln für die Extraktion von Daten aus PDFs
  • Erstellung von Vorlagen für das Mappen von PDF auf andere Formate
  • Visuelle Point-and-Click-Oberfläche
  • Vorschläge für die automatische Extraktion
  • Extraktion von Fragmenten, Kombination von Daten
  • Ausgereifte Tools für die Extraktion von Daten aus Tabellen
  • Einfaches Anordnen von Daten in Gruppen
  • Schemastruktur für die Vorschau auf Vorlagenresultate
  • Mappen von PDF auf Excel, Datenbanken, JSON, CSV & mehr
  • Automatisierung von PDF-Mappings mit MapForce Server

PDF-Datenextraktion

Zwar ist das PDF-Format heutzutage im Geschäftsleben allgegenwärtig, doch können in PDF-Dokumenten enthaltene Daten nicht ohne Weiteres für das Mappen auf andere Systeme genutzt werden. PDF-Dokumente sind normalerweise für vom Menschen lesbare Inhalte mit verschiedenen Formatierungen und Layouts gedacht, wodurch die Extraktion strukturierter Daten zu einer Herausforderung wird. PDF-Dokumente können Text, Bilder, Tabellen und andere Elemente enthalten, wobei die Daten nicht in einem maschinenlesbaren Format strukturiert sind. Normale Tools zur Extraktion von PDF-Daten liefern oft, vor allem bei PDF-Dokumenten mit komplexem Layout, keine genauen Ergebnisse. Zu diesem Zweck haben wir den MapForce PDF Extractor entwickelt.

Das MapForce Datenmapping-Tool enthält den MapForce PDF Extractor, ein einfach zu verwendendes Tool zum schnellen Definieren der Struktur eines PDF-Dokuments und zum Extrahieren von Daten daraus. Die PDF-Daten können anschließend in MapForce für die weitere Transformation und Konvertierung in andere Formate wie XML, JSON, Datenbanken, Excel, usw. aufgerufen werden. Der Extractor ist das ultimative Tool, mit dem die PDF-Datenintegration und ETL-Projekte möglich werden.

Mit Hilfe visueller Tools können Sie im MapForce PDF Extractor die Struktur eines PDF-Dokuments definieren und Daten effizient extrahieren. PDF Extractor ist ein extrem flexibles Tool, mit dem Sie anstelle des gesamten Dokuments nur Teile eines Texts extrahieren, Datenbereiche aus verschiedenen Seiten derselben PDF-Datei miteinander kombinieren, Tabellen in Zeilen aufteilen und Daten in Gruppen zusammenfassen können.

Aufruf von PDF-Daten für die Konvertierung mit dem MapForce PDF Extractor

Dank des intuitiven, übersichtlichen Designs von MapForce PDF Extractor lässt sich die Struktur von PDF-Dokumenten schnell und einfach mit der Maus mittels Point-and-Click und Drag-and-Drop visuell definieren. Endlich stehen die riesigen Datenmengen aus PDF-Dokumenten nun für das Mapping auf andere Formate zur Verfügung.

Erfahren Sie, wie Sie den MapForce PDF Extractor verwenden

Wie werden PDF-Daten extrahiert?

Wenn Sie ein PDF-Beispieldokument laden, um eine Vorlage zu erstellen und Datenextraktionsregeln zu definieren, wird das PDF-Dokument neben einem Schemafenster angezeigt. Im Schemafenster sehen Sie eine Baumstruktur, in der dargestellt ist, wie die Daten extrahiert werden. Der MapForce PDF Extractor enthält einen leistungsstarken Prozessor, der automatisch gemeinsame Dokumentelemente identifiziert und versucht deren Struktur zu erkennen.

So erkennt das Tool etwa im Dokument vorhandene Tabellen, die Sie dann auf Wunsch automatisch extrahieren können. Ein Teilen-Operator im Schema-Fenster hilft Ihnen dabei, die Tabelle korrekt in separate Zeilen zu unterteilen. Dabei sucht der Prozessor nach Linien oder Rändern, um eine Teilung zu erstellen oder teilt Text z.B. auf Basis eines festgelegten Abstands. Die Vorschau davon können Sie im PDF-Ansichtsfenster überprüfen. Gleichzeitig werden auch Spalten und Überschriftstext erfasst. Wenn Sie in der Schema-Struktur auf ein Objekt klicken, werden die entsprechende Struktur und die in der PDF-Dokumentansicht angewendeten Datenerfassungsregeln hervorgehoben.

Extraktion von PDF-Daten mit MapForce

In großen PDF-Dokumenten mit zahlreichen Tabellen kann es hilfreich sein, nach Text im Dokument (wie z.B. einer Überschrift) zu suchen und Regeln für die Verarbeitung der Daten relativ zu diesem Text zu definieren. So könnten Sie z.B. beim Erstellen einer Vorlage zur Extraktion von Daten aus Jahresfinanzberichten nach dem Text "Expenditures" (Ausgaben) suchen und die auf diesen Text folgende Zahlentabelle entsprechend verarbeiten. Detaillierte Suchoptionen wie die Berücksichtigung der Groß-/Kleinschreibung, Formatfilterung (Schriftart, Schriftbreite, usw.) und Suche nach ganzen Wörtern oder Wortteilen erlauben eine präzise Ausrichtung.

Textsuche im MapForce PDF Extractor

Nach Extraktion der Tabellendaten können Sie die Extraktionsregeln ganz nach Wunsch anpassen, um einige Fragmente zu exkludieren, Ankerzuweisungen anzupassen, Tabellenränder zu definieren, usw. Dies geschieht mit Hilfe visueller Tools und hilfreicher Pull-Down-Menüs. Die Ergebnisse der Datenextraktion können Sie in der Ausgabestruktur anzeigen und auf ihre Korrektheit überprüfen.

Weitere Dokumentelemente können manuell erfasst und zu Ihrer Vorlage hinzugefügt werden. Um manuell Regeln für die Datenextraktion zu definieren, wählen Sie einfach einen zu extrahierenden Bereich im PDF-Dokument aus, indem Sie ein Rechteck aufziehen. Wählen Sie anschließend den Befehl "Texterfassung" aus dem Kontextmenü aus. PDF Extractor fügt den erfassten Text als Element zur Dokumentstruktur hinzu und sie können dieses mit der Maus an die gewünschte Stelle in der Struktur ziehen.

Extraktion von PDF-Daten für das Datenmapping

Auf diese Weise erstellt der MapForce PDF Extractor, während Sie am Dokument arbeiten, im Ausgabefenster anhand der Beispieldaten aus dem PDF-Arbeitsdokument ein XML-Dokument, in dem die Struktur Ihrer PDF-Vorlage dargestellt ist. Dies hilft Ihnen dabei, die Ergebnisse der Extraktion, die anschließend als Vorlage in MapForce verwendet werden können, zu verstehen und zu perfektionieren.

Vorschau auf die extrahierten Daten

Konvertierung von PDF-Daten

Nachdem Sie Ihre Vorlage im MapForce PDF Extractor gespeichert haben, können Sie diese als Datenquellkomponente in ein MapForce Datenmapping-Projekt einfügen. PDF-Daten müssen häufig in die folgenden Formate konvertiert werden:

  • PDF in Excel
  • PDF in Datenbanken (SQL oder NoSQL)
  • PDF in JSON
  • PDF in CSV
  • PDF in XML

Natürlich können in MapForce auch mehrere Datenquell- und -zielformate miteinander kombiniert, verkettete Datenmapping-Projekte und mehr verwendet werden. Eine umfangreiche Bibliothek an Datenverarbeitungsfunktionen sowie ein visueller Function Builder erleichtern das Filtern und Verarbeiten von Daten, bevor diese in die Zielkomponente(n) geschrieben werden.

Konvertierung von PDF in JSON mit MapForce

Mit dem PDF Extractor stehen in MapForce nun wichtige Geschäftsdaten, die zuvor nur in PDF-Dokumenten verfügbar waren, endlich für das Datenmapping, die Datenintegration und ETL-Prozesse zur Verfügung.

“Altova MapForce bietet exzellente Mapping-Funktionen, die wir nahtlos in unsere Kernprodukte einbetten können. Dank der Erweiterbarkeit des Produkts kann es alle unsere Anforderungen abdecken.”

Scott Redford VisionWare