Zwar ist das PDF-Format heutzutage im Geschäftsleben allgegenwärtig, doch können in PDF-Dokumenten enthaltene Daten nicht ohne Weiteres für das Mappen auf andere Systeme genutzt werden. PDF-Dokumente sind normalerweise für vom Menschen lesbare Inhalte mit verschiedenen Formatierungen und Layouts gedacht, wodurch die Extraktion strukturierter Daten zu einer Herausforderung wird. PDF-Dokumente können Text, Bilder, Tabellen und andere Elemente enthalten, wobei die Daten nicht in einem maschinenlesbaren Format strukturiert sind. Normale Tools zur Extraktion von PDF-Daten liefern oft, vor allem bei PDF-Dokumenten mit komplexem Layout, keine genauen Ergebnisse. Zu diesem Zweck haben wir den MapForce PDF Extractor entwickelt.
Das MapForce Datenmapping-Tool enthält den MapForce PDF Extractor, ein einfach zu verwendendes Tool zum schnellen Definieren der Struktur eines PDF-Dokuments und zum Extrahieren von Daten daraus. Die PDF-Daten können anschließend in MapForce für die weitere Transformation und Konvertierung in andere Formate wie XML, JSON, Datenbanken, Excel, usw. aufgerufen werden. Der Extractor ist das ultimative Tool, mit dem die PDF-Datenintegration und ETL-Projekte möglich werden.
Mit Hilfe visueller Tools können Sie im MapForce PDF Extractor die Struktur eines PDF-Dokuments definieren und Daten effizient extrahieren. PDF Extractor ist ein extrem flexibles Tool, mit dem Sie anstelle des gesamten Dokuments nur Teile eines Texts extrahieren, Datenbereiche aus verschiedenen Seiten derselben PDF-Datei miteinander kombinieren, Tabellen in Zeilen aufteilen und Daten in Gruppen zusammenfassen können.
Dank des intuitiven, übersichtlichen Designs von MapForce PDF Extractor lässt sich die Struktur von PDF-Dokumenten schnell und einfach mit der Maus mittels Point-and-Click und Drag-and-Drop visuell definieren. Endlich stehen die riesigen Datenmengen aus PDF-Dokumenten nun für das Mapping auf andere Formate zur Verfügung.
Wenn Sie ein PDF-Beispieldokument laden, um eine Vorlage zu erstellen und Datenextraktionsregeln zu definieren, wird das PDF-Dokument neben einem Schemafenster angezeigt. Im Schemafenster sehen Sie eine Baumstruktur, in der dargestellt ist, wie die Daten extrahiert werden. Der MapForce PDF Extractor enthält einen leistungsstarken Prozessor, der automatisch gemeinsame Dokumentelemente identifiziert und versucht deren Struktur zu erkennen.
So erkennt das Tool etwa im Dokument vorhandene Tabellen, die Sie dann auf Wunsch automatisch extrahieren können. Ein Teilen-Operator im Schema-Fenster hilft Ihnen dabei, die Tabelle korrekt in separate Zeilen zu unterteilen. Dabei sucht der Prozessor nach Linien oder Rändern, um eine Teilung zu erstellen oder teilt Text z.B. auf Basis eines festgelegten Abstands. Die Vorschau davon können Sie im PDF-Ansichtsfenster überprüfen. Gleichzeitig werden auch Spalten und Überschriftstext erfasst. Wenn Sie in der Schema-Struktur auf ein Objekt klicken, werden die entsprechende Struktur und die in der PDF-Dokumentansicht angewendeten Datenerfassungsregeln hervorgehoben.
In großen PDF-Dokumenten mit zahlreichen Tabellen kann es hilfreich sein, nach Text im Dokument (wie z.B. einer Überschrift) zu suchen und Regeln für die Verarbeitung der Daten relativ zu diesem Text zu definieren. So könnten Sie z.B. beim Erstellen einer Vorlage zur Extraktion von Daten aus Jahresfinanzberichten nach dem Text "Expenditures" (Ausgaben) suchen und die auf diesen Text folgende Zahlentabelle entsprechend verarbeiten. Detaillierte Suchoptionen wie die Berücksichtigung der Groß-/Kleinschreibung, Formatfilterung (Schriftart, Schriftbreite, usw.) und Suche nach ganzen Wörtern oder Wortteilen erlauben eine präzise Ausrichtung.
Nach Extraktion der Tabellendaten können Sie die Extraktionsregeln ganz nach Wunsch anpassen, um einige Fragmente zu exkludieren, Ankerzuweisungen anzupassen, Tabellenränder zu definieren, usw. Dies geschieht mit Hilfe visueller Tools und hilfreicher Pull-Down-Menüs. Die Ergebnisse der Datenextraktion können Sie in der Ausgabestruktur anzeigen und auf ihre Korrektheit überprüfen.
Weitere Dokumentelemente können manuell erfasst und zu Ihrer Vorlage hinzugefügt werden. Um manuell Regeln für die Datenextraktion zu definieren, wählen Sie einfach einen zu extrahierenden Bereich im PDF-Dokument aus, indem Sie ein Rechteck aufziehen. Wählen Sie anschließend den Befehl "Texterfassung" aus dem Kontextmenü aus. PDF Extractor fügt den erfassten Text als Element zur Dokumentstruktur hinzu und sie können dieses mit der Maus an die gewünschte Stelle in der Struktur ziehen.
Auf diese Weise erstellt der MapForce PDF Extractor, während Sie am Dokument arbeiten, im Ausgabefenster anhand der Beispieldaten aus dem PDF-Arbeitsdokument ein XML-Dokument, in dem die Struktur Ihrer PDF-Vorlage dargestellt ist. Dies hilft Ihnen dabei, die Ergebnisse der Extraktion, die anschließend als Vorlage in MapForce verwendet werden können, zu verstehen und zu perfektionieren.
Nachdem Sie Ihre Vorlage im MapForce PDF Extractor gespeichert haben, können Sie diese als Datenquellkomponente in ein MapForce Datenmapping-Projekt einfügen. PDF-Daten müssen häufig in die folgenden Formate konvertiert werden:
Natürlich können in MapForce auch mehrere Datenquell- und -zielformate miteinander kombiniert, verkettete Datenmapping-Projekte und mehr verwendet werden. Eine umfangreiche Bibliothek an Datenverarbeitungsfunktionen sowie ein visueller Function Builder erleichtern das Filtern und Verarbeiten von Daten, bevor diese in die Zielkomponente(n) geschrieben werden.
Mit dem PDF Extractor stehen in MapForce nun wichtige Geschäftsdaten, die zuvor nur in PDF-Dokumenten verfügbar waren, endlich für das Datenmapping, die Datenintegration und ETL-Prozesse zur Verfügung.
“Altova MapForce bietet exzellente Mapping-Funktionen, die wir nahtlos in unsere Kernprodukte einbetten können. Dank der Erweiterbarkeit des Produkts kann es alle unsere Anforderungen abdecken.”