Altova MapForce 2024 Enterprise Edition

Navigation: Strukturkomponenten > PDF > MapForce PDF Extractor > Vorlagenobjekte

Texterfassung

Mit Hilfe von Texterfassungsobjekten können Sie Text aus einer Seite eines PDF-Dokuments extrahieren. Wenn Sie ein Texterfassungsobjekt erstellen, wird es in der Modellstruktur des Schema-Fensters und im Ausgabefenster angezeigt. Sie können ein solches Objekt optional in einen XML-Tag verpacken, indem Sie dem erfassten Text einen Namen geben, wodurch Sie die Elemente im Ausgabefenster in einer beschreibenden Struktur anordnen können (siehe Codefragement unten). Der Standardname eines Texterfassungselements ist Capture. Informationen dazu, wie Sie Objekte zur Modellstruktur hinzufügen, finden Sie unter Einfügen eines Objekts.

<Header>GARDENING SERVICES INVOICE</Header>

<BillTo>Oswald Grim

Darkwood St. 17

Boston, MA 02128

+1-617-8767675</BillTo>

<...>

</Invoice>

Wenn Sie in der Modellstruktur des Schema-Fensters auf eine Texterfassung klicken, wird der erfasste Text im PDF-Ansichtsfenster sofort hervorgehoben (Abbildung unten), sodass Sie den Text auf der Seite leichter finden. Der markierte Bereich hat eine Textbeschriftung, die dem Namen des in der Modellstruktur und im Ausgabefenster angezeigten Texterfassungselements entspricht.

Eigenschaften im Eigenschaftsfenster

Für das Objekt "Texterfassung" können die folgenden Eigenschaften konfiguriert werden:

Der Abschnitt Algorithmus enthält verschiedene Eigenschaften, mit Hilfe derer Sie grundlegende PDF-Verarbeitungsprozeduren behandeln können. Der Algorithmus ist insofern visuell, als er nicht von der internen Struktur eines PDF-Dokuments, sondern von der Reihenfolge von visuellen Elementen des Dokuments abhängt. Es stehen die folgenden Eigenschaften zur Verfügung:

•Mit der Eigenschaft Grundlinientoleranz wird ein Abstand für Textgrundlinien definiert, wodurch kleinere Fehlausrichtungen des Texts korrigiert werden können.

•Mit der Eigenschaft Absatzabstand wird definiert, welcher Abstand zwischen einer Grundlinie und der nächsten als Absatz betrachtet werden soll. Mit Hilfe dieser Eigenschaft können Sie einstellen, ob zwei aufeinander folgende Zeilen als Teil desselben Absatzes behandelt werden sollen oder nicht. Wenn zwei aufeinander folgende Zeilen zum selben Absatz gehören, wird kein Zeilenumbruch eingefügt und es wird ein Leerzeichen eingefügt, um die Zeilen miteinander zu verbinden, es sei denn die Option Leerzeichen einfügen ist deaktiviert (siehe Separate Wörter unten). Wenn Sie für diese Eigenschaft eine höhere Zahl definieren, können Sie dadurch den gesamten Text als einen einzigen Absatz behandeln. Das Ergebnis enthält dann für jeden Absatz einen Zeilenumbruch, während Nicht-Absatz-Zeilenumbrüche in der PDF-Datei standardmäßig in ein einziges Leerzeichen konvertiert werden.

•Die Eigenschaft Grundlinienwinkel gibt einen Referenzwinkel (in Grad) für die Grundlinie an, anhand dessen senkrechter oder schräg geneigter Text extrahiert werden kann. Standardmäßig ist diese Option auf 0° gesetzt.

•Mit der Eigenschaft Winkelabweichung wird festgelegt, wie weit die Zeichengrundlinie auf der Seite vom Grundlinienwinkel abweichen kann. Der Standardwert ist 180°, d.h. es wird jedes Zeichen berücksichtigt. Wenn Sie schräg geneigten Text extrahieren möchten, können Sie nicht geneigten Text in der Nähe mit Hilfe dieser Eigenschaft verwerfen.

•Mit der Eigenschaft Separate Wörter wird definiert, ob Leerzeichen beibehalten oder entfernt werden sollen. Bei Auswahl der Option Leerzeichen einfügen werden alle vorhandenen Leerzeichen beibehalten. Bei Auswahl von Zusammenkleben werden alle Leerzeichen entfernt. Die Option Zusammenkleben ist vor allem bei URLs mit Zeilenumbrüchen nützlich.