Altova MapForce 2025 Enterprise Edition

Die Methode Objekte suchen erweist sich unter Umständen als hilfreich, wenn es keine Umrandungen (Kanten) gibt. Mit der Objektsuche wird die Suchregion gescannt und immer, wenn eine Suchrichtungskoordinate in der zweiten Richtung mindestens ein Pixel aufweist, welches sich stark genug von der Hintergrundfarbe abhebt, wird dieses Pixel als Teil eines Objekts behandelt. Je nachdem, welche Kante oder Kanten des Objekts Sie ausgewählt haben, schneidet der Spitter die Region auf Basis dieser Linien in Fragmente. Diese Linien können bei Bedarf angepasst werden. Wenn die Methode Objekte suchen korrekt konfiguriert ist, können damit auch große Lücken zwischen Textzeilen erkannt werden.

 

Eigenschaften

In der nachstehenden Tabelle finden Sie einen Überblick über die Eigenschaften der Objekt suchen-Methode.

 

Eigenschaft

Beschreibung

Hintergrundfarbe

Die Eigenschaft Hintergrundfarbe ist die Hintergrundfarbe eines PDF-Dokuments und kann in hexadezimalen Farbcodes angegeben werden. Der Standardwert ist #FFF, d.h. Weiß.

 

Toleranz

Mit der Eigenschaft Toleranz wird der Prozentsatz der Farbabweichung vom Parameter Hintergrundfarbe definiert. Dies ist der Farbbereich, innerhalb dessen die Hintergrundfarbe noch als Hintergrundfarbe erkannt wird. Alle Werte oberhalb dieses Abweichungsprozentsatzes gelten nicht mehr als Hintergrund. So bedeutet etwa der Wert 100, dass alles als Hintergrund behandelt wird.

 

Mindestgröße

Mit der Eigenschaft Mindestgröße wird die Mindestgröße eines Objekts definiert; Objekte unterhalb dieses Werts werden ignoriert.

 

Lücken füllen

Mit der Eigenschaft Lücken füllen wird festgelegt, wie groß eine Lücke in der Suchrichtung sein muss. Wenn zwei Nicht-Hintergrundzeilen einen geringeren Abstand haben, gelten sie als ein einziges Objekt.

 

Zu suchende Kante

Mit der Eigenschaft Zu suchende Kante wird festgelegt, an welcher Kante ein Objekt geteilt wird. Dies kann der Anfang sein (Beginn), das Ende (Ende) oder der Anfang und das Ende des Objekts (Beginn und Ende).

 

Versetzen

Mit der Eigenschaft Versetzen wird ein Versatz definiert, der zur erkannten Position eines Objekts hinzugefügt wird. Der Versatzwert ist normalerweise negativ, wenn die Eigenschaft Zu suchende Kante auf Beginn gesetzt ist. Andernfalls ist er positiv.

 

 

Ein Beispiel für die Verwendung der Methode Objekte suchen finden Sie im nachstehenden Beispiel.

 

Beispiel

In diesem Beispiel wird gezeigt, wie Sie die Methode Objekte suchen konfigurieren. Die Aufgabenstellung in diesem Beispiel ist, Tabellendaten aus der unten gezeigten Beispielrechnung zu extrahieren.

pdfex_bookinvoice_zoom60

Die Tabelle in der Abbildung unten enthält keine regulären Rasterlinien, wodurch die korrekten Teilungspositionen nicht so leicht ermittelt werden können. Außerdem überlappen einander die Zellen in der zweiten (No) und der dritten Spalte (Description). Wir haben die Methode Objekte suchen verwendet, um die Tabelle korrekt in Zeilen aufzuteilen. Wir haben die Methode folgendermaßen konfiguriert:

 

Die Eigenschaften Hintergrundfarbe und Toleranz haben Standardwerte (#FFF bzw. 10%).

Die Eigenschaft Mindestgröße wurde auf 4pt gesetzt, wodurch Objekte, die kleiner als dieser Wert sind, entfernt werden.

Da es keine zu füllenden Lücken gibt, hat die Eigenschaft Lücken füllen den Standardwert 0pt.

Die Eigenschaft Zu suchende Kante wurde auf Beginn gesetzt, d.h. die Objekte werden an ihrem jeweiligen Beginn geteilt.

Durch Versuch und Irrtum haben wir den idealen Wert für die Eigenschaft Versetzen ermittelt, nämlich -3pt. Aufgrund dieses Werts wurden die Teilungspositionen etwas nach oben versetzt, sodass keine Daten abgeschnitten werden.

Es wurden keine Nachbearbeitungsoptionen definieren.

 

Suchregion

Da keine einheitlichen Linien vorhanden sind, entlang derer die Tabelle in Zeilen aufgeteilt werden könnte, ermitteln wir geeignete Teilungspositionen, die anschließend auf die gesamte Region angewendet werden, mit Hilfe der Suchregion. In der Abbildung unten sehen Sie, dass die Region alle Zeilen der Tabelle enthält (hellgelber Bereich). Die Region stellt einen Bereich dar, der aufgeteilt werden soll. Allerdings beinhaltet die Suchregion (orangegelb unten) nur die erste Spalte der Tabelle, in der Objekte leichter als in anderen Teilen der Tabelle erkannt werden können.

PDFEX_BookInvoiceSearch

Wenn keine Suchregion verwendet wird, werden die unten gezeigten Teilungspositionen ermittelt, was in der Ausgabe zu falschen Ergebnissen führen würde.

PDFEX_BookInvoiceNoSearch

 

© 2018-2024 Altova GmbH