Altova MapForce 2025 Enterprise Edition

Mit der Methode Linien oder Kanten suchen wird bei der in Fragmente aufzuteilenden Region nach Linien oder Kanten gesucht.

 

Eigenschaften

In der nachstehenden Tabelle finden Sie eine Überblick über die Eigenschaften der Kanten suchen-Methode.

 

Eigenschaft

Beschreibung

Lücken füllen

Mit der Eigenschaft Lücken füllen können Sie den Abstand zwischen benachbarten Pixel mit hohem Kontrast definieren, sodass diese Pixel zusammengeführt werden. Die Eigenschaft Lücken füllen erweist sich als besonders hilfreich, wenn eine Tabellenzeile z.B. gepunktete Linien hat. Durch Zusammenführung der gepunkteten Linien zu einer durchgezogenen Linie kann der PDF Extractor diese Linie als Kante identifizieren.

 

Mindestkantenlänge

Die Eigenschaft Mindestkantenlänge ist eine erweiterte Einstellung, mit der definiert wird, wie viel Prozent der Suchregionbreite ein Objekt betragen muss, damit es berücksichtigt wird. Diese Eigenschaft ist oft hilfreich, wenn Rasterlinien nicht einheitlich sind (wenn z.B. eine Rasterlinie kürzer als die Zeile ist). Der Standardwert beträgt 60 %. Bei genügend Abstand und einheitlichen Rasterlinien wirkt sich die Eigenschaft Mindestkantenlänge nicht allzu stark auf die Erkennung von Teilungspositionen aus. Wenn Rasterlinien jedoch fehlen, können Sie diesen Parameter anpassen. In diesem Fall lässt sich der Rand bei Definition eines niedrigeren Prozentwerts eventuell leichter finden.

 

Auflösung

Mit Hilfe der Eigenschaft Auflösung kann ein Dokument bei einer höheren Auflösung gescannt werden, falls es sehr dünne Linien enthält. Zur Wahl stehen die Auflösungswerte Standard, Genau (144 ppi) und Sehr genau (288 ppi).

 

 

Ein Beispiel für die Verwendung der Methode Linien oder Kanten suchen finden Sie im nachstehenden Beispiel.

 

Beispiel

In diesem Beispiel wird gezeigt, wie Sie die Methode Linien/Kanten suchen konfigurieren. Die Aufgabenstellung in diesem Beispiel ist folgende:

 

Es sollen Daten aus der Tabelle extrahiert werden.

Der obere Bereich der Seite (mit der Überschrift, der Firma, dem Kunden und den Rechnungsinformationen), die Kopfzeile der Tabelle und der untere Bereich der Seite sollen von der Verarbeitung ausgenommen werden.

 

Wir haben das Teilen-Objekt zu diesem Zweck folgendermaßen konfiguriert:

 

Die Eigenschaft Erste überspringen wurde auf 2 gesetzt.

Die Eigenschaft Letzte überspringen wurde auf 1 gesetzt.

Die Methode wurde auf Linien oder Kanten suchen gesetzt.

Für die Region wurde kein Wert definiert, daher wird die gesamte Seite als Region behandelt.

 

Der Algorithmus hat als erste Kante den Beginn der Kopfzeile und als zweite Kante das Ende der Kopfzeile identifiziert. Der obere Bereich des Dokuments wurde daher zusammen mit der Kopfzeile der Tabelle von der Verarbeitung ausgenommen (in der Abbildung unten der obere ausgegraute Bereich).

 

Auf Grund des Werts Letzte überspringen (1) wurden die Zellen Subtotal, Sales Tax und Total ausgenommen, da die erste Kante ab dem unteren Rand der Region in der Zeile gefunden wurde, in der die Zeile Fence repair endet. Der Rest der Tabelle wird in Zeilen aufgeteilt (ausgegrauter unterer Bereich in der Abbildung unten).

pdfex_skipinitial2_zoom60

 

© 2018-2024 Altova GmbH