Altova MapForce 2025 Enterprise Edition

La méthode Recherche objets peut être particulièrement utile quand il y a une absence de bords. La méthode de recherche de l’objet scannera la région de recherche, et à chaque fois qu’un coordinateur de direction de recherche a au moins un pixel dans la direction secondaire qui est assez différent de la couleur d’arrière-plan, ce pixel est compté comme faisant partie d’un objet. Dépendant du bord de l’objet ou des bords que vous avez sélectionné, le séparateur découpera la région en snippets, basé sur ces lignes. Ces lignes peuvent également être ajustées si nécessaire. Avec une configuration appropriée, la méthode Recherche objet peut également être utilisée pour détecter des écarts élevés entre les lignes de texte.

 

Propriétés

La table ci-dessous résume les propriétés de la méthode ‘object-finding’.

 

Propriété

Description

Couleur arrière-plan

La propriété Couleur d’arrière-plan est la couleur d’arrière-plan d’un document PDF et accepte les codes couleur hexadécimaux. L’option par défaut est #FFF, qui représente le blanc.

 

Tolérance

La propriété Tolérance est le pourcentage de la déviation de la couleur spécifiée dans le paramètre Arrière-plan. Ceci est l’étendue à l’intérieur de laquelle la couleur d’arrière-plan est considérée comme un arrière-plan. Tout ce qui se trouve au-dessus du pourcentage de la déviation de la couleur n’est plus considéré comme arrière-plan. Par exemple, la valeur 100 signifie que tout est traité comme arrière-plan.

 

Étendue minimum

La propriété Étendue minimum précise la taille minimum d’un objet ; tout objet plus petit que la valeur spécifiée sera ignoré.

 

Remplir les écarts

La propriété Remplir écarts détermine la taille d’un trou qui est couvert le long de la direction de recherche ; si deux lignes qui n’appartiennent pas à l’arrière-plan ne représentent pas plus que cette distance, ces deux lignes son considérées être un seul objet.

 

« Edge to Find » (Bord à trouver)

La propriété Bord à trouver précise le bord sur lequel l’objet sera fractionné, qui peut être le début (Start), la fin (End), ou le début et la fin de l’objet (Start and End).

 

Displace

La propriété Déplacer précise un décalage qui sera ajouté à la position détectée d’un objet. Le décalage est généralement négatif quand la pour trouver propriété Bord est définie comme Start, autrement il est positif.

 

 

Pour un exemple qui utilise la méthode Recherche objets, voir Example ci-dessous.

 

Exemple

Cet exemple affiche comment configurer la méthode Recherche objets. L’objectif de cet exemple est d’extraire les données de table depuis la facture échantillon illustrée ci-dessous.

pdfex_bookinvoice_zoom60

La table affichée dans la capture d’écran ci-dessus ne contient pas de lignes de grille régulières qui rend l’identification des positions correctes de fractionnement difficile. De plus, les cellules dans la deuxième colonne (Non) et les cellules de la troisième colonne (Description) chevauchent. Afin de fractionner correctement la table en lignes, nous avons sélectionné la méthode Recherche objets et nous l’avons configuré comme suit :

 

Les propriétés Couleur d’arrière-plan et Tolérance ont des valeurs par défaut (#FFF et 10 %, respectivement).

La propriété Étendue minimum a été définie à 4pt, ce qui aide à éliminer les objets plus petits à cette valeur.

Puisqu’il n’existe pas d’écart qui peut être rempli, la propriété Remplir écarts a sa valeur par défaut (0pt).

La propriété Bord à trouver a été définie comme Début, ce qui signifie que les objets seront fractionnés en emplacements où ils commencent.

Sur essais et erreurs, nous avons identifié la valeur idéale de la propriété Déplacer qui est -3pt. Cette valeur a fait que les positions de fractionnement se sont légèrement déplacées vers le haut, ce qui évitera que les données soient tronquées.

Aucune option post-processing n’a été définie.

 

Région de recherche

Puisqu’il n’existe aucune ligne cohérente le long de laquelle la table pourrait être fractionnée en lignes, nous utilisons la région de recherche pour identifier les positions de fractionnement fiables, qui seront ensuite appliquées à toute la Région. La capture d’écran ci-dessous affiche que la Région contient toutes les lignes de la table (zone jaune clair). La Région représente une zone que nous voulons fractionner. Toutefois, la région de recherche (rectangle jaune clair ci-dessous) couvre uniquement la première colonne de la table, dans laquelle les objets détectant fonctionnent de manière plus fiable que dans d’autres parties de la table.

PDFEX_BookInvoiceSearch

Si aucune région de recherche n’est utilisée, le séparateur identifiera les positions de fractionnement ci-dessous, qui entraîneront des résultats incorrects dans la sortie.

PDFEX_BookInvoiceNoSearch

 

© 2018-2024 Altova GmbH