Recherche lignes ou bords
La méthode Recherche lignes ou bords recherche des lignes ou bords, autour desquels la région sera fractionnée en snippets.
Propriétés
La table ci-dessous résume les propriétés de la méthode ‘edge-finding’.
Propriété | Description |
---|---|
Remplir les écarts | La propriété Remplir Écarts vous permet de préciser la distance entre les pixels adjacents à contraste élevé, qui permet de les fusionner. La propriété Remplir Écarts peut être particulièrement utile quand, par exemple, une ligne de table a des lignes pointillées. Fusionner des lignes pointillées en une ligne permettra à l’Extracteur PDF d’identifier cette ligne comme bord.
|
Longueur minimum du bord | La propriété Longueur minimum du bord est un paramètre avancé qui spécifie le pourcentage de la largeur de la région qu’un objet doit couvrir afin d’être compté. Cette propriété peut être utile dans des situations quand les lignes de la grille sont inconsistantes (par ex., quand une ligne de la grille est plus courte que la ligne). La valeur par défaut est 60%. Avec assez d’espace et des lignes de grille cohérentes, la propriété Longueur minimum du bord ne doit pas avoir une influence significative en ce qui concerne la détection des positions de fractionnement. Toutefois, vous allez éventuellement vouloir affiner ce paramètre s’il existe des lignes de grille manquantes. Dans ce cas, définir un pourcentage inférieur peut être utile pour que le séparateur trouve le bord.
|
Résolution | La propriété Résolution permet de scanner un document à plus haute résolution dans le cas où le document contient des lignes très fines. Vous pouvez choisir entre une résolution Standard, Fine (144 ppi) et Extra Fine (288 ppi).
|
Pour un exemple qui utilise la méthode Recherche lignes ou bords, voir Example ci-dessous.
Exemple
Cet exemple affiche comment configurer la méthode Recherche lignes/ bords. L'objectif de cet exemple est comme suit :
•Pour extraire les données d’une table
•Pour exclure la partie supérieure de la page (qui contient l’en-tête, l’entreprise, le client et les détails de la facture), la ligne de l’en-tête de la table, et la partie inférieure de la page du traitement
Pour atteindre ces objectifs, nous avons configuré l’objet Fractionner de la manière suivante :
•La propriété Ignorer Initial a été définie comme 2.
•La propriété Ignorer Final a été définie comme 1.
•La Méthode a été définie comme Trouver des lignes ou des bords.
•Aucune valeur n’a été définie pour la Région, pour cela, la page entière est traitée comme région.
L’algorithme a identifié le premier bord dans l’emplacement où la ligne d’en-tête commence et le deuxième bord dans l’emplacement où la ligne d’en-tête se termine. Pour cette raison, la partie supérieure du document ensemble avec la ligne d’en-tête de la table ont été exclues du traitement (partie supérieure grisée dans la capture d’écran ci-dessous)
La valeur Ignorer final (1) a fait que l’algorithme exclut les cellules Sous-total, Taxes ventes et Total car le premier bord du bas de la région a été identifié à la ligne où la réparation clôture se termine. Le reste de la table sera fractionné en lignes (partie du bas grisée dans la capture d’écran ci-dessous).