Extraire les données PDF pour le mappage de données

Extracteur PDF de MapForce

  • Définir des règles facilement pour extraire des données du PDF
  • Créer des modèles pour mapper le PDF vers d’autres formats
  • Interface visuelle, point et clic
  • Moteur de suggestion puissant pour l’extraction automatique
  • Extraire des fragments, mélanger et faire correspondre l’information
  • Outils sophistiqués pour extraire des données dans les tables
  • Arranger facilement des données dans des groupes
  • Arborescence de schéma pour prévisualiser des résultats de modèle
  • Mapper le PDF vers Excel, les bases de données, JSON, CSV & etc.
  • Automatisation du mappage PDF avec MapForce Server

Extraction de données PDF

Bien que le PDF soit un format de données omniprésent dans l’environnement professionnel de nos jours, les données contenues dans les PDF ne sont pas disponibles pour les autres systèmes. Les PDF sont généralement conçus pour du contenu lisible pour les hommes avec un formatage et des mises en page variables, rendant l’extraction des données structurée très difficile. Ils peuvent contenir du texte, des images, des tables, et d’autres éléments et les données ne sont pas organisées dans un format lisible aux appareils. Les outils d’extraction de données PDF typiques ne peuvent éventuellement pas fournir de résultats précis, en particulier pour des PDF avec des mises en page complexes. C’est à cet instant que l’Extracteur PDF de MapForce entre en jeu.

L’outil de mappage de données de MapForce inclut l’Extracteur PDF de MapForce, un utilitaire facile à utiliser qui vous permet de définir rapidement la structure d’un document PDF et en extraire les données. Puis, ces données PDF peuvent être accédées pour une transformation et conversion ultérieures vers d’autres formats tels que XML, JSON, bases de données, Excel, etc. dans MapForce. Il s’agit de l’outil ultime qui permet d’activer l’intégration des données PDF et les projets ETL.

En utilisant les outils visuels dans l’Extracteur PDF de MapForce, vous pouvez définir la structure d’un document PDF et extraire ses données de manière efficace. L’Extracteur PDF est un outil hautement flexible qui vous permet d’extraire uniquement des portions de texte à la place du document entier, mélanger et faire correspondre des morceaux d’information depuis différentes pages du même fichier PDF, fractionner des tables en lignes et arranger des données en groupes.

Accédez aux données PDF pour une conversion avec l’Extracteur PDF de MapForce

Son utilisation facile et sa conception claire dans l’Extracteur PDF de MapForce rend le travail visuel de définition de la structure du document PDF facile, en utilisant les fonctions pointer-et-cliquer ainsi que glisser-et-déposer. Les grands volumes de données bloqués dans les PDF sont enfin disponibles pour les mappages vers d’autres formats.

Apprenez à utiliser l’Extracteur PDF de PDF

Comment extraire les données PDF

Quand vous chargez un PDF échantillon pour créer un modèle et définir les règles d’extraction de données, le PDF est affiché à côté du volet de schéma. Le volet de schéma affiche une structure d’arborescence qui décrit comment les données seront extraites. L’Extracteur PDF de MapForce inclut un moteur de suggestion puissant qui identifie automatiquement des éléments communs du document et tente de détecter leur structure.

Par exemple, le moteur de suggestion identifiera des tables qui existent dans le document dans lesquelles vous pouvez optez d’extraire des données automatiquement. Un opérateur de fractionnement dans le volet de schéma vous aide à définir comment diviser correctement la table en lignes séparées. Ce moteur de suggestion peut rechercher des bords ou des lignes pour créer le fractionnement, ou fractionner basé sur une distance fixe, par exemple, qui peut être consulté dans le volet de l'Aperçu PDF. En même temps, le moteur de suggestion saisit des colonnes et l’en-tête de texte. Cliquer sur un objet dans l’arborescence de schéma met en lumière la structure correspondante et les règles de capture des données telles qu’elles s’appliquent dans le document PDF.

Comment extraire des données PDF avec MapForce

Dans les documents PDF volumineux avec de nombreuses tables, il pourrait être utile de rechercher du texte (tel qu’une en-tête) dans le document et de définir les règles pour traiter les données relatives à ce texte. Par exemple, lorsque vous créez un modèle pour extraire des données des rapports financiers annuels, vous pourrez rechercher les « Dépenses » et traiter la tableau de chiffres suivant ce texte en conséquence. Les options de recherche granulaire comme la sensibilité à la casse, le filtrage de format (police, font-weight, etc.), et les recherches de mots entiers ou partiels, permettent un ciblage précis.

Une fois que des données tabulaires sont extraites, vous pouvez ajuster les règles d’extraction, le cas échéant, pour exclure des fragments, ajuster des assignations liées à l’ancre, définir des limites de tables, etc. Ceci peut être accompli en utilisant des outils visuels et des menus déroulants utiles. Vous pouvez prévisualiser les résultats d’extraction des données dans l’arborescence de sortie pour vérifier sa précision.

D’autres éléments de document peuvent être capturés et ajoutés à votre modèle manuellement. Pour définir les règles d’extraction de données manuellement, sélectionnez tout simplement une zone dans le PDF à extraire en la capturant dans un rectangle. Ensuite, sélectionnez la Capture de texte depuis le clic droit du menu contextuel. L’Extracteur PDF ajoute la capture comme élément dans l’arborescence du document, et vous pouvez le glisser et déposer dans la position souhaitée dans l’arborescence.

Extraire le PDF pour un mappage de données

Lorsque vous travaillez, l’Extracteur PDF de MapForce crée un document XML représentant la structure de votre modèle PDF avec des données échantillon depuis le document PDF dans la fenêtre de sortie. Ceci vous aide à comprendre et à perfectionner les résultats d’extraction qui deviendront un modèle à utiliser dans MapForce.

Prévisualiser les données extraites

Convertir des données PDF

Une fois que vous enregistrez votre modèle dans l’Extracteur PDF de MapForce, vous pouvez déjà l’insérer comme composant de données source dans un projet de mappage de données de MapForce. Les exigences de conversion PDF communes incluent :

  • PDF en Excel
  • PDF en bases de données (SQL ou NoSQL)
  • PDF en JSON
  • PDF en CSV
  • PDF en XML

Évidemment, MapForce peut aussi se mélanger et correspondre à de multiples formats de données source et cible, des projets de mappage de données, etc. Une bibliothèque riche en fonctions de traitement des données et un constructeur de fonction visuel permettent de filtrer et traiter es données facilement avant de les écrire dans la/les destination(s).

Convertir PDF en JSON dans MapForce

Avec l’Extracteur PDF, MapForce rend les données professionnelles critiques précédemment bloquées dans les PDF disponibles pour le mappage des données, l’intégration des données et les processus ETL.

“Altova MapForce offre d'excellentes fonctions de mappage que nous pouvons intégrer parfaitement à notre produit phare. La nature extensible du produit permet de couvrir toutes nos exigences.”

Scott Redford Visionware