Extraire des données PDF vers Excel

Extracteur PDF de MapForce

  • Définir des règles facilement pour extraire des données du PDF
  • Créer des modèles pour mapper le PDF vers Excel
  • Interface visuelle, point et clic
  • Moteur de suggestion puissant pour l’extraction automatique
  • Extraire des fragments, mélanger et faire correspondre l’information
  • Outils sophistiqués pour extraire des données dans les tables
  • Arranger facilement des données dans des groupes
  • Arborescence de schéma pour prévisualiser des résultats de modèle
  • Convertir le PDF en Excel, bases de données, JSON, CSV & plus
  • Automatiser la conversion PDF en Excel avec MapForce Server

Convertir PDF en Excel

La capacité de convertir et transformer les données dans les documents PDF en Excel est une exigence commune à travers tous les secteurs verticaux de nos jours. Par exemple, dans le secteur financier, les rapports trimestriels et annuels arrivent souvent en format PDF. L’extraction automatisée de déclarations financières, bilans et déclarations sur le revenu de ces rapports est importante pour le processus analytique, aidant les analystes financiers à prendre des décisions en toute connaissance de cause. De manière semblable, les cabinets d’avocats gèrent de vastes montants d’information stockée dans des documents juridiques, contrats et rapports de tribunal, et ceux-ci sont souvent sous forme de PDF qui doit être converti en Excel à des fins de processus analytiques. Les chercheurs du domaine de la santé sont souvent tenus d’extraire des données depuis des dossiers médicaux ou rapports de laboratoire qui sont communiqués en PDF et d’analyser des données en Excel.

Tandis que la conversion PDF en Excel est une exigence commune, les PDF sont généralement conçus pour la consommation humaine, et n’ont pas de structure built-in requise pour l’extraction correcte de ces données. Des outils de conversion de PDF simple ou « one-off » en Excel ne saisissent pas correctement l’information depuis les PDF, en particulier lorsqu’il s’agit de gérer des mises en page complexes et styles de formatage différents. Ceci peut causer des erreurs, inefficacités et la nécessité d’une intervention manuelle coûteuse qui requiert beaucoup de temps afin de corriger les données extraites.

Altova a créé l’Extracteur PDF de MapForce pour aborder ces problèmes. L’Extracteur PDF de MapForce est un outil visuel qui vous permet de définir des règles précises pour extraire les données structurées depuis les PDF et les convertir en Excel ou autres formats comme XML, JSON, bases de données, etc.

Extraction de données PDF

L’outil de mappage des données de MapForce inclut l’Extracteur PDF de MapForce, un utilitaire facile à utiliser qui vous permet de définir rapidement la structure d’un document PDF, d’en extraire les données et d’écrire les données dans Excel. Il s’agit d’un outil abordable et pratique qui permet d’activer l’intégration des données PDF et les projets ETL.

En utilisant les outils visuels dans l’Extracteur PDF de MapForce, vous pouvez définir la structure d’un document PDF et extraire ses données de manière efficace. L’Extracteur PDF est un outil hautement flexible qui vous permet d’extraire uniquement des portions de texte à la place du document entier, mélanger et faire correspondre des morceaux d’information depuis différentes pages du même fichier PDF, fractionner des tables en lignes et arranger des données en groupes.

Accédez aux données PDF pour une conversion avec l’Extracteur PDF de MapForce

Son utilisation facile et sa conception claire dans l’Extracteur PDF de MapForce rend le travail visuel de définition de la structure du document PDF facile, en utilisant les fonctions pointer-et-cliquer ainsi que glisser-et-déposer. Les grands volumes de données bloqués dans les PDF sont enfin disponibles pour les mappages vers d’autres formats.

Apprenez à utiliser l’Extracteur PDF de PDF

Comment extraire les données PDF

Quand vous chargez un PDF échantillon pour créer un modèle et définir les règles d’extraction de données, le PDF est affiché à côté du volet de schéma. Le volet de schéma affiche une structure d’arborescence qui décrit comment les données seront extraites. L’Extracteur PDF de MapForce inclut un moteur de suggestion puissant qui identifie automatiquement des éléments communs du document et tente de détecter leur structure.

Par exemple, le moteur de suggestion identifiera des tables qui existent dans le document dans lesquelles vous pouvez optez d’extraire des données automatiquement. Un opérateur de fractionnement dans le volet de schéma vous aide à définir comment diviser correctement la table en lignes séparées. Ce moteur de suggestion peut rechercher des bords ou des lignes pour créer le fractionnement, ou fractionner basé sur une distance fixe, par exemple, qui peut être consulté dans le volet de l'Aperçu PDF. En même temps, le moteur de suggestion saisit des colonnes et l’en-tête de texte. Cliquer sur un objet dans l’arborescence de schéma met en lumière la structure correspondante et les règles de capture des données telles qu’elles s’appliquent dans le document PDF.

Comment extraire des données PDF avec MapForce

Une fois que des données tabulaires sont extraites, vous pouvez ajuster les règles d’extraction, le cas échéant, pour exclure des fragments, ajuster des assignations liées à l’ancre, définir des limites de tables, etc. Ceci peut être accompli en utilisant des outils visuels et des menus déroulants utiles. Vous pouvez prévisualiser les résultats d’extraction des données dans l’arborescence de sortie pour vérifier sa précision.

D’autres éléments de document peuvent être capturés et ajoutés à votre modèle manuellement. Pour définir les règles d’extraction de données manuellement, sélectionnez tout simplement une zone dans le PDF à extraire en la capturant dans un rectangle. Ensuite, sélectionnez la Capture de texte depuis le clic droit du menu contextuel. L’Extracteur PDF ajoute la capture comme élément dans l’arborescence du document, et vous pouvez le glisser et déposer dans la position souhaitée dans l’arborescence.

Extraire le PDF pour un mappage de données

Lorsque vous travaillez, l’Extracteur PDF de MapForce crée un document XML représentant la structure de votre modèle PDF avec des données échantillon depuis le document PDF dans la fenêtre de sortie. Ceci vous aide à comprendre et à perfectionner les résultats d’extraction qui deviendront un modèle à utiliser dans MapForce.

Prévisualiser les données extraites

Convertir des données PDF

Une fois que vous enregistrez votre modèle dans l’Extracteur PDF de MapForce, vous pouvez déjà l’insérer comme composant de données source dans un projet de mappage de données de MapForce. Les exigences de conversion PDF communes incluent :

  • PDF en Excel
  • PDF en bases de données (SQL ou NoSQL)
  • PDF en JSON
  • PDF en CSV
  • PDF en XML

Évidemment, MapForce peut aussi se mélanger et correspondre à de multiples formats de données source et cible, des projets de mappage de données, etc. Une bibliothèque riche en fonctions de traitement des données et un constructeur de fonction visuel permettent de filtrer et traiter es données facilement avant de les écrire dans la/les destination(s).

Convertir le PDF en JSON dans MapForce

Avec l’Extracteur PDF, MapForce rend les données professionnelles critiques précédemment bloquées dans les PDF disponibles pour le mappage des données, l’intégration des données et les processus ETL.

“Altova MapForce offre d'excellentes fonctions de mappage que nous pouvons intégrer parfaitement à notre produit phare. La nature extensible du produit permet de couvrir toutes nos exigences.”

Scott Redford Visionware