Extraer datos PDF para la asignación de datos

MapForce PDF Extractor

  • Definir con facilidad reglas de extracción de datos en documentos PDF
  • Crear plantillas para asignar datos PDF a otros formatos
  • Interfaz visual de apuntar y hacer clic
  • Motor de sugerencias potente para la extracción automática
  • Extraer fragmentos, mezclar y combinar información
  • Herramientas distinguidas para extraer datos en tablas
  • Ordenar con facilidad datos en grupos
  • Usar árboles de esquema para obtener vistas previas de los resultados de plantilla
  • Asignar datos PDF a Excel, bases de datos, JSON, CSV y más
  • Automatizar asignaciones de datos PDF con MapForce Server

Extracción de datos PDF

Aunque el PDF es un formato de datos omnipresente en las empresas hoy en día, no es fácil asignar los datos contenidos en este formato a otros sistemas. Los PDF suelen estar diseñados con formatos y diseños variables para que el contenido sea legible para el lector. Esto dificulta enormemente la extracción de datos estructurados. Estos documentos pueden contener texto, imágenes, tablas y otros elementos. Esto significa que los datos no están organizados en un formato que una máquina pueda leer o descifrar con facilidad. Las herramientas habituales de extracción de datos PDF no suelen dar resultados correctos, sobre todo cuando se trata de un PDF con una estructura compleja. Ahí es donde entra en juego MapForce PDF Extractor.

Las herramientas de asignación de datos en MapForce incluyen la utilidad MapForce PDF Extractor que es fácil de usar y permite definir rápidamente la estructura y extraer datos de un documento PDF. Después, se puede acceder a esos datos PDF para su transformación y conversión a otros formatos como XML, JSON, bases de datos, Excel, etc., directamente en MapForce. Es la herramienta más avanzada para facilitar la integración de datos PDF y los proyectos ETL.

A través de las herramientas visuales en MapForce PDF Extractor puede definir la estructura y extraer los datos de un documento PDF de manera eficaz. MapForce PDF Extractor es una herramienta de gran flexibilidad que le permite extraer partes del texto en lugar de todo el documento, mezclar y combinar fragmentos de información de diferentes páginas del mismo archivo PDF, dividir tablas en filas y organizar los datos en grupos.

Access PDF data for conversion with MapForce PDF Extractor

El diseño de MapForce PDF Extractor es sencillo y fácil de usar, lo que facilita definir rápidamente la estructura del documento PDF de forma visual, con funciones como ‘apuntar y hacer clic’ y ‘arrastrar y soltar’. Por fin, los enormes volúmenes de datos que antes estaban encerrados en PDF están disponibles para pasarlos a otros formatos.

Aprenda a usar MapForce PDF Extractor

Cómo extraer datos PDF

Al cargar un PDF de muestra para crear una plantilla y definir reglas de extracción de datos, el PDF se muestra junto a un panel de esquema. El panel Esquema muestra una estructura jerárquica que representa cómo se extraerán los datos. MapForce PDF Extractor incluye un potente motor de sugerencias que identifica automáticamente los elementos comunes de los documentos e intenta detectar su estructura.

Por ejemplo, el motor de sugerencias identificará las tablas que existen en el documento que luego se pueden extraer automáticamente si lo desea. Hay un filtro de división en el panel Esquema que le ayuda a definir cómo dividir correctamente la tabla en filas separadas. El motor de sugerencias puede buscar bordes o líneas para crear la división allí o dividir las partes basado en una distancia fija. También puede obtener una vista previa de la división en el panel Vista PDF. A la vez, el motor de sugerencias puede capturar columnas y filas de encabezado. Al hacer clic en cualquier objeto en la estructura jerárquica se resaltan las reglas de captura de la estructura y de los datos tal y como se aplican a la vista del documento PDF.

Cómo extraer datos PDF con MapForce

En documentos PDF grandes con un gran número de tablas, puede ser útil buscar texto (como un título) en el documento y definir reglas para procesar los datos relativos a ese texto. Por ejemplo, al crear una plantilla para extraer datos de informes financieros anuales, podría buscar «Gastos» y procesar en consecuencia la tabla de cifras que sigue a ese texto. Las opciones de búsqueda integrales, como la distinción entre mayúsculas y minúsculas, el filtrado de formatos (fuente, peso de la fuente, etc.) y las búsquedas de palabras enteras o parciales, permiten una orientación precisa.

Tras haber extraído los datos de la tabla puede ajustar las reglas de extracción según sus necesidades. Es decir, puede excluir algunos fragmentos, ajustar las asignaciones de anclaje, definir los límites de tabla, etc. Para ello se pueden utilizar herramientas visuales y menús desplegables muy útiles. Puede obtener una vista previa de los resultados de la extracción de datos en la estructura de salida para comprobar su precisión.

El resto de elementos del documento se pueden capturar y agregar a la plantilla manualmente. Para definir reglas de extracción de datos manualmente, basta con seleccionar un área del PDF que quiere extraer capturándola en un rectángulo. Después, seleccione ‘Captura de texto’ o haga clic con el botón derecho en el menú contextual. PDF Extractor agrega la captura como un elemento en la estructura del documento y simplemente puede arrastrar y soltarlo en la posición deseada de la estructura.

Extraer PDF para la asignación de datos

Mientras esté trabajando MapForce PDF Extractor crea, en la ventana Resultados, un documento XML que representa la estructura de su plantilla PDF que incluye datos de muestra del documento PDF de trabajo. Esto le permite entender y perfeccionar los resultados de la extracción que luego se convertirán en una plantilla que puede utilizar en MapForce.

Obtener una vista previa de los datos extraídos

Conversión de datos PDF

Una vez guardada la plantilla en MapForce PDF Extractor, ya puede insertarla como componente de datos de origen en cualquier proyecto de asignación de datos en MapForce. Los requisitos habituales de conversión de PDF incluyen:

  • Conversión de datos PDF en Excel
  • PDF en bases de datos (SQL o NoSQL)
  • PDF en JSON
  • PDF en CSV
  • PDF en XML

Por supuesto MapForce también puede mezclar y combinar varios formatos de datos de origen y destino, asignaciones de datos en cadena y mucho más. También encontrará una amplia biblioteca de funciones de procesamiento de datos y un generador visual de funciones que lo hacen muy fácil filtrar y procesar datos antes de escribirlos a uno o varios formatos de destino.

Convertir PDF en JSON en MapForce

Gracias al nuevo MapForce PDF Extractor los datos empresariales críticos que antes estaban encerrados en archivos PDF por fin se pueden utilizar para la asignación e integración de datos así como el procesamiento de datos ETL.

“Altova MapForce ofrece unas excelentes funciones de asignación de datos que podemos incrustar a la perfección en nuestros principales productos. Su carácter extensible hace que este producto nos sirva para casi todos nuestras soluciones.”

Scott Redford Visionware