Altova MapForce 2024 Enterprise Edition

Navigation: Componentes estructurales > PDF > MapForce PDF Extractor > Objetos de la plantilla

Captura de texto

El objeto Captura de texto le permite extraer texto de una página de un documento PDF. Al crear una captura de texto, aparece en la estructura de árbol del panel Esquema y del panel Resultados. Si lo prefiere, también puede envolver una captura de texto dentro de una etiqueta XML, asignándole un nombre a la captura, lo que le ayudará a organizar la estructura en el panel Resultados en una estructura significativa (véase el extracto de códigos a continuación). El nombre predeterminado de una captura de texto es Capture. Para más información sobre cómo agregar objetos a la estructura jerárquica, consulte el apartado Insertar un objeto.

<Header>GARDENING SERVICES INVOICE</Header>

<BillTo>Oswald Grim

Darkwood St. 17

Boston, MA 02128

+1-617-8767675</BillTo>

<...>

</Invoice>

Al hacer clic en una captura de texto en la estructura jerárquica del panel Esquema, la captura inmediatamente se resalta en el panel Vista PDF (imagen siguiente), lo que facilita ubicarla en la página. El área resaltado tiene una etiqueta de texto que corresponde al nombre de la captura y se puede ver tanto en la estructura jerárquica como en el panel Resultados. También puede hacer clic en los elementos o sus valores en el panel Resultados para ver sus objetos correspondientes en la página del documento PDF. Consulte el segundo paso del tutorial para obtener más información.

Propiedades en el panel Propiedades

Puede configurar las siguientes propiedades del objeto Captura de texto:

La sección Algoritmo contiene varias propiedades que le permiten gestionar procedimientos básicos para procesar PDF. El algoritmo funciona de manera visual, es decir que no depende de la estructura interna de un documento PDF sino más bien del orden de sus elementos visuales. Estas son las propiedades disponibles:

•La propiedad Tolerancia de línea de base especifica una distancia para líneas de base de textos, lo que permite gestionar pequeños errores de alineación de texto.

•La propiedad Espaciado de párrafos especifica qué distancia entre líneas de base se identifica como párrafo. Esta propiedad le permite configurar si dos líneas consecutivas se deberían tratar como partes del mismo párrafo o no. Si la opción Insertar espacio está activada y dos líneas que pertenecen mismo párrafo, entre estas líneas se insertará, en vez de un salto de línea, un espacio para combinarlas (ver ‘Palabras separadas’ más abajo). Si configura esta propiedad en un valor muy alto, puede tratar el texto entero como un único párrafo. El resultado contendrá un salto de línea por cada párrafo, mientras que en el archivo PDF los saltos de línea que no sean de párrafo se convertirán por defecto en un solo espacio.

•La propiedad Ángulo de línea de base proporciona un ángulo de referencia (en grados) para las líneas de base y se puede utilizar para extraer texto que está escrito en vertical o en ángulo. La opción predeterminada está configurada en 0°.

•La propiedad Desviación de ángulo especifica hasta qué punto la línea de base de los caracteres en la página puede desviarse del Ángulo de línea de base. El valor predeterminado está configurado en 180°, es decir que todos lo caracteres deberían considerarse. Si quiere extraer texto escrito en ángulo, puede usar esta propiedad para descartar cualquier texto alrededor que no está escrito en esta forma.

•La propiedad Palabras separadas especifica si se conservan o eliminan los espacios. Si selecciona la opción Insertar espacio, se conservarán todos los espacios que existen en esta región. Si selecciona la opción Encolar, se eliminarán todos los espacios. La opción Encolar puede ser particularmente útil para direcciones URL que están separadas por saltos de línea.