Captura de texto
El objeto Captura de texto le permite extraer texto de una página de un documento PDF. Cuando crea una captura de texto, esta aparece en la estructura jerárquica, en el panel Esquema y en el panel Resultados. Si lo prefiere, también puede envolver una captura de texto dentro de una etiqueta XML, asignándole un nombre a la captura. Esto le ayudará a organizar la estructura en el panel Resultados en una estructura significativa (ver fragmento de código más abajo). El nombre predeterminado de una captura de texto es Capture. Para más información sobre cómo agregar objetos a la estructura jerárquica, consulte el apartado Insertar un objeto.
<Invoice>
<Header>GARDENING SERVICES INVOICE</Header>
<BillTo>Oswald Grim
Darkwood St. 17
Boston, MA 02128
+1-617-8767675</BillTo>
<InvoiceNo>4560123</InvoiceNo>
<Date>2023-09-05</Date>
<...>
</Invoice>
Al hacer clic en una captura de texto en la estructura jerárquica del panel Esquema, la captura se resalta inmediatamente en el panel Vista PDF (imagen siguiente), lo que facilita ubicarla en la página. El área resaltada tiene una etiqueta de texto que corresponde al nombre de la captura y se puede ver tanto en la estructura jerárquica como en el panel Resultados. También puede hacer clic en los elementos o sus valores en el panel Resultados para ver sus objetos correspondientes en la página del documento PDF. Consulte el segundo paso del tutorial para obtener más información.
Propiedades
Puede configurar las siguientes propiedades del objeto Captura de texto en el panel Propiedades: Nombre de salida XML, Región y Algoritmo (ver más abajo).
Nombre de salida XML
La propiedad Nombre de salida XML representa el nombre del objeto Captura de texto. Si esta propiedad contiene un valor, aparecerá como un elemento en la estructura XML del panel Resultados. Si el objeto no tiene nombre, no aparecerá ningún elemento adicional en el panel Resultados.
Región
La propiedad Región se refiere a un área de la página que está ocupada por una captura de texto. Si no se especifica ningún valor, la propiedad Región se refiere a toda la página. En la imagen siguiente, se puede ver la definición de una región, así como la ubicación de la parte izquierda, derecha, superior e inferior de una captura de texto llamada Col1.
Algoritmo
La sección Algoritmo contiene varias propiedades que le permiten gestionar procedimientos básicos para procesar PDF. El algoritmo funciona de manera visual, es decir, no depende de la estructura interna de un documento PDF sino más bien del orden de sus elementos visuales. Las propiedades disponibles se describen en la tabla siguiente.
Tolerancia base | La propiedad Tolerancia base especifica una distancia para las líneas de base del texto, lo que permite gestionar pequeños errores de alineación del texto.
|
Espaciado entre párrafos | La propiedad Espaciado entre párrafos especifica qué distancia entre las líneas de base se considera un párrafo. Esta propiedad le permite configurar si dos líneas consecutivas se deberían tratar como partes del mismo párrafo o no.
Si la opción Insertar espacio está activada y dos líneas que pertenecen mismo párrafo, entre estas líneas se insertará, en vez de un salto de línea, un espacio para combinarlas (ver ‘Palabras separadas’ más abajo). Si configura esta propiedad en un valor muy alto, puede tratar el texto entero como un único párrafo. El resultado contendrá un salto de línea por cada párrafo, mientras que en el archivo PDF los saltos de línea que no sean de párrafo se convertirán por defecto en un solo espacio.
|
Ángulo base | La propiedad Ángulo base se utiliza para extraer texto vertical o en ángulo. La opción predeterminada es 0°.
|
Desviación de ángulo | La propiedad Desviación de ángulo especifica hasta qué punto la línea de base de los caracteres en la página puede desviarse del Ángulo de línea de base. El valor predeterminado es 180°, es decir, que todos lo caracteres deberían considerarse. Si quiere extraer texto escrito en ángulo, puede usar esta propiedad para descartar cualquier texto alrededor que no está escrito en esta forma.
|
Palabras separadas | La propiedad Palabras separadas especifica si se conservan o eliminan los espacios. Si selecciona la opción Insertar espacio, se conservarán todos los espacios que existen en esta región. Si selecciona la opción Unir, se eliminarán todos los espacios. La opción Unir puede ser particularmente útil para direcciones URL que están separadas por saltos de línea.
|
Modo Espacios en blanco | El modo Espacios en blanco ayuda a abordar los casos en los que las fuentes incrustadas no contienen un valor del ancho de un carácter de espacio. El modo Espacios en blanco también puede ocuparse de aquellos casos en los que el espaciado entre caracteres se anula por la composición tipográfica. El modo Espacios en blanco tiene los siguientes valores: Predeterminado, Valor relativo y Valor absoluto (ver detalles más abajo).
Predeterminado El valor predeterminado asume que el ancho de un espacio horizontal es el ancho detectado para la fuente.
Valor relativo La forma más habitual de utilizar la opción Valor relativo sería establecer un valor entre 0.2 y 0.5, que es lo que utilizan la mayoría de fuentes proporcionales, o 1.0 para una fuente monoespaciada (en caso de que PDF Extractor no extraiga correctamente los espacios en blanco por sí mismo). La ancho es relativa al ancho de la celda de caracteres de la fuente.
Valor absoluto El modo absoluto ayuda a resolver problemas con fuentes de distintos tamaños utilizadas una al lado de la otra. El modo absoluto toma el ancho en unidades absolutas (por ejemplo, puntos, milímetros). El valor recomendado en este modo sería aproximadamente entre el 20 % y el 50 % del tamaño de fuente utilizado. Por ejemplo, para un tamaño de fuente de 10pt, el valor recomendado estaría entre 2pt y 5pt.
|