Búsqueda de líneas o bordes
El método Búsqueda de líneas o bordes busca líneas o bordes donde la región se dividirá en fragmentos.
Propiedades
La tabla siguiente resume las propiedades del método de búsqueda de bordes.
Propiedad | Descripción |
---|---|
Rellenar huecos | La propiedad Rellenar huecos permite especificar la distancia entre píxeles adyacentes de alto contraste, lo que resulta en su combinación. La propiedad Rellenar huecos puede ser particularmente útil cuando, por ejemplo, una fila de la tabla tiene líneas de puntos. Gracias a la fusión de estos puntos en una línea continua, PDF Extractor podrá identificarla como borde.
|
Longitud mínima de bordes | La propiedad Longitud mínima de bordes es una configuración avanzada que especifica el porcentaje del ancho de la región de búsqueda que un objeto tiene que alcanzar para contar como borde. Esta propiedad puede resultar útil cuando las líneas de la cuadrícula son interrumpidas (p.ej., cuando una línea de cuadrícula es más corta que la fila). El valor predeterminado es 60 %. La propiedad Longitud mínima de bordes puede ser relativamente irrelevante al detectar posiciones de división cuando hay líneas de cuadrícula coherentes y suficientes espacios. Sin embargo, si faltan algunas líneas de cuadrícula, puede ser recomendable configurar este parámetro. En este caso, la configuración de un porcentaje más bajo en este parámetro podría facilitar al objeto de división encontrar el borde.
|
Resolución | La propiedad Resolución permite escanear un documento a mayor resolución en caso de que el documento contenga líneas muy finas. Puede elegir entre la resolución estándar, así como los modos Fino (144 ppi) y Extra Fino (288 ppi).
|
Para ver un ejemplo de uso del método Búsqueda de líneas o bordes, consulte el ejemplo más abajo.
Ejemplo
Este ejemplo describe cómo configurar el método Búsqueda de líneas o bordes. Los objetivos de este ejemplo son:
•Extraer datos de la tabla
•Excluir del procesamiento la parte superior de la página (que contiene el encabezado, la empresa, el cliente y los detalles de la factura), la fila de encabezado de la tabla y la parte inferior de la página.
Para ello hemos configurado el objeto División de la siguiente manera:
•La propiedad Omitir inicio se ha configurado en el valor 2.
•La propiedad Omitir final se ha configurado en el valor 1.
•El método se ha configurado en Búsqueda de líneas o bordes.
•Como no se ha configurado ningún valor para la opción ‘Región’, toda la página se tratará como una única región.
El algoritmo ha identificado el primer borde en el lugar donde empieza la fila del encabezado y el segundo borde en el lugar donde termina la fila del encabezado. Por lo tanto, la parte superior del documento junto con la fila del encabezado de la tabla se han excluido del procesamiento (ver la parte superior atenuada en color gris en la imagen siguiente).
El valor Omitir final (1) ha llevado al algoritmo a excluir las celdas Subtotal, Sales Tax y Total porque el primer borde desde la parte inferior de la región se ha identificado en la línea donde termina la fila Fence repair. El resto de la tabla se dividirá en filas (ver la parte inferior atenuada en color gris en la imagen siguiente).