División
El objeto División (ilustrado a continuación) corta en trozos una parte determinada de una página. El objeto División puede descartar un número fijo de fragmentos iniciales y/o finales de una región y admite distintos medios para ubicar las posiciones de división. Para más detalles, consulte la subsección Propiedades más abajo.
Para más información sobre cómo agregar objetos a la estructura jerárquica, consulte el apartado Insertar un objeto.

Propiedades en el panel Propiedades
Puede configurar las siguientes propiedades del objeto División:
La propiedad Región indica la parte de la página que se dividirá en varias secciones. Si no se ha especificado ningún valor para la propiedad Región, ésta se establecerá para toda la página. En la imagen siguiente, se puede ver la definición de una región, así como la ubicación de la parte izquierda, derecha, superior e inferior de la región. ![]()
|
La propiedad Búsqueda describe la parte de la página en la que PDF Extractor busca posiciones de división particulares (véase la sección Método a continuación). Si no se ha especificado ningún valor, la opción predeterminada es la misma que el valor de la propiedad Región.
La región de búsqueda normalmente se usa en combinación con la región. La región especifica la parte de la página que se debe dividir (p.ej., la página entera), mientras la región de búsqueda facilita encontrar líneas u objetos sólo en áreas particulares (p.ej., en el borde izquierdo). Por ejemplo, si en una columna los bordes son constantes y sin interrupción, puede restringir la región de búsqueda a esta columna en particular. Para ver un ejemplo de uso de la región de búsqueda, véase el segundo ejemplo más abajo.
|
Las propiedades Omitir inicio y Omitir final describen cuántos fragmentos, desde el inicio hasta el final de la región respectivamente, se excluirán del procesamiento.
|
La propiedad Método se refiere al mecanismo que ubica posiciones de división, en base a las cuales una región determinada se divide en diferentes partes. Estos son los métodos disponibles:
•Búsqueda de líneas o bordes •Búsqueda de objetos •Distancia fija
Todos los métodos tienen dos direcciones: (i) la dirección de búsqueda, que es vertical para el objeto División y la Búsqueda de ubicaciones y límites verticales, u horizontal para la Búsqueda de ubicaciones y límites horizontales, y (ii) la dirección secundaria, que es perpendicular a la dirección de búsqueda.
Búsqueda de líneas o bordesEl método Búsqueda de líneas o bordes busca líneas o bordes donde la región se dividirá en fragmentos. La búsqueda de bordes tiene estas propiedades:
•La propiedad Rellenar vacíos permite especificar la distancia entre píxeles adyacentes de alto contraste, lo que resulta en su fusión. La propiedad Rellenar vacíos puede ser particularmente útil cuando, por ejemplo, una fila de la tabla tiene líneas de puntos. Gracias a la fusión de estos puntos en una línea continua, PDF Extractor podrá identificarla como borde. •La propiedad Longitud mínima de borde es una configuración avanzada que especifica el porcentaje del ancho de la región de búsqueda que un objeto tiene que alcanzar para contar como borde. Esta propiedad puede resultar útil cuando las líneas de la cuadrícula son interrumpidas (p.ej., cuando una línea de cuadrícula es más corta que la fila). El valor predeterminado es el 60%. La propiedad Longitud mínima de bordes puede ser relativamente irrelevante al detectar posiciones de división cuando hay líneas de cuadrícula coherentes y suficientes espacios. Sin embargo, si faltan algunas líneas de cuadrícula, puede ser recomendable configurar este parámetro. En este caso, la configuración de un porcentaje más bajo en este parámetro podría facilitar al objeto de división encontrar el borde. •La propiedad Resolución permite escanear un documento a mayor resolución en caso de que el documento contenga líneas muy finas. Puede elegir entre la resolución estándar, así como los modos Fino (144 ppi) y Extra Fino (288 ppi).
Para ver un ejemplo de uso del método Búsqueda de líneas o bordes, véase el primer ejemplo más abajo.
Búsqueda de objetosEl método Buscar objetos puede resultar especialmente útil cuando la región carece de bordes. La búsqueda de objetos escanea la región de búsqueda para encontrar una coordenada de dirección que tenga al menos un píxel que tenga otro color. Si este color es lo suficientemente diferente al color de fondo, entonces este píxel se contará como parte de un objeto. El objeto División cortará la región en fragmentos, en función del borde o los bordes del objeto que haya seleccionado. En caso de que sea necesario, estas líneas también se pueden ajustar. Si el método Buscar objetos está configurado apropiadamente, también se puede usar para detectar vacíos grandes entre líneas de texto.
La búsqueda de objetos tiene estas propiedades:
•La propiedad Color de fondo determina el color de fondo de un documento PDF y acepta códigos de color, es decir valores hexadecimales. La opción predeterminada es #FFF, que indica el color blanco. •La propiedad Tolerancia indica el porcentaje de desviación de color especificado en el parámetro Color de fondo. En este rango de tolerancia el color puede desviarse del color de fondo sin considerarse otra región. Si el color excede este porcentaje de tolerancia, el programa ya no lo identificará como fondo. Por ejemplo, el valor 100 significa que toda la región se trata como color de fondo. •La propiedad Extensión mínima especifica el tamaño mínimo de un objeto, por lo que todos los objetos más pequeños se omitirán. •La propiedad Rellenar vacíos determina el tamaño de un vacío que se cubre en la dirección de búsqueda. Es decir, si hay dos filas que no forman parte del fondo y están a esta o menor distancia, estas dos filas se consideran un único objeto. •La Buscar propiedad Borde especifica en qué borde de un objeto se dividirá, en cual está el inicio (Inicio), el final (Final) y el inicio y el final (Inicio y final) del objeto. •La propiedad Desplazar especifica un desplazamiento que se añadirá a la posición detectada de un objeto. Por lo general, el desplazamiento tiene un valor positivo, excepto cuando la propiedad Borde a buscar está configurada en Inicio; entonces el valor es negativo.
Para ver un ejemplo de uso del método Búsqueda de objetos, véase el segundo ejemplo más abajo.
Distancia fijaLa Distancia fija empieza la búsqueda de características en la parte superior de la región de búsqueda (o de cualquier otro borde especificado) y sigue avanzando en pasos de una distancia especificada en el campo Distancia. Este método puede ser particularmente útil para ciertos documentos que usan líneas o altos de celdas fijos.
En la imagen siguiente se ilustra en extracto de una tabla que se dividirá en filas basado en los parámetros configurados en la sección Método del panel Propiedades: El método está configurado en Distancia fija, y, usando las medidas en la barra de estado, hemos detectado la distancia entre el inicio y el final de cada fila (24pt) para establecerla como distancia fija en el campo Distancia. Para más información sobre cómo medir distancias, véase el ejemplo en la subsección Post procesamiento a continuación. ![]() |
La sección Post procesamiento contiene opciones adicionales para trabajar con el resultado del procesamiento del método seleccionado:
•La opción Extensión mínima especifica un umbral de distancia bajo el cual los resultados de la división se consideran fragmentos pequeños. •El parámetro Fragmentos pequeños determina cómo proceder con estos fragmentos. Estos son los valores disponibles:
oDescartar: Los fragmentos pequeños no se incluirán en la secuencia del objeto de división (opción predeterminada): oCombinar con anterior: Un fragmento pequeño se combinará con el primer fragmento anterior que no sea pequeño. oCombinar con siguiente: Un fragmento pequeño se combinará con el primer fragmento siguiente que no sea pequeño. oDividir en el centro: La región entre dos fragmentos que no son pequeños de dividirá en partes iguales. Es decir, los fragmentos pequeños del inicio y de final se combinarán respectivamente con el primer fragmento anterior o siguiente que no sea pequeño.
EjemploHay varias maneras de excluir fragmentos no deseados del procesamiento. Por ejemplo, si cada página de su documento PDF tiene el mismo número de fragmentos que quiere eliminar, puede usar las propiedades Omitir inicio y Omitir final (ver el primer ejemplo a continuación). Sin embargo, si el número de fragmentos no deseados es diferente en cada página, puede usar la propiedad Extensión mínima.
Para averiguar el valor a introducir en la propiedad Extensión mínima, tiene que medir el alto del fragmento que desea excluir del procesamiento. Para ello siga estos pasos:
1.Seleccione un rectángulo que cubre el alto del fragmento no deseado (imagen siguiente). ![]() 2.Compruebe las medidas en la barra de estado (imagen siguiente). El valor 26.84pt representa el alto del fragmento. ![]() 3.Basándonos en las medidas que se ven en la barra de estado, podemos configurar la propiedad Extensión mínima a 30pt. La propiedad Fragmentos pequeños está configurada en Descartar. Es decir que todos los fragmentos que sean más pequeños que 30pt se excluirán del procesamiento. Para evitar resultados impredecibles, debe asegurarse de que el alto de los fragmentos que desea incluir en los resultados de la división es mayor que el valor de la propiedad Extensión mínima. En nuestro ejemplo, el alto de las filas que queremos dividir es mayor que el alto de la fila de encabezado. Por lo tanto, el valor que hemos establecido en la propiedad Extensión mínima afectará sólo los fragmentos que queremos descartar.
|
Ejemplo 1: Búsqueda de líneas o bordes
Este ejemplo describe cómo configurar el método Búsqueda de líneas o bordes. Lo que pretendemos con este ejemplo es lo siguiente:
•Extraer datos de la tabla
•Excluir del procesamiento la parte superior de la página (que contiene el encabezado, la empresa, el cliente y los detalles de la factura), la fila de encabezado de la tabla y la parte inferior de la página.
Para ello hemos configurado el objeto División de la siguiente manera:
•La propiedad Omitir inicio se ha configurado en el valor 2.
•La propiedad Omitir final se ha configurado en el valor 1.
•El método se ha configurado en Búsqueda de líneas o bordes.
•Como no se ha configurado ningún valor para la opción ‘Región’, toda la página se tratará como una única región.
El algoritmo ha identificado el primer borde en el lugar donde empieza la fila del encabezado y el segundo borde en el lugar donde termina la fila del encabezado. Por lo tanto, la parte superior del documento junto con la fila del encabezado de la tabla se han excluido del procesamiento (ver la parte superior atenuada en color gris en la imagen siguiente).
El valor Omitir final (1) ha llevado al algoritmo a excluir las celdas Subtotal, Sales Tax y Total porque el primer borde desde la parte inferior de la región se ha identificado en la línea donde termina la fila Fence repair. El resto de la tabla se dividirá en filas (ver la parte inferior atenuada en color gris en la imagen siguiente).

Ejemplo 2: Búsqueda de objetos
Este ejemplo describe cómo configurar el método Búsqueda de objetos. La meta de este ejemplo es extraer datos de la factura de muestra (ver imagen siguiente).

La tabla ilustrada en la imagen anterior no contiene líneas de cuadrícula regulares, lo que dificulta la tarea de identificar posiciones de división correctas. Aparte, las celdas de la segunda columna (No) y de la tercera columna (Description) se superponen. Para poder dividir la tabla en filas correctamente, hemos seleccionado el método Búsqueda de objetos que hemos configurado de la siguiente forma:
•Las propiedades Color de fondo y Tolerancia tienen valores predeterminados (#FFF y 10%, respectivamente).
•La propiedad Extensión mínima se ha configurado en 4pt, lo que permite eliminar objetos que son más pequeños.
•La propiedad Rellenar vacíos tiene el valor predeterminado (0pt) dado que en la tabla de muestra no hay vacíos que se tendrían que rellenar.
•La propiedad Borde a buscar está configurada en Inicio, es decir que los objetos se dividirán en las ubicaciones donde empiezan.
•Por ensayo y error, hemos detectado el valor ideal de la propiedad Desplazar, que en este caso es -3pt. Debido a la configuración de este valor, las posiciones de división han subido un poco, lo que evita que los datos se truncarán.
•No se ha definido ninguna opción de post procesamiento.
Región de búsqueda
Como no hay líneas coherentes en las que la tabla podría dividirse en filas, utilizamos la Región de búsqueda para identificar posiciones de división fiables, que luego se aplicarán a toda la región. En la imagen siguiente se puede ver que la Región contiene todas las filas de la tabla (ver área en amarillo claro). La Región representa un área que pretendemos dividir en diferentes partes. Sin embargo, la Región de búsqueda (rectángulo amarillo brillante de abajo) sólo cubre la primera columna de la tabla, donde la detección de objetos funciona de forma más fiable que en otras partes de la tabla.

Si no se usa ninguna Región de búsqueda, el objeto División identificará las posiciones de división ilustradas a continuación, lo que llevará a resultados erróneos en la salida.
