Cómo extraer tablas de documentos PDF
Aprende a extraer tablas de PDFs y convertirlas en datos utilizables para hojas de cálculo. Cubrimos los problemas más comunes, los métodos manuales y cómo herramientas como unPDF agilizan el proceso.
5 min de lecturaCopias una tabla de un PDF a una hoja de cálculo y se convierte en basura. Las columnas se colapsan. Los números saltan de fila. El formato que veías en pantalla era mentira.
Esto pasa porque los PDFs se crearon para imprimir, no para trabajar con datos. Una tabla en un PDF no es realmente una tabla. Es texto y líneas colocados en coordenadas específicas para parecer una. No hay ninguna cuadrícula oculta debajo.
Por qué las tablas de PDF son difíciles de extraer
Un PDF almacena el contenido como instrucciones de dibujo. "Pon este carácter en (x, y). Dibuja una línea de aquí a allí." El archivo no tiene concepto de fila ni de columna. Solo sabe dónde están las cosas en la página.
Así que cualquier herramienta de extracción tiene que reconstruir la tabla desde cero. Lee las posiciones del texto, estima dónde empiezan y terminan las columnas e intenta agrupar todo en filas. Es un problema difícil, y empeora con documentos del mundo real.
Algunas cosas que causan fallos habitualmente:
- Los distintos PDFs usan espaciados muy diferentes entre columnas. Un espacio que te parece obvio puede ser ambiguo para el software.
- Las celdas combinadas rompen la lógica de cuadrícula. Una celda que abarca dos columnas desalinea todo lo que hay debajo.
- Las tablas largas que ocupan varias páginas pueden repetir encabezados o simplemente continuar con datos sin encabezado en la página siguiente. Ambas opciones son molestas por motivos distintos.
- Los PDFs escaneados son el peor caso. El texto tiene que pasar primero por OCR, lo que añade otra capa de errores potenciales antes de que la detección de tablas siquiera empiece.
El método manual
El método más simple es seleccionar, copiar y pegar en una hoja de cálculo. Para una tabla de dos columnas con diez filas, funciona. Para cualquier cosa más compleja, pasarás más tiempo arreglando el resultado del que te habría costado simplemente reescribirlo.
Reescribir a mano está infravalorado para tablas pequeñas. Es rápido y preciso si tienes cuidado. Simplemente no escala más allá de una docena de filas.
Usar una herramienta de extracción
Las herramientas dedicadas analizan el diseño visual de una página PDF, detectan regiones de tablas y reconstruyen los datos en filas y columnas que realmente puedes usar. Este es el enfoque que escala.
unPDF, por ejemplo, te permite subir un documento, describir lo que necesitas en lenguaje natural ("la tabla de ingresos en la página 3") y descargar el resultado como CSV o Excel. La parte de lenguaje natural ayuda cuando un documento tiene varias tablas y solo te interesa una.
Sin embargo, ninguna herramienta es perfecta. Los diseños complejos con encabezados anidados o tamaños de celda irregulares siguen haciendo fallar la extracción automática. Siempre revisa el resultado.
Consejos para obtener mejores resultados
Si puedes conseguir el archivo original que generó el PDF (el documento de Word, la hoja de Excel, el código LaTeX), olvídate de la extracción y usa ese archivo. Siempre será más limpio.
Cuando necesites extraer del propio PDF:
- Revisa el resultado, especialmente números y fechas. Un punto decimal mal puesto puede salir caro.
- Sé específico sobre qué tabla quieres. "La tabla de la página 5" es mejor que "todas las tablas." Obtienes menos errores y menos ruido.
- Los PDFs creados digitalmente se extraen mucho mejor que los escaneos o fotos. Si puedes elegir, trabaja siempre con la versión digital.
Después de la extracción
Obtener los datos en bruto suele ser el primer paso. Puede que aún necesites limpiarlos, combinarlos con otro conjunto de datos o cargarlos en una base de datos. CSV y Excel son buenos formatos intermedios porque casi cualquier herramienta puede importarlos.
La verdadera ganancia es pasar de "puedo ver estos datos pero no puedo tocarlos" a "los tengo en un formato que puedo consultar." Cuánto tiempo lleva eso depende del PDF. Algunos tardan segundos. Otros, una tarde de limpieza. Tener una buena herramienta simplemente cambia la proporción.