Come estrarre tabelle da documenti PDF
Scopri come estrarre tabelle dai PDF e convertirle in dati utilizzabili per i fogli di calcolo. Affrontiamo le sfide comuni, gli approcci manuali e come strumenti come unPDF rendono il processo piu veloce.
5 min di letturaCopi una tabella da un PDF in un foglio di calcolo e si trasforma in spazzatura. Le colonne collassano. I numeri saltano di riga. La formattazione che vedevi a schermo era una bugia.
Questo succede perché i PDF sono stati creati per la stampa, non per i dati. Una tabella in un PDF non è davvero una tabella. È testo e linee posizionati a coordinate specifiche per sembrare tale. Non c'è nessuna griglia nascosta sotto.
Perché le tabelle PDF sono difficili da estrarre
Un PDF memorizza il contenuto come istruzioni di disegno. "Metti questo carattere a (x, y). Traccia una linea da qui a lì." Il file non ha il concetto di riga o colonna. Sa solo dove si trovano gli elementi sulla pagina.
Quindi qualsiasi strumento di estrazione deve ricostruire la tabella da zero. Legge le posizioni del testo, indovina dove iniziano e finiscono le colonne, e cerca di raggruppare gli elementi in righe. È un problema difficile, e peggiora con i documenti del mondo reale.
Alcune cose che causano regolarmente problemi:
- PDF diversi usano spaziature tra le colonne completamente diverse. Un divario che per te è evidente può essere ambiguo per il software.
- Le celle unite rompono l'assunto della griglia. Una cella che si estende su due colonne sfasa l'allineamento di tutto ciò che sta sotto.
- Le tabelle lunghe che si estendono su più pagine possono ripetere le intestazioni, o semplicemente interrompersi e continuare con dati senza intestazione nella pagina successiva. Entrambi i casi sono fastidiosi in modi diversi.
- I PDF scansionati sono il caso peggiore. Il testo deve prima passare attraverso l'OCR, il che aggiunge un ulteriore livello di potenziali errori prima ancora che inizi il rilevamento della tabella.
L'approccio manuale
Il metodo più semplice è selezionare, copiare, incollare in un foglio di calcolo. Per una tabella a due colonne con dieci righe, funziona. Per qualsiasi cosa più complessa, passerai più tempo a sistemare l'output di quanto ne impiegheresti a riscrivere tutto.
Riscrivere a mano è in realtà sottovalutato per le tabelle piccole. È veloce e preciso se stai attento. Semplicemente non scala oltre una dozzina di righe circa.
Usare uno strumento di estrazione
Gli strumenti dedicati analizzano il layout visivo di una pagina PDF, rilevano le aree con tabelle e ricostruiscono i dati in righe e colonne che puoi effettivamente utilizzare. Questo è l'approccio che scala.
unPDF, ad esempio, ti permette di caricare un documento, descrivere ciò che ti serve in linguaggio naturale ("la tabella del fatturato a pagina 3") e scaricare il risultato come CSV o Excel. La parte in linguaggio naturale aiuta quando un documento ha più tabelle e te ne interessa solo una.
Nessuno strumento è perfetto, però. Layout complessi con intestazioni annidate o dimensioni di cella irregolari mettono ancora in difficoltà l'estrazione automatizzata. Controlla sempre l'output.
Consigli per risultati migliori
Se riesci a ottenere il file originale che ha generato il PDF (il documento Word, il foglio Excel, il sorgente LaTeX), salta del tutto l'estrazione e usa quello. Sarà sempre più pulito.
Quando devi estrarre dal PDF stesso:
- Controlla l'output, specialmente numeri e date. Un punto decimale fuori posto può costare caro.
- Sii specifico su quale tabella vuoi. "La tabella a pagina 5" è meglio di "tutte le tabelle." Ottieni meno errori e meno rumore.
- I PDF creati digitalmente si estraggono molto meglio delle scansioni o delle foto. Se hai scelta, lavora sempre con la versione digitale.
Dopo l'estrazione
Ottenere i dati grezzi è di solito il primo passo. Potresti ancora aver bisogno di pulirli, unirli con un altro dataset o caricarli in un database. CSV ed Excel sono buoni formati intermedi perché praticamente qualsiasi software può importarli.
Il vero vantaggio è passare da "posso vedere questi dati ma non posso toccarli" a "li ho in un formato che posso interrogare." Quanto tempo ci vuole dipende dal PDF. Alcuni richiedono pochi secondi. Altri un intero pomeriggio di pulizia. Avere uno strumento decente semplicemente sposta il rapporto.