Comment extraire des tableaux de documents PDF
Apprenez à extraire des tableaux de PDF et à les convertir en données exploitables dans un tableur. Nous abordons les défis courants, les approches manuelles, et comment des outils comme unPDF accélèrent le processus.
5 min de lectureVous copiez un tableau d'un PDF dans un tableur et ça se transforme en n'importe quoi. Les colonnes s'effondrent. Les chiffres sautent de ligne. La mise en forme que vous voyiez à l'écran était un mensonge.
Cela arrive parce que les PDF ont été conçus pour l'impression, pas pour les données. Un tableau dans un PDF n'est pas vraiment un tableau. C'est du texte et des lignes placés à des coordonnées précises pour en donner l'apparence. Il n'y a aucune grille cachée en dessous.
Pourquoi les tableaux PDF sont difficiles à extraire
Un PDF stocke le contenu sous forme d'instructions de dessin. "Placer ce caractère en (x, y). Tracer une ligne d'ici à là." Le fichier n'a aucune notion de ligne ou de colonne. Il sait juste où se trouvent les éléments sur la page.
Tout outil d'extraction doit donc reconstruire le tableau à partir de zéro. Il lit les positions du texte, devine où les colonnes commencent et finissent, et essaie de regrouper les éléments en lignes. C'est un problème complexe, et il empire avec les documents du monde réel.
Quelques situations qui provoquent régulièrement des échecs :
- Les différents PDF utilisent des espacements très variés entre les colonnes. Un espace qui vous paraît évident peut être ambigu pour un logiciel.
- Les cellules fusionnées cassent l'hypothèse de grille. Une cellule qui s'étend sur deux colonnes décale l'alignement de tout ce qui se trouve en dessous.
- Les longs tableaux qui s'étendent sur plusieurs pages peuvent répéter les en-têtes, ou simplement s'arrêter et continuer avec des données brutes sur la page suivante. Les deux cas sont pénibles, chacun à sa manière.
- Les PDF numérisés sont le pire des cas. Le texte doit d'abord passer par l'OCR, ce qui ajoute une couche supplémentaire d'erreurs potentielles avant même que la détection de tableau ne commence.
L'approche manuelle
La méthode la plus simple : sélectionner, copier, coller dans un tableur. Pour un tableau de deux colonnes et dix lignes, ça fonctionne. Pour tout ce qui est plus complexe, vous passerez plus de temps à corriger le résultat qu'il n'en faudrait pour tout ressaisir.
La ressaisie est d'ailleurs sous-estimée pour les petits tableaux. C'est rapide et précis si on fait attention. Ça ne passe tout simplement pas à l'échelle au-delà d'une douzaine de lignes.
Utiliser un outil d'extraction
Les outils dédiés analysent la mise en page visuelle d'une page PDF, détectent les zones de tableaux et reconstruisent les données en lignes et colonnes réellement exploitables. C'est l'approche qui passe à l'échelle.
unPDF, par exemple, vous permet de télécharger un document, de décrire ce dont vous avez besoin en langage courant ("le tableau du chiffre d'affaires en page 3"), et de télécharger le résultat en CSV ou Excel. La description en langage naturel est utile quand un document contient plusieurs tableaux et qu'un seul vous intéresse.
Aucun outil n'est parfait, cependant. Les mises en page complexes avec des en-têtes imbriqués ou des tailles de cellules irrégulières font encore trébucher l'extraction automatisée. Vérifiez toujours le résultat.
Conseils pour de meilleurs résultats
Si vous pouvez obtenir le fichier d'origine qui a généré le PDF (le document Word, la feuille Excel, le source LaTeX), ne faites pas d'extraction et utilisez directement ce fichier. Ce sera toujours plus propre.
Quand vous devez extraire depuis le PDF lui-même :
- Vérifiez le résultat, surtout les chiffres et les dates. Une virgule mal placée peut coûter cher.
- Soyez précis sur le tableau que vous voulez. "Le tableau en page 5" est mieux que "tous les tableaux". Vous obtiendrez moins d'erreurs et moins de bruit.
- Les PDF créés numériquement s'extraient bien mieux que les scans ou les photos. Si vous avez le choix, travaillez toujours avec la version numérique.
Après l'extraction
Récupérer les données brutes, c'est généralement la première étape. Il vous faudra peut-être encore les nettoyer, les fusionner avec un autre jeu de données, ou les charger dans une base de données. Le CSV et l'Excel sont de bons formats intermédiaires parce que presque tout peut les importer.
Le vrai gain, c'est de passer de "je vois ces données mais je ne peux pas y toucher" à "je les ai dans un format que je peux interroger". Le temps que ça prend dépend du PDF. Certains prennent quelques secondes. D'autres nécessitent un après-midi de nettoyage. Avoir un bon outil ne fait que déplacer le curseur.