Peut-on appliquer aux PDFs la Recherche indexée?Dans une première phase de construction de nos bibliothèques, seuls les fichiers PDFs que nous avons téléchargés sur JStor et autres portails de revues scientifiques en ligne, qui enchâssent une couche de texte dans leurs PDFs, sont indexés. Ce n'est malheureusement qu'une partie de nos bibliothèques numériques. Il existe au moins deux types de contenus possibles enchâssés dans un fichier PDF: du texte (full-text ou plain text) et des images. Seul le texte (embedded text layer) peut être exporté ou converti (extracted) dans d'autres formats de fichiers et donc indexé. Note that PDF fulltext indexing will not work with files that contain only images, though some image-based PDFs also include a hidden layer of searchable text. JSTOR and others are including an embedded text layer in their PDFs. De l'image de texte au texteUne partie des PDFs de nos bibliothèques numériques, qui ont été créés en scannant à la main des documents papier (des livres, des photocopies), ne contiennent initialement que des images de texte et non pas du texte. Ils ne peuvent donc pas être indexés. La seule solution possible, pour passer de l'image de texte au texte, c'est d'utiliser un OCR, un logiciel de reconnaissance de caractères. Dans l'état actuel de nos moyens techniques, c'est une tâche lourde et fastidieuse et nous ne pourrons rendre indexables ces PDFs que très progressivement en donnant la priorité aux textes les plus utiles. Nous utilisons Adobe Acrobat 9 ProfessionalLa fonction Reconnaissance de texte par OCR du logiciel Adobe Acrobat 9 Professional permet de décomposer l'image de texte puis de la recomposer comme du texte en la rendant exportable dans d'autres formats. Nous fabriquons ainsi des PDFs ayant la propriété d'être indexés, ce qui permet ensuite au moteur de recherche de Typo3, en utilisant les programmes Unix du paquet xpdf-utils, de lire ces PDFs et de les intégrer au corpus analysable par la Recherche indexée.
|
