Gestion de l’information: perspectives d’évolution

La dématérialisation intelligente de documents est l’un des enjeux actuels de la révolution de l’information en marche. Pourquoi ?

2datalibrary.jpg

« Dématérialisation » : le concept n’étonne plus et apparaît désormais comme un acquis naturel issu des limbes de l’informatique et de l’Internet… Mais la conjonction de son ancienneté et du fait qu’on l’évoque encore ne signifie qu’une chose : la dématérialisation est au cœur de la révolution de l’information en marche depuis les débuts de l’informatique. Et si beaucoup a déjà été fait, il reste encore beaucoup à faire…

Quel est l’intérêt de la dématérialisation d’un document, c’est-à-dire de sa numérisation ? D’abord, éviter un phénomène d’encombrement ou de dispersion : grâce à la miniaturisation, 1 000 documents numérisés prennent, par exemple, moins d’espace et ont moins de chance d’être égarés que 1 000 documents papier. Mais c’est ensuite et surtout identifier, extraire et indexer toutes les données contenues dans un même document, classer les documents à l’intérieur de l’immense base des données numériques, et permettre ainsi des recherches efficaces et pertinentes.

Dématérialisation intelligente

Prenons l’exemple de la photographie de la page d’un livre illustré. L’opération de notre cerveau qui consiste à séparer le texte de l’image, puis à identifier les lettres et les mots dans le texte d’une part, les différents éléments de l’image d’autre part, est devenue, pour la majorité d’entre nous, une opération naturelle. Mais cette opération à la base du développement de l’intelligence, qui est en apparence simple, révèle sa complexité lorsqu’il s’agit de la faire exécuter automatiquement par un ordinateur.

La dématérialisation intelligente de documents est un enjeu crucial, qui permettrait un gain d’espace et de temps important : la numérisation automatique d’un livre permettrait par exemple d’éviter le travail fastidieux de recopiage, déjà pourtant considérablement amélioré depuis l’époque des moines copistes par l’invention de Gutenberg, celle de la machine à écrire, puis du clavier numérique ; elle permettrait d’automatiser le travail d’indexation des textes et des images, et donc de faciliter l’archivage et la construction des bibliothèques numériques ainsi que l’analyse des données…

Des projets en développement

2archivage.jpg

Les entreprises intéressées par de tels développements sont pléthore : de Google et sa bibliothèque numérique universelle à des agences de presse comme l’Agence France Presse (AFP), ayant des besoins en archivage et en indexation importants, en passant par les entreprises et institutions du secteur de la défense, rencontrant des besoins en reconnaissance de forme et en extraction de données .

Un certain nombre de projets sont actuellement à l’étude, qui permettraient de résoudre en partie ces problématiques.Parmi ces projets, le projet Scribo, auquel prend part le laboratoire de recherche et développement de l’EPITA (LRDE)… « Scribo vise à fournir des outils libres pour l’annotation semi-automatique et collaborative de documents numériques. L’approche est fondée sur l’extraction de connaissances à partir de textes et d’images. », explique Guillaume Lazzara, ingénieur de recherche qui travaille sur le projet.

Pour en savoir plus à propos de Scribo, lire l’interview de Guillaume Lazzara sur le sujet (à suivre)