DERNIERE MINUTE

DERNIERE MINUTE

Numériser le passé

Vous lisez:

Numériser le passé

Taille du texte Aa Aa

Hildelies Balk est la directrice d’IMPACT Project, un projet qui se penche sur le passé : “le problème quand on transforme un document historique en quelque chose de lisible c’est que c’est très ancien et tout est différent, les caractères sont anciens, on a des mots anciens et une mise en page très difficile à déchiffrer”.

Chaque année des millions de livres sont scannés et mis en ligne. Et beaucoup d’entre eux sont truffés de fautes et d’erreurs tout simplement parce que les ordinateurs n’arrivent pas à décoder ces anciens textes.

Clemens Neudecker est directeur technique des projets européens à la Koninklijke Bibliotheek :

“Voici le Principia Mathematica d’Isaac Newton. On peut voir par transparence l’encre du texte qui se trouve de l’autre côté de la page. On peut voir aussi que le papier est ondulé. Autre spécificité ce long S qui peut facilement être confondu avec un F.”

Les chercheurs de la bibliothèque nationale des Pays-Bas ont passé quatre ans dans un projet européen pour améliorer les outils informatiques pour lire les vieux livres.

Hildelies Balk : “Nous avons perfectionné les logiciels pour améliorer les images, avec des reconnaissances optiques de lettres, des post-corrections de documents et des technologies de langues pour rendre ces livres plus accessibles”.

Ce savoir faire a déjà été intégré dans le logiciel leader sur le marché de numérisation et les résultats en sont bien améliorés.

Clemens Neudecker : “nous avons ici un exemple d’une image qui est en cours de traitement, elle est redressée. Ensuite on ajuste les marges. L‘étape suivante consistera à la transformer en une image en noir et blanc afin d’améliorer le contraste. A la fin du traitement, l’utilisateur dispose d’un texte entièrement reconnu avec les caractéristiques particulières du texte comme par exemple les paragraphes ou les titres”

Le projet revendique une amélioration évaluée à 15% de l’exactitude des textes numérisés, des textes du coup plus accessibles.

Hildelies Balk : “Un texte qui n’a pas été entièrement numérisé est virtuellement invisible. Nous allons tous sur des moteurs de recherche pour chercher un mot et si nous ne le trouvons pas alors cela veut dire qu’il n’y est pas”.

http://www.digitisation.eu/