/>

Google Books : tout le monde y participe (sans le savoir)

Rédigé par Notre équipe le 13 juillet 2010.

Zola, Balzac, Voltaire… tous ont dû frémir dans leur tombe le 16 septembre 2009. Ce jour-là, un pas de géant a été accompli dans le domaine de la numérisation des livres :  Google a officialisé le rachat de reCAPTCHA. Cette entreprise a développé une technologie qui permet aux internautes d’aider, parfois même sans le savoir, les robots qui numérisent les documents.


Comment ? Vous savez ces petits mots à l’allure bizarre, souvent tordus ou barrés, qui apparaissent au bas de certaines pages web et qu’il faut écrire correctement pour s’inscrire ou accéder à une autre section ? Eh bien, ils ne sont pas là que pour assurer la sécurité des sites. Ils ont une autre utilité : celle de recourir aux habiletés des internautes pour transcrire des livres.


C’est un étudiant originaire du Guatemala, Luis von Ahn, qui est à l’origine de cette invention. En 2000, à l’âge de 21 ans, il crée en compagnie d’autres chercheurs de l’Université Carnegie Mellon de Pittsburgh un test informatique appelé captcha (Completely Automated Public Turing test to tell Computers and Humans Apart).

Ce système bloque les robots spammeurs en demandant à l’utilisateur de déchiffrer un amalgame de caractères légèrement déformés, par exemple avant de conclure une transaction sur une billetterie en ligne.



Mais von Ahn cherche à rendre son invention plus utile. En effet, il observe qu’à raison de 10 secondes pour résoudre un captcha, les 200 millions de codes résolus quotidiennement sur la Toile font perdre plus de 500 000 heures à l’humanité. Chaque jour ! Par comparaison, l’espérance de vie d’un homme Canadien est estimée à 78 ans, soit 680 000 heures…

Comment améliorer le captcha ?


Von Ahn porte son attention sur les archives de livres. Dans le monde, de nombreuses entreprises travaillent à numériser les ouvrages qui ont été publiés avant l’ère informatique. Pour ce faire, les pages sont photographiées puis transformées en texte par une pratique appelée reconnaissance optique de caractères (ROC). Le contenu des livres devient ainsi accessible à la recherche sur l’Internet.


Mais cette méthode n’est pas parfaite. Il arrive que dans des documents, l’encre et le papier se soient dégradés avec le temps, ce qui rend la lecture de certains termes impossible pour les robots scanneurs. C’est à ce moment que von Ahn intervient. Là où les robots ont échoué, il fait appel au savoir des humains en leur demandant de déchiffrer sur le Web ces mots illisibles par les machines.



Ainsi naît le recaptcha, en 2007. Les codes sont alors remplacés par deux mots piochés de façon aléatoire dans une banque d’archives de journaux et de livres anciens appartenant au domaine public. De ces deux termes, l’un a été reconnu par les robots – on l’appelle « mot de contrôle » -, l’autre non. La suite est simple : le système part du principe que si les utilisateurs parviennent à réécrire le mot témoin correctement, ils deviennent « crédibles » pour déchiffrer le suivant. Une fois qu’un certain nombre de personnes a trouvé le terme recherché, ce dernier devient lui-même un mot de contrôle, et les robots l’apprennent.


Aujourd’hui, plus de 120 000 sites utilisent cette méthode, dont Facebook et Twitter. Von Ahn estime que 10 % de la population mondiale y a participé : ces internautes auraient identifié environ 65 millions de mots par jour et aidé à la numérisation de quatre millions de livres. Selon ce petit génie, il aurait fallu le travail de 20 000 employés à temps plein pour effectuer la même tâche.


Le test recaptcha est du pain béni pour les dirigeants de Google, qui y voient une superbe occasion de bonifier leur service Google Livres, une bibliothèque virtuelle de plus de 12 millions d’ouvrages. Avec l’acquisition de cette technologie, l’entreprise trouve enfin le moyen d’améliorer sa banque très critiquée. En effet, la méthode jusque-là employée n’incluait aucun travail d’édition après la ROC, ce qui aboutissait souvent à des phrases dénuées de sens générées par des robots incapables de déchiffrer certains mots.


Pour la multinationale établie à Mountain View, cet investissement est aussi un régal commercial. Une fois numérisés, les livres deviennent accessibles… sur son moteur de recherche ! Un avantage concurrentiel non négligeable.


Grâce à des accords avec les universités américaines de Stanford et Harvard ainsi qu’avec 40 institutions – dont les bibliothèques nationales d’Autriche, de Rome et de Florence – Google Livres constituera bientôt une source inestimable du savoir humain.


Le New York Times a également chargé reCAPTCHA en 2009 de numériser ses 150 ans d’archives – le célèbre journal a été fondé en 1851 -, chose que von Ahn et son équipe de l’Université Carnegie Mellon devrait avoir terminée avant la fin de l’année.


Le prochain projet de von Ahn ? La traduction d’articles en différentes langues. Monolingo, un site qui sera lancé prochainement, propose de prendre le relais d’outils en ligne encore perfectibles. Là où les adaptations littérales échouent souvent, il va demander aux internautes d’indiquer le sens correct de phrases et de mots, ce qui aidera à retranscrire des articles entiers en plusieurs langues. Son slogan ? « Apprenez une langue, traduisez le Web. ». Tout un défi !


Source

Laisser un commentaire