Sur books.google.fr ou books.google.com on peut rechercher dans le contenu d’un nombre incroyable de livres réels, des livres en papier qui ont été scannés (ou fournis sous forme PDF/postscript par les éditeurs).

La grande presse :)) en a fait grand écho en criant au big brother qui veut indexer le monde réel et à la domination américaine sur l’information. L’Europe a riposté en annonçant un grand programme de numérisation des livres culturels de la vieille Europe pour que ce patrimoine ne se retrouve surtout pas noyé sous la masse de littérature amerloque dont le web allait sans nul doute être prochainement innondé…

Ouais, bien…

Ce que personne ne dit, c’est que Google n’en a que faire de la domination culturelle américaine. Au contraire Google va même indexer un maximum de livres dans toutes les langues qu’il supporte (une centaine aujourd’hui / sur quelques 5000 dialectes parlés dans le monde).

Et pourquoi me direz vous? Pas seulement pour fournir plus de supports de pubs! Si Google indexe des livres réels et non plus seulement des pages web, c’est pour une raison première très précise: récolter un maximum d’information sur les modèles linguistiques!

En effet, les livres réel sont une quasi garantie de non-spam! On peut considérer que 99% des livres réels ont un contenu non orienté vers un objectif marketing ou commercial unique. On peut considérer que 99% des livres réels sont écrits dans un style destiné à transmettre de l’information.

En analysant les formes linguistiques utilisées dans ces livres, Google peut, petit à petit, améliorer la manière dont il valorise les contenus trouvés sur le web. En d’autres termes: séparer le bon grain de l’ivraie. Et de l’ivraie… il y en a des tonnes sur le web!

Parce que, rappelons le, le but de Google c’est de fournir des résultats de recherche pertinents. Si vous voulez injecter de la pub/spam à bon compte, il faut passer la caisse Google.

Dans ce monde, tout n’est pas politique comme on dit. Tout est, avant tout, commercial.


Comments from long ago:

Comment from: Cédric

Est-ce une intuition, une supposition étayée par ton expérience, ou une info obtenue?

2006-10-03 18-29

Comment from: François Planque

C’est mon avis sur la question. Fondé sur l’observation de ce que fait Google depuis plusieurs années…

2006-10-03 18-48

Comment from: david holz

C’est extremement intéressant. google travaille en effet sur l’intelligence artificielle afin d’essayé de mettre en algorithme les langues, même si à mon avis ils en sont assez loin.

2007-03-01 05-28