Pourquoi Google indexe les livres

Sur books.google.fr ou books.google.com on peut rechercher dans le contenu d'un nombre incroyable de livres réels, des livres en papier qui ont été scannés (ou fournis sous forme PDF/postscript par les éditeurs).

La grande presse :)) en a fait grand écho en criant au big brother qui veut indexer le monde réel et à la domination américaine sur l'information. L'Europe a riposté en annonçant un grand programme de numérisation des livres culturels de la vieille Europe pour que ce patrimoine ne se retrouve surtout pas noyé sous la masse de littérature amerloque dont le web allait sans nul doute être prochainement innondé...

Ouais, bien...

Ce que personne ne dit, c'est que Google n'en a que faire de la domination culturelle américaine. Au contraire Google va même indexer un maximum de livres dans toutes les langues qu'il supporte (une centaine aujourd'hui / sur quelques 5000 dialectes parlés dans le monde).

Et pourquoi me direz vous? Pas seulement pour fournir plus de supports de pubs! Si Google indexe des livres réels et non plus seulement des pages web, c'est pour une raison première très précise: récolter un maximum d'information sur les modèles linguistiques!

En effet, les livres réel sont une quasi garantie de non-spam! On peut considérer que 99% des livres réels ont un contenu non orienté vers un objectif marketing ou commercial unique. On peut considérer que 99% des livres réels sont écrits dans un style destiné à transmettre de l'information.

En analysant les formes linguistiques utilisées dans ces livres, Google peut, petit à petit, améliorer la manière dont il valorise les contenus trouvés sur le web. En d'autres termes: séparer le bon grain de l'ivraie. Et de l'ivraie... il y en a des tonnes sur le web!

Parce que, rappelons le, le but de Google c'est de fournir des résultats de recherche pertinents. Si vous voulez injecter de la pub/spam à bon compte, il faut passer la caisse Google.

Dans ce monde, tout n'est pas politique comme on dit. Tout est, avant tout, commercial.

Le modèle Google

Si Google vaut aujourd'hui plusieurs centaines de milliards de dollars, c'est essentiellement pour sa capacité à vendre de la publicité ciblée par mots clefs (les "AdWords").

Il y a deux endroits où Google délivre cette publicité:

  • Au dessus et à côté des résultats de recherche Google
  • Sur les pages web des sites affiliés ("AdSense")

J'ai déjà parlé de AdSense et de la route vers le web 3.0, mais la publicité délivrée en même temps que les résultats de recherche reste sans doute la plus puissante des formes de marketing jamais inventée à ce jour. (Ironiquement, ce n'était certainement pas dans le plan de départ à la création de Google...)

L'incroyable efficacité de ce mode de marketing vient du fait qu'il n'y a besoin d'aucune technique plus où moins hasardeuse pour s'immiscer dans le flux d'attention du prospect. Le prospect est déjà en train de chercher quelque chose. Il ne reste plus qu'à lui servir la solution sur un plateau! En fonction des mots clefs qu'il à tapés, le système de Google est capale de lui proposer les offres de ses annonceurs les plus adaptées. Pour peu que ces annonceurs aient acheté les bons mots clefs pour les bonnes offres...

L'autre force du système, c'est la fameuse longue queue! Puisque les annonces ne s'affichent que pour des mots clefs définis, il est économiquement rentable de diffuser des annonces pour n'importe quel marché de niche!

Il y a trois cas au moins dans lesquels Google ne peut pas proposer une offre pertinente:

  • L'utilisateur n'a pas tapé des mots clefs suffisament précis
  • Les annonceurs n'ont pas acheté les mots clefs tapés par les utilisateurs pour une recherche donnée
  • L'utilisateur veut juste une information, il ne veut pas acheter...

Dans tous ces cas, l'utilisateur va cliquer sur un site dans les résultats de recherche, plutôt que sur une annonce Google AdWords. C'est là que le programme AdSense intervient!

Autour du contenu (parfois même dedans) que l'utilisateur va lire, encore de la pub ciblée. Cette fois-ci par rapport au contenu de la page et non plus par rapport aux mots clefs tapés lors de la recherche. Ceci élargit le champ du possible et provoque souvent l'affichage de nouvelles annonces... Avec un peu de chance, suffisament pertinentes pour que le prospect clique dessus, y compris s'il cherchait juste une information au départ...

Mac OS X Leopard: l'essentiel

Apple a dévoilé hier, lors de la keynote de la WWDC 06, un certain nombre de fonctionnalités de Léopard, la prochaine version de Mac OS X.

Apple en a profité pour railler Microsoft la prochaine version de Windows (Vista) traine depuis des années... et ressemble étrangement à Mac OS X sur bien des points. Il y a deux ans, Apple avait affiché des panneaux publicitaires dans le hall de la WWDC marqués "Redmond, péréparez vos photocopieuses" (Redmond c'est le siège de Microsoft pour ceux qui viennent de Mars). Là ils ont juste dit "On ne pensait pas qu'ils le feraient vraiment!" :>>

Apple a également présenté ses nouveaux serveurs double-Intel-Xeon-Core-2-duo-64-bits. (Respirez). En gros, il y a 4 coeurs 64 bits et ça va très vite. Cette fois-ci, c'est Dell qui en a pris pour son grade...

Mais l'essentiel concernait Léopard...

Beaucoup beaucoup de nouvelles fonctions plus ou moins gadget (à découvrir sur le site Apple) mais aussi quelques vraies innovations vraiment utiles. Voici l'essentiel à mon sens:

Max OS X Time Machine
Max OS X Time Machine

Time Machine: "la machine a remonter le temps". Il s'agit d'un utilitaire de backup intégré qui a la bonne idée de s'activer automatiquement ainsi que le bon goût de présenter une interface de restauration très graphique (voir copie d'écran) et conviviale. Elle permet par exemple de restaurer sélectivement un simple contact du carnet d'adresse. Il y a donc une API de backup dont toutes les applications peuvent éventuellement tirer parti.

Lire la suite »

Développeurs & Open Space: pas bon!

Joel Spolsky revient (c’est pas la première fois ;)) sur l’abbération que sont les open-spaces pour les développeurs.

Même si les open spaces peuvent être appropriés pour certains types de postes, ce n’est en aucun cas une bonne chose pour les programmeurs. A chaque fois que quelqu’un posera une question à un autre, il ne s’agira pas d’une discussion à deux, mais plutôt d’une déconcentration globale pour l’ensemble des développeurs présents dans la pièce.

Evidemment, l’avantage de déconcentrer tout le monde à chaque fois c’est que tout le monde sait ce qui se passe. Certes. Mais le code lui, il n’avance pas. Joel suggère d’autres méthodes pour garder tout le monde dans la boucle, comme le fait de déjeuner ensemble.

A noter, Joel précise également qu’il ne faut pas écouter les quelques développeurs qui disent préférer la convivialité d’un open space. Ils ne se rendent pas compte eux mêmes. Personnellement je ne sais pas quoi faire avec ces développeurs là. Les mettre d’office dans un bureau individuel n’est pas forcément la bonne solution. Car ils ont la capacité de s’auto-interrompre et de s’auto-déconcentrer à loisir: messagerie instantanée (MSN), email, SMS, téléphone…

J’en ferais presque une question pour entretiens d’embauche: “Vous préférez travailler dans un open space ou un bureau individuel?“. Mais j’ai un peu peur que certains soit à la fois trop et pas assez malins… et tiennent le raisonnement suivant “un open space c’est moins cher, je vais dire ‘open space’ même si j’aurais préféré un bureau individuel“.

Marc Simoncini annonce la bulle 2.0

Marc Simoncini, ce n'est pas n'importe qui. C'est le PDG de Meetic. Clairement un type qui a tout compris au "web 1.0", qui a survecu à l'éclatement de la bulle et qui affiche une santé insolente envers et contre tous les concepts du Web 2.0... auquel il ne croit visiblement pas du tout (à lire dans le Journal du Net):

"Les sites qui relèvent de ce fameux concept doivent inventer un modèle économique ad hoc. S'ils ne le trouvent pas, nous allons droit à la bulle 2.0. Ils ont abandonné toute idée de faire payer l'utilisateur. [...] Le problème est que ces sites - comme les sites perso - comptent uniquement sur les revenus des annonceurs. [...] ils vont créer un marché publicitaire de masse et le tirer vers le bas. [...] Un tri doit se faire entre les sites qui génèrent des revenus et ceux qui ne produisent que de l'audience."

Personnellement, je pense que bulle 2.0 il y aura (c'est dans la nature et l'histoire humaine) mais ce n'est pas pour autant que le modèle de financement par la publicité ne peut pas supporter une telle croissance.

En effet, avec l'évolution de systèmes tels que AdSense ou YPN, la publicité peut investir des marchés de niche -- ce qui était impossible auparavant -- et par là même, augmenter considérablement le nombre d'annonceurs... selon le principe désormais familier de la longue queue. J'oserais même appeler ça le web 3.0.

Maintenant, je suis qui moi, pour dire ça... face à Simoncini? :>>