Google indexe les documents scannés

Un nouveau pas dans le processus d’indexation du web par Google : l’indexation des documents scannés, c’est à dire des documents qui ne sont pas rédigés pour le web, a priori non lisible par les robots des moteurs de recherche.

Cette nouvelle est sortie hier sur l‘Official Google Blog qui explique que jusqu’à présent des milliers de documents scannés n’étaient pas pris en compte car Google n’était pas assuré du contenu.
Désormais, l’OCR de Google réussit à créer une image de mille caractères, ce qui est suffisant pour interpréter correctement le contenu.

Les pdf sont indexés depuis déjà un moment par Google, j’en avais parlé dans un article expliquant comment optimiser les fichiers pdf pour le référencement. Mais jusqu’à présent nous n’avions dans les résultats de recherche que le titre du document, celui que le créateur indiquait au moment de sa création ou que Google réussissait à extraire.
Désormais Google propose également un petit  » snippet » comme pour une page html, une petite description qu’il va chercher au coeur du document, peu aléatoirement cependant, au vu des  exemples qui nous sont donnés en bas de l’article sur le blog Google :

repairing aluminum wiring

Mumps and Severe Neutropenia

spin lock performance

Steady success in a volatile world

Les documents pdf sont tous relativement anciens et ne comportent aucun descriptif, Google a donc extrait lui-même les snippets qu’il nous livre, à partir du texte « image ». Lorsque cette image nous délivre elle même une description, comme pour  » Mumps and Severe Neutropenia », le robot a été capable de l’extraire pour nous la restituer.

Je ne sais pas ce que vous en penser, mais pour moi c’est un exploit. Un risque néanmoins d’avoir des snippets non pertinents et donc une raison de plus de bien soigner vos fichiers pdf pour le référencement.

[ad#dievochka]

Cette entrée a été publiée dans Google, avec comme mot(s)-clef(s) , , , , , . Vous pouvez la mettre en favoris avec ce permalien.

4 réponses à Google indexe les documents scannés

  1. Gwaradenn dit :

    J’en avais parlé avec Sylvain lors d’un barcamp, d’après lui c’était possible, mais cela nécessité énormément de ressource.
    J’ai déjà essayé de faire lire Google (ex: http://www.gnomecorp.fr/test-seo/lecture-image.html ), en vain.
    Ici c’est du pdf, c’est encore différent, même si Google progresse comme les bots spammeurs qui lisent les captchas.

  2. Julien dit :

    Une annonce intéressante effectivement. Je ne sais pas si l’on doit se réjouir ou si l’on doit s’en méfier.

    Toujours est il qu’un nouveau pas est franchi, à suivre…

  3. Dievochka dit :

    @Julien -
    j’ai au moins l’exemple sur un document pdf mis sur scribd et repris sur un site qu’on a maintenant dans le snipets une adresse et un n° de tel perso… il faut donc éviter de mettre n’importe quoi en ligne.
    Pour l’avenir, on est prévenu, mais pour ce qui est déjà indexé.. que faire ? où demander des modifs ??

  4. Poursan dit :

    Oui, un jour Google sera potentiellement capable d’indexer tous type de contenu en ligne.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>