Graphiste » Blog » Googlebot

Googlebot : Comprendre le robot d’exploration

Googlebot est le robot d’exploration de Google dédié à parcourir les pages web afin d’en récupérer les données. Il fait partie des robots « crawler », parfois appelé « spider », qui ont pour but d’explorer via un processus de crawling. Il permet au moteur de recherche de télécharger le contenu des pages d’un site web afin de le fournir aux algorithmes qui évalueront la pertinence du contenu avant son indexation.

Googlebot
Robot d'exploration

Si votre site web est sur Google, alors Googlebot est passé par là...

Le rôle du robot

Le robot d’exploration parcoure le web de jour en jour afin de récupérer le contenu des pages et de rafraichir le moteur de recherche. Lorsque votre site est indexé sur Google Search Console, ou que vous indiquez une demande d’exploration, alors Googlebot est en charge de parcourir votre page web.

Exploration par Googlebot

Il y a 3 spécificités à connaître sur Googlebot :

  • Il existe plusieurs versions du robot d’exploration de Google ( en fonction des appareils, du type de contenu… )
  • L’exploration n’est pas immédiate ( mais peut être très rapide sur un site populaire )
  • Vous pouvez analyser le parcours du robot d’exploration sur vos fichiers logs

Comprendre les versions de Googlebot

Il existe plusieurs versions de Googlebot dédiées à des tâches précises sur votre site web :

  • Googlebot Smartphone : Télécharge votre page web sous la version mobile
  • Googlebot Ordinateur : Télécharge votre page web sous la version ordinateur
  • Googlebot Image : Télécharge vos images
  • Googlebot Actualité : Télécharge vos actus
  • Google Vidéo : Télécharge vos vidéos
  • AdsBot : Vérifie la qualité de vos emplacements publicitaires

 

Chaque version de Google a possède son propre jeton.

Comment bloquer l’exploration de Googlebot ?

Bloquer l'exploration d'une page
Bloquer l'exploration d'une page

Robots.txt

Le fichier robots.txt permet de bloquer Googlebot. Pour cela, il suffit d’entrer le jeton user-agent adéquat à la version du robot.

Bloquer tous les crawler

Par exemple, si je souhaite que tous les moteurs de recherche ne puissent pas accéder à ma page, j’indiquerai : Disallow : /arborescence/nom-de-la-page/

Ce code permet d’interdire au robot d’exploration de crawler une URL ou une arborescence.

Bloquer tous les robots d'exploration
Bloquer tous les robots d'exploration

Cependant, l’étoile présente représente tous les user-agent, donc tous les jetons des moteurs de recherche ou de crawler.

Bloquer certains contenus

Pour apporter des réglages spécifiques à votre contenu, il est possible d’interdire un type de contenu (image, vidéo…). Il suffit simplement d’indiquer le bon jeton dans user-agent.

Bloquer le contenu d'une page ou d'une arborescence

En indiquant ce code au robot d’exploration de Google Image, il ne prendra pas en compte les dossiers wp-admin et le dossier portfolio.

HTTP X-Robots-Tag

Vous pouvez également bloquer le robot d’exploration dans l’entête de votre page HTML.

X-Robots-tag
X-Robots-tag

Meta no-index

Balise meta noindex
Balise meta noindex

<meta name="robots" content="noindex">

 

La balise meta noindex permet d’indiquer à un moteur de recherche de ne pas tenir compte d’une page dans le référencement d’un site web. Cependant, cette directive n’est pas forcément prise en compte par Google qui outrepasse parfois les règles.

D'autres articles qui pourraient vous intéresser

Auteur de l'article

BENABDELHAK Kevin

Photo - BENABDELHAK Kevin

Spécialisé en communication visuelle pour les entreprises et passionné par l'univers du digital, j'aide chaque jour des entrepreneurs à développer une image de marque toujours plus forte. Faites-moi confiance pour la réalisation de votre identité visuelle et de vos supports de communication !

offre

Vous souhaitez vous différencier ?

Vous êtes un entrepreneur ambitieux et vous souhaitez vous démarquer de vos concurrents ? Je m'occupe personnellement de la création de votre image de marque et de votre site internet professionnel.

 

Vous voulez en savoir plus ?

mail

Vous avez une question ?

    Vous cherchez une information spécifique ?

    Generic selectors
    Exact matches only
    Search in title
    Search in content