Googlebot : Comprendre le robot d’exploration

Publié le

Googlebot est le robot d’exploration de Google dédié à parcourir les pages web afin d’en récupérer les données. Il fait partie des robots « crawler », parfois appelé « spider », qui ont pour but d’explorer via un processus de crawling. Il permet au moteur de recherche de télécharger le contenu des pages d’un site web afin de le fournir aux algorithmes qui évalueront la pertinence du contenu avant son indexation.

RSS
Facebook
Facebook
fb-share-icon
Twitter
Tweet
Pinterest
Pinterest
fb-share-icon
LinkedIn
LinkedIn
Share
Googlebot

Vous souhaitez en savoir plus sur son intérêt ? Sur cet article, vous trouverez tout ce qu'il vous faut !

Si votre site web est sur Google, alors Googlebot est passé par là...

Robot d'exploration

Le rôle du robot

Le robot d’exploration parcoure le web de jour en jour afin de récupérer le contenu des pages et de rafraichir le moteur de recherche. Lorsque votre site est indexé sur Google Search Console, ou que vous indiquez une demande d’exploration, alors Googlebot est en charge de parcourir votre page web.

Exploration par Googlebot

Il y a 3 spécificités à connaître sur Googlebot :

  • Il existe plusieurs versions du robot d’exploration de Google ( en fonction des appareils, du type de contenu… )
  • L’exploration n’est pas immédiate ( mais peut être très rapide sur un site populaire )
  • Vous pouvez analyser le parcours du robot d’exploration sur vos fichiers logs

Comprendre les versions de Googlebot

Il existe plusieurs versions de Googlebot dédiées à des tâches précises sur votre site web :

  • Googlebot Smartphone : Télécharge votre page web sous la version mobile
  • Googlebot Ordinateur : Télécharge votre page web sous la version ordinateur
  • Googlebot Image : Télécharge vos images
  • Googlebot Actualité : Télécharge vos actus
  • Google Vidéo : Télécharge vos vidéos
  • AdsBot : Vérifie la qualité de vos emplacements publicitaires

Chaque version de Google a possède son propre jeton.

Comment bloquer l’exploration de Googlebot ?

Bloquer l'exploration d'une page
Bloquer l'exploration d'une page

Robots.txt

Le fichier robots.txt permet de bloquer Googlebot. Pour cela, il suffit d’entrer le jeton user-agent adéquat à la version du robot.

Bloquer tous les crawler

Par exemple, si je souhaite que tous les moteurs de recherche ne puissent pas accéder à ma page, j’indiquerai : Disallow : /arborescence/nom-de-la-page/
Ce code permet d’interdire au robot d’exploration de crawler une URL ou une arborescence.

Bloquer tous les robots d'exploration
Bloquer tous les robots d'exploration

Cependant, l’étoile présente représente tous les user-agent, donc tous les jetons des moteurs de recherche ou de crawler.

Bloquer certains contenus

Pour apporter des réglages spécifiques à votre contenu, il est possible d’interdire un type de contenu (image, vidéo…). Il suffit simplement d’indiquer le bon jeton dans user-agent.

Bloquer le contenu d'une page ou d'une arborescence

En indiquant ce code au robot d’exploration de Google Image, il ne prendra pas en compte les dossiers wp-admin et le dossier portfolio.

HTTP X-Robots-Tag

Vous pouvez également bloquer le robot d’exploration dans l’entête de votre page HTML.

X-Robots-tag
X-Robots-tag

Meta no-index

Balise meta noindex
Balise meta noindex

<meta name="robots" content="noindex">

La balise meta noindex permet d’indiquer à un moteur de recherche de ne pas tenir compte d’une page dans le référencement d’un site web. Cependant, cette directive n’est pas forcément prise en compte par Google qui outrepasse parfois les règles.

Auteur
Benabdelhak Kevin
Graphiste Freelance disponible 7j/7

En tant que passionné du webdesign, du graphisme et du référencement naturel, je partage des informations et vous propose des solutions pertinentes pour votre communication.

Icône de Facebook Icône de Pinterest Icône de Behance Icône de Dribble Icône de LinkedIn
K-Graphiste

GRATUIT
VOIR