Le rôle du robot
Le robot d’exploration parcoure le web de jour en jour afin de récupérer le contenu des pages et de rafraichir le moteur de recherche. Lorsque votre site est indexé sur Google Search Console, ou que vous indiquez une demande d’exploration, alors Googlebot est en charge de parcourir votre page web.
Il y a 3 spécificités à connaître sur Googlebot :
- Il existe plusieurs versions du robot d’exploration de Google ( en fonction des appareils, du type de contenu… )
- L’exploration n’est pas immédiate ( mais peut être très rapide sur un site populaire )
- Vous pouvez analyser le parcours du robot d’exploration sur vos fichiers logs
Comprendre les versions de Googlebot
Il existe plusieurs versions de Googlebot dédiées à des tâches précises sur votre site web :
- Googlebot Smartphone : Télécharge votre page web sous la version mobile
- Googlebot Ordinateur : Télécharge votre page web sous la version ordinateur
- Googlebot Image : Télécharge vos images
- Googlebot Actualité : Télécharge vos actus
- Google Vidéo : Télécharge vos vidéos
- AdsBot : Vérifie la qualité de vos emplacements publicitaires
Chaque version de Google possède son propre jeton.
Comment bloquer l’exploration de Googlebot ?
Il existe plusieurs versions de Googlebot dédiées à des tâches précises sur votre site web :
- Googlebot Smartphone : Télécharge votre page web sous la version mobile
- Googlebot Ordinateur : Télécharge votre page web sous la version ordinateur
- Googlebot Image : Télécharge vos images
- Googlebot Actualité : Télécharge vos actus
- Google Vidéo : Télécharge vos vidéos
- AdsBot : Vérifie la qualité de vos emplacements publicitaires
Chaque version de Google possède son propre jeton.
Robots.txt
Robots.txt
Le fichier robots.txt permet de bloquer Googlebot. Pour cela, il suffit d’entrer le jeton user-agent adéquat à la version du robot.
Bloquer tous les crawler
Ce code permet d’interdire au robot d’exploration de crawler une URL ou une arborescence.
Cependant, l’étoile présente représente tous les user-agent, donc tous les jetons des moteurs de recherche ou de crawler.
Bloquer certains contenus
Pour apporter des réglages spécifiques à votre contenu, il est possible d’interdire un type de contenu (image, vidéo…). Il suffit simplement d’indiquer le bon jeton dans user-agent.
En indiquant ce code au robot d’exploration de Google Image, il ne prendra pas en compte les dossiers wp-admin et le dossier portfolio.
HTTP X-Robots-Tag
Vous pouvez également bloquer le robot d’exploration dans l’entête de votre page HTML.
Meta no-index
La balise meta noindex permet d’indiquer à un moteur de recherche de ne pas tenir compte d’une page dans le référencement d’un site web. Cependant, cette directive n’est pas forcément prise en compte par Google qui outrepasse parfois les règles.