Googlebot : Comprendre le robot d’exploration
Publié leGooglebot est le robot d’exploration de Google dédié à parcourir les pages web afin d’en récupérer les données. Il fait partie des robots « crawler », parfois appelé « spider », qui ont pour but d’explorer via un processus de crawling. Il permet au moteur de recherche de télécharger le contenu des pages d’un site web afin de le fournir aux algorithmes qui évalueront la pertinence du contenu avant son indexation.
Vous souhaitez en savoir plus sur son intérêt ? Sur cet article, vous trouverez tout ce qu'il vous faut !
Si votre site web est sur Google, alors Googlebot est passé par là...
Le rôle du robot
Le robot d’exploration parcoure le web de jour en jour afin de récupérer le contenu des pages et de rafraichir le moteur de recherche. Lorsque votre site est indexé sur Google Search Console, ou que vous indiquez une demande d’exploration, alors Googlebot est en charge de parcourir votre page web.
Il y a 3 spécificités à connaître sur Googlebot :
- Il existe plusieurs versions du robot d’exploration de Google ( en fonction des appareils, du type de contenu… )
- L’exploration n’est pas immédiate ( mais peut être très rapide sur un site populaire )
- Vous pouvez analyser le parcours du robot d’exploration sur vos fichiers logs
Comprendre les versions de Googlebot
Il existe plusieurs versions de Googlebot dédiées à des tâches précises sur votre site web :
- Googlebot Smartphone : Télécharge votre page web sous la version mobile
- Googlebot Ordinateur : Télécharge votre page web sous la version ordinateur
- Googlebot Image : Télécharge vos images
- Googlebot Actualité : Télécharge vos actus
- Google Vidéo : Télécharge vos vidéos
- AdsBot : Vérifie la qualité de vos emplacements publicitaires
Chaque version de Google a possède son propre jeton.
Comment bloquer l’exploration de Googlebot ?
Robots.txt
Le fichier robots.txt permet de bloquer Googlebot. Pour cela, il suffit d’entrer le jeton user-agent adéquat à la version du robot.
Bloquer tous les crawler
Par exemple, si je souhaite que tous les moteurs de recherche ne puissent pas accéder à ma page, j’indiquerai : Disallow : /arborescence/nom-de-la-page/
Ce code permet d’interdire au robot d’exploration de crawler une URL ou une arborescence.
Cependant, l’étoile présente représente tous les user-agent, donc tous les jetons des moteurs de recherche ou de crawler.
Bloquer certains contenus
Pour apporter des réglages spécifiques à votre contenu, il est possible d’interdire un type de contenu (image, vidéo…). Il suffit simplement d’indiquer le bon jeton dans user-agent.
En indiquant ce code au robot d’exploration de Google Image, il ne prendra pas en compte les dossiers wp-admin et le dossier portfolio.
HTTP X-Robots-Tag
Vous pouvez également bloquer le robot d’exploration dans l’entête de votre page HTML.
Meta no-index
<meta name="robots" content="noindex">
La balise meta noindex permet d’indiquer à un moteur de recherche de ne pas tenir compte d’une page dans le référencement d’un site web. Cependant, cette directive n’est pas forcément prise en compte par Google qui outrepasse parfois les règles.
Benabdelhak Kevin
Graphiste Freelance disponible 7j/7
En tant que passionné du webdesign, du graphisme et du référencement naturel, je partage des informations et vous propose des solutions pertinentes pour votre communication.