Ces derniers temps, nous avons vu fleurir un certain nombre de définitions du "budget d'exploration" ou "crawl budget". Toutefois, nous ne disposons pas d'un terme unique pour décrire tout ce que ce terme semble signifier en externe. Avec cet article, nous entendons clarifier ce dont il s'agit réellement et ce que cela signifie pour Googlebot.
Tout d'abord, nous voulons souligner le fait que le budget d'exploration, tel qu'il est décrit ci-dessous, ne concerne pas la plupart des éditeurs. Si vous observez que les nouvelles pages sont généralement explorées le jour même de leur publication, alors vous n'avez pas vraiment à vous préoccuper du budget d'exploration. De même, si un site dispose de moins de quelques milliers d'URL, il sera exploré correctement la plupart du temps.
Hiérarchiser le contenu à explorer, la date d'exploration et la quantité de ressources que le serveur hôte peut consacrer à l'exploration est plus important pour les sites plus volumineux ou ceux qui génèrent automatiquement des pages à partir de paramètres d'URL, par exemple.
Limite de la vitesse d'exploration
Googlebot est conçu pour être un bon "citoyen" du Web. Il fait de l'exploration sa priorité, mais il s'assure aussi de ne pas nuire à l'expérience des internautes qui consultent le site. C'est ce que nous appelons la "limite de la vitesse d'exploration". Elle définit une valeur maximale pour un site donné.
Pour faire simple, cela représente le nombre de connexions simultanées parallèles que Googlebot peut utiliser pour explorer le site, ainsi que le temps qu'il doit attendre entre deux explorations. La vitesse d'exploration peut augmenter ou diminuer en fonction de deux facteurs :
- L'état de l'exploration : si le site répond très rapidement pendant un certain temps, la limite augmente, ce qui signifie que davantage de connexions peuvent être utilisées pour l'exploration. Si le site ralentit ou répond par des erreurs de serveur, la limite diminue et Googlebot réduit son exploration.
- La limite définie dans la Search Console : les propriétaires de sites Web peuvent réduire l'exploration de leur site par Googlebot. Sachez que définir une limite plus élevée n'entraîne pas nécessairement une augmentation de l'exploration.
Besoin d'exploration
Même si la vitesse d'exploration n'atteint pas sa limite, en l'absence de besoin d'indexation, l'activité de Googlebot sera faible. Les deux facteurs qui jouent un rôle important dans la détermination du besoin d'exploration sont les suivants :
- La popularité : les URL les plus populaires sur Internet ont tendance à être explorées plus souvent pour être le plus à jour possible dans notre index.
- L'obsolescence : nos systèmes s'efforcent d'empêcher que les URL ne soient pas actualisées dans l'index.
En outre, les événements sur l'ensemble du site comme les
déplacements de site peuvent déclencher une augmentation du besoin d'exploration afin de réindexer le contenu sur les nouvelles URL.
En associant la vitesse d'exploration et le besoin d'exploration, nous définissons le budget d'exploration comme
le nombre d'URL que Googlebot peut et veut explorer.
Facteurs affectant le budget d'exploration
D'après nos analyses, la multiplication d'URL à faible valeur ajoutée peut nuire à l'exploration et à l'indexation d'un site. D'après ce que nous avons pu constater, les URL à faible valeur ajoutée entrent dans ces catégories, par ordre d'importance :
Gaspiller inutilement des ressources du serveur pour des pages de ce type détournera l'activité d'exploration de pages qui ont réellement de la valeur, ce qui peut considérablement retarder la découverte de contenu intéressant sur un site.
Foire Aux Questions !
L'exploration est le point d'entrée pour un site dans les résultats de recherche Google. L'exploration efficace d'un site Web aide donc indirectement à son indexation dans la recherche Google.
Q : La vitesse du site a-t-elle une influence sur mon budget d'exploration ? Qu'en est-il des erreurs ?
R : En rendant un site plus rapide, vous améliorez l'expérience des utilisateurs tout en augmentant la vitesse d'exploration. Pour Googlebot, un site rapide est le signe de serveurs en bon état : il peut accéder à un contenu plus important avec le même nombre de connexions. En revanche, un nombre important d'erreurs 5xx ou de problèmes de délai avant expiration de la connexion indiquent le contraire, et l'exploration ralentit.
Nous recommandons de prêter attention au rapport
Erreurs d'exploration de la Search Console et de limiter le nombre d'erreurs serveur.
Q : L'exploration joue-t-elle un rôle dans le classement ?
R : Une vitesse d'exploration supérieure n'aboutit pas nécessairement à un meilleur classement dans les résultats de recherche. Google utilise des centaines d’indicateurs pour classer les résultats : même si l'exploration est nécessaire pour figurer dans les résultats, elle n'est pas un indicateur de classement.
Q : Les autres versions des URL et le contenu intégré comptent-ils dans le budget d'exploration ?
R : En général, toutes les URL que Googlebot explore comptent dans le budget d'exploration d'un site. Les autres versions d'une URL, comme les versions AMP ou "hreflang", ainsi que le contenu intégré, comme le contenu CSS et JavaScript, peuvent nécessiter une exploration également et utiliser ainsi le budget d'exploration d'un site. De même, les chaînes de redirection longues peuvent avoir des conséquences négatives sur l'exploration.
Q : Puis-je contrôler Googlebot à l'aide de l'instruction "crawl-delay" ?
R : L'instruction non standard "crawl-delay" d'un fichier robots.txt n'est pas traitée par Googlebot.
Pour en savoir plus sur la façon d'optimiser l'exploration de votre site, consultez notre
article sur l'optimisation de l'exploration de 2009, qui est toujours valable.
Q: La directive "nofollow" affecte-t-elle mon budget d'exploration ?
A: Tout dépend. Toute URL explorée impacte le budget d'exploration, donc même si un lien vers une page est marqué en nofollow, cette page peut être au bout d'autres liens sur votre site ou sur d'autres sites.
Si vous avez des questions, posez-les sur le
forum !
Publié par Gary, équipes Crawl et Indexation