Noindex dans robots.txt, Google rappelle la date limite du 1er septembre
Le travail de Google pour simplifier et standardiser le fichier robots.txt se poursuit et, comme annoncé à l'occasion de l'anniversaire de cette ressource, à partir du 1er septembre, les spécifications suivies par Googlebot vont changer, notamment en ce qui concerne la gestion des noindex. C'est pourquoi un message dans Google Search Console invite les webmasters, les propriétaires et les gestionnaires de sites à agir à temps et à ne pas être pris au dépourvu.
Message de Search Console pour ceux qui utilisent noindex dans le fichier robots.txt
À partir du 29 juillet, les utilisateurs enregistrés ont trouvé un message de l'équipe du moteur de recherche dans les boîtes aux lettres des désormais ex-webmaster tools de Google, les avertissant de la présence d'instructions noindex dans le fichier robots.txt soumis à Search Console.
À partir du 1er septembre, adieu à la règle de l'absence de support.
Une règle qui, comme l'a toujours expliqué la firme de Mountain View, n'a jamais été soutenue officiellement et qui sera dépréciée à partir du 1er septembre, lorsque les nouvelles règles d'indexation des pages par Googlebot entreront en vigueur et, en particulier, d'exclusion de l'index du moteur de recherche.
Google ne suit plus les principes noindex, nofollow et crawl-delay dans robots.txt
La notification n'a été envoyée qu'à ceux qui utilisent la règle noindex dans le fichier robots.txt, et c'est donc à cette catégorie spécifique de webmasters et de développeurs que Google s'adresse : si vous êtes sur la liste, il est bon de prendre des mesures dès que possible et de supprimer la règle d'ici au 1er septembre, tout comme d'autres commandes non prises en charge telles que nofollow ou craw-delay, qui sont également en passe d'être définitivement retirées.
Comment gérer l’indexation des pages sur Google
En attendant de voir comment évoluera le travail de normalisation du fichier robots.txt - un objectif aussi ambitieux qu'utile pour simplifier les opérations et réduire les erreurs sur une ressource aussi délicate et importante - il est bon de rappeler quelles sont les options valables pour bloquer l'indexation d'une page :
- Noindex dans les métabalises robots directement dans le code HTML de la page.
- Codes d'état HTTP 404 et 410.
- Protéger les pages avec des mots de passe.
- Utilisation de disallow dans le fichier robots.txt.
- Outil permettant de supprimer des URL dans Google Search Console.