Google explique pourquoi Google n’explore pas et n’indexe pas chaque URL
4 Jours après avoir écrit un article sur "Pourquoi Google n'indexe-t-il pas mes pages" John Mueller le porte-parole de Google a donné sa réponse ou plutôt la réponse "corporate" mais aussi honnête de Google.
Même s'il n'a pas répondu à mon tweet à ce sujet, il, et Google, a entendu les nombreuses interpellations partout dans le monde de la part de la communauté SEO sur les problèmes d'indexation des URL.
Hello @JohnMu I'm wondering why for some clients we can see new links forwarding to their website, using #semrush for example, but the search console seems to be stuck for months. Web site is 7 months old, but has plenty of quality content. Thanks
— Metadosi (@metadosi) March 18, 2022
John a écrit une réponse détaillée sur Reddit en expliquant pourquoi "Pourquoi les outils de référencement n'affichent-ils pas tous les backlinks ?" Mais il y a répondu du point de vue de la recherche Google. Il a dit :
Google explique pourquoi Google n'explore et n'indexe pas chaque URL
John Mueller de Google a écrit une explication très détaillée et honnête des raisons pour lesquelles Google (et les outils de référencement tiers) n'explorent pas et n'indexent pas chaque URL ou lien sur le Web. Il a expliqué que l'analyse n'est pas objective, qu'elle est coûteuse, qu'elle peut être inefficace, que le Web change fréquemment, qu'il y a du spam et du courrier indésirable, et que tout cela doit être pris en compte.
John a écrit une réponse détaillée sur Reddit à la question "Pourquoi les outils SEO n'affichent-ils pas tous les backlinks ?". Mais il a répondu à cette question en termes de recherche Google. Il a dit et je vous le traduis en français :
Théoriquement, il est impossible de visualiser tous les liens, puisque le nombre d'URL réelles est en fait infini. Parce que personne ne peut se permettre de stocker un nombre infini d'URL dans une base de données, tous les robots d'exploration Web font des hypothèses, des simplifications et des suppositions sur ce qui vaut vraiment la peine d'être parcouru.
Et même dans ce cas, pour des raisons pratiques, vous ne pouvez pas le voir tout le temps, Internet n'a pas assez de connexion et de bande passante pour le faire, et cela coûte très cher si vous souhaitez accéder régulièrement à de nombreuses pages. (pour le crawler et pour le propriétaire du site).
De plus, certaines pages changent rapidement, d'autres n'ont pas changé depuis 10 ans. Les crawlers essaient donc d'économiser leurs efforts en se concentrant davantage sur les pages qu'ils s'attendent à changer plutôt que sur celles qu'ils s'attendent à ne pas changer.
Et puis nous aborderons la partie où les crawlers essaient de déterminer quelles pages sont vraiment utiles. Internet regorge de déchets dont personne ne se soucie, de pages qui ont été spammées au point de devenir inutiles. Ces pages peuvent changer régulièrement, elles peuvent avoir des URL raisonnables, mais elles sont simplement censées être un dépotoir et tout moteur de recherche qui se soucie de ses utilisateurs les ignorera. Parfois, ce ne sont pas que des ordures évidentes. De plus en plus de sites sont techniquement corrects mais n'atteignent tout simplement pas la "barre" en termes de qualité pour mériter plus de visites.
Par conséquent, tous les robots d'exploration (y compris les outils de référencement) fonctionnent avec un ensemble d'URL restreinte, ils doivent déterminer à quelle fréquence les visiter, quelles URL visiter plus souvent et quelles parties du site ignorer. Il n'y a pas de règles fixes pour tout cela, donc chaque outil doit prendre ses propres décisions en cours de route. C'est pourquoi les moteurs de recherche indexent des contenus différents, pourquoi les outils de référencement affichent des liens différents, pourquoi toutes les métriques construites sur eux sont si différentes.
John Mueller Google
Personne ne peut se permettre de stocker un nombre infini d'URL
On comprend dans cette phrase que les datas center de Google saturent et que crawler le web en pleine explosion devient très compliqué techniquement.
Les robots d'exploration Web font des hypothèses, des simplifications et des suppositions sur ce qui vaut vraiment la peine d'être parcouru
On a dans cette phrase, la confirmation que Google va venir voir souvent un site qui publie du contenu de qualité périodiquement, et de moins en moins souvent un site qui ne publie rien, ou rien de bon. On peu supposer aussi que le budget de crawl est à l'avenant.
Cela coûte très cher si vous souhaitez accéder régulièrement à de nombreuses pages
Construire des datacenter partout dans le monde coûtent aussi très cher pour stocker cela, l'entretien aussi et surtout la consommation électrique !
Internet regorge de déchets dont personne ne se soucie
John Mueller aborde ici le problème du spam. Si le nombre de site est en augmentation exponentielle, 1.94 Milliard de site web dans le monde soit 3 nouveaux par secondes. et bien entendu dans tout cela des sites web de spam, que le moteur de recherche doit trier, car il ne souhaite pas les indexer.
Mais ... n'atteignent tout simplement pas la "barre" en termes de qualité pour mériter plus de visites
Google reconnait ici, avoir réglé un niveau de qualité requis, dans ses algorithmes, pour passer à un niveau d'attention plus élevé de la part du moteur de recherche. Il ne précise pas le niveau de qualité à obtenir si sur quel critère il se base.
Les robots d'exploration ... fonctionnent avec un ensemble d'URL restreinte
Google ne Crawle pas tout le web, il n'en est pas capable. Étant donné que, comme John l'a dit plus tôt, il n'y a pas de bonne façon d'explorer le Web, chaque outil de référencement, et Google aussi, a sa propre façon de décider quelles URL explorer et enregistrer.
C'est pourquoi un outil peut détecter des backlinks qu'un autre outil ou moteur de recherche n'a pas détecté.
Ce qu’il faut conclure de l’explication de Mr Mueller
John Mueller a essayé dans cette explication sur Reddit d'être honnête et politiquement correcte, mais si je pense qu'il ne dit pas tout et c'est bien normal après-tout.
Cela confirme ce que nous pensions. Ne vont sortir du lot que les sites qui s'en donnent les moyens.
Fini le temps des années 2010, où l'on faisait n'importe quoi pour ranker. Le SEO est quelque chose de très sérieux qui doit être pensé dès la conception du site internet.
Construire un site internet pour avoir un site internet ne sert à rien. Dès le départ, il faut mettre au point une stratégie, construire des silos SEO au sein d'un cocon sémantique si vous désirez que votre clientèle cible vous trouve en première page de Google.