Tout sur le nouvel algorithme RankBrain de Google
Nous publions la traduction d'un article très intéressant de Danny Sullivan paru le 27 octobre dans Search Engine Land.
Google utilise une technologie d'apprentissage automatique appelée RankBrain pour fournir ses résultats de recherche. Voici ce que nous savons à son sujet jusqu'à présent.
Hier, on a appris que Google utilisait un système d'intelligence artificielle, appelé RankBrain, pour l'aider à classer ses résultats de recherche. Vous êtes curieux de savoir comment cela fonctionne et comment cela s'intègre dans le système de classement général ? Voici ce que nous savons de RankBrain.
Les informations fournies ci-dessous proviennent de trois sources. La première, celle de Bloomberg qui a donné la nouvelle de RankBrain hier. La seconde, une liste d'informations supplémentaires fournies par Google directement à Search Engine Land. Troisièmement, nos propres connaissances sur le sujet en essayant de donner des réponses aux questions auxquelles Google n'a pas répondu. Nous serons clairs en indiquant quand ces sources ont été utilisées.
Qu’est-ce que RankBrain ?
RankBrain est le nom du nouveau système d'apprentissage automatique, basé sur l'intelligence artificielle, utilisé pour traiter les résultats de recherche de Google et les ordonner de manière appropriée, comme l'a rapporté Bloomberg et confirmé par Google.
Qu’est-ce que l’apprentissage automatique ?
L'apprentissage automatique consiste à ce qu'un ordinateur apprenne par lui-même comment faire quelque chose, plutôt que de faire ce qu'un humain pense ou ce qu'un programme détaillé lui dit de faire.
Qu’est-ce que l’intelligence artificielle ?
On parle de véritable intelligence artificielle, ou IA en abrégé, lorsqu'un ordinateur peut être aussi intelligent qu'un être humain, du moins dans le sens où il acquiert des informations et des connaissances en réfléchissant et en tirant des conclusions de ce qu'il a déjà appris en établissant de nouvelles connexions.
La véritable intelligence artificielle n'existe que dans la science-fiction et les romans. En pratique, l'IA est utilisée pour désigner les systèmes informatiques conçus pour apprendre et établir des liens entre les informations.
En quoi l'intelligence artificielle diffère-t-elle de l'apprentissage automatique ? En se référant à RankBrain, il semble qu'ils soient presque synonymes. Il se peut que vous entendiez l'un ou l'autre terme utilisé de manière interchangeable, ou que vous entendiez l'apprentissage automatique pour décrire l'approche d'intelligence artificielle utilisée.
RankBrain est-il donc la nouvelle façon dont Google positionne les résultats de recherche ?
Non. RankBrain fait partie de l'algorithme de recherche général de Google, un programme utilisé pour trier des milliards de pages connues et identifier les plus pertinentes pour chaque requête de recherche.
Quel est le nom de l’algorithme de recherche de Google ?
Il s'appelle Hummingbird (Colibri). Pendant des années, l'algorithme général de Google n'a pas eu de nom officiel. Mais à la mi-2013, Google a finalement trouvé un nom officiel, Hummingbird.
Donc RankBrain fait partie de HummingBird ?
Voilà à quoi ça ressemble. Hummingbird est l'algorithme de recherche général, tout comme une voiture a un moteur général à l'intérieur. Le moteur lui-même est composé de différentes pièces, telles qu'un filtre à huile, une pompe à carburant, un radiateur, etc. De même, Hummingbird est composé de plusieurs parties, et RankBrain est l'une d'entre elles.
En particulier, nous savons que RankBrain fait partie de l'algorithme général Hummingbird, car l'article de Bloomberg indique clairement que RankBrain ne traite pas toutes les recherches, car seul l'algorithme général le fait.
Hummingbird contient également d'autres parties dont les noms sont très familiers à ceux qui travaillent dans le secteur du référencement, comme Panda, Penguin et PayDay pour lutter contre le spam, Pigeon conçu pour améliorer les résultats des recherches locales, Top Heavy conçu pour abaisser le classement des sites riches en publicité, Mobile Friendly conçu pour récompenser les pages Web adaptées aux mobiles et Pirate conçu pour lutter contre les infractions au droit d'auteur.
Je croyais que l'algorithme s'appelait "PageRank".
Le PageRank fait partie de l'algorithme Hummingbird et a pour rôle spécifique d'accorder du crédit aux pages web en fonction des liens qui y mènent depuis d'autres pages web.
Le PageRank a une valeur particulière car c'est le premier nom que Google a donné à l'une des parties de son algorithme depuis le lancement du moteur de recherche en 1998.
Que pouvons-nous dire de ces "signaux" que Google utilise pour le classement ?
Les signaux sont des éléments que Google utilise pour l'aider à déterminer le classement des pages Web. Par exemple, il lit les mots sur les pages web, les mots sont donc un signal. Si certains mots sont en gras, cela peut être un autre signal à prendre en compte. Les calculs effectués dans PageRank donnent aux pages un autre score qui peut être utilisé comme un signal. Si Google constate qu'une page est adaptée aux mobiles, un autre signal est enregistré.
Tous ces signaux sont traités par différentes parties de l'algorithme Hummingbird pour décider finalement quelles pages doivent être affichées pour certaines requêtes de recherche.
Combien de signaux y a-t-il ?
Google a souvent parlé de plus de 200 facteurs de classement principaux qui sont pris en compte, mais en réalité, il peut y avoir plus de 10 000 variations de "sous-signaux". D'une manière générale, il existe des "centaines" de facteurs, comme Bloomberg l'a également mentionné dans son article.
Si vous voulez un guide visuel des signaux de classement, jetez un coup d'œil au tableau périodique des facteurs de réussite du référencement.
Nous pensons qu'il s'agit d'un bon guide des éléments généraux pris en compte par Google pour classer les pages Web.
RankBrain est le troisième signal le plus important ?
C'est vrai. Sorti de nulle part, ce nouveau système est devenu ce que Google appelle le troisième facteur de classement le plus important pour les pages Web. Extrait de l'article de Bloomberg :
RankBrain est l'un des "centaines" de signaux entrant dans l'algorithme qui détermine les résultats qui apparaissent sur une page de recherche Google et leur emplacement.
Bloomberg
Au cours des quelques mois qui ont suivi son lancement, RankBrain est devenu le troisième signal de classement le plus important à contribuer aux résultats d'une requête de recherche.
Quels sont les premier et deuxième facteurs de classement ?
Google ne l'a pas révélé, bien qu'on lui ait demandé deux fois.
Il est ennuyeux et probablement trompeur que Google ne veuille pas expliquer ce que sont les deux premiers. L'article de Bloomberg n'est pas un hasard. Google souhaite faire savoir, par le biais des relations publiques, ce qu'il entend exactement lorsqu'il parle d'avancées dans le domaine de l'apprentissage automatique.
Mais pour comprendre exactement quelles sont ces avancées, il serait utile de savoir quels autres facteurs Google utilise actuellement, afin de pouvoir ensuite revenir sur RankBrain. C'est pourquoi Google devrait nous les expliquer.
Quoi qu'il en soit, mon idée personnelle est que les liens restent le signal le plus important, de la manière dont Google les compte sous forme de votes. C'est également un système qui ne peut pas être ignoré, comme l'explique cet ancien article intitulé "The Broken Ballot Box Used by Google and Bing".
Pour le deuxième signal le plus important, je pense qu'il s'agit des "mots". Par "mots", j'entends tout, des mots utilisés sur les pages à la façon dont Google interprète les mots que les internautes saisissent dans le champ de recherche Google en dehors de l'analyse de RankBrain.
Que fait RankBrain exactement ?
D'une conversation par courriel avec Google, j'ai compris que RankBrain est principalement utilisé comme méthode pour interpréter les requêtes de recherche que les gens envoient à Google pour trouver des pages qui ne contiennent pas exactement les mots recherchés.
Google n’avait-il pas déjà un moyen de trouver les pages dont le texte ne contenait pas la requête exacte ?
Oui, Google trouve depuis un certain temps déjà les pages qui ne contiennent pas de termes exacts. Par exemple, il y a de nombreuses années, si vous recherchiez "chaussure", Google ne trouvait pas forcément "chaussures", car il s'agissait techniquement de deux termes différents. Mais grâce au "stemming", Google est devenu plus intelligent et connaît des variantes telles que "chaussure" et "chaussures", tout comme "courrir" est une variante de "course".
Google perçoit également bien les synonymes. Ainsi, si nous recherchons des "baskets", il peut comprendre que nous parlons de "chaussures de course". Il a également acquis la capacité d'identifier les différences conceptuelles qui lui permettent de séparer les pages qui parlent de la marque "Apple" de celles qui parlent des pommes (fruits).
Que peut-on dire du Knowledge Graph ?
Le Knowledge Graph, lancé en 2012, était le moyen pour Google d'améliorer l'établissement de liens entre les mots. Plus important encore, Google a appris à rechercher "des choses et non des chaînes de caractères", comme le décrit Google lui-même.
Les chaînes de caractères sont des phrases simples composées de caractères. Ainsi, les pages contiennent par exemple "Obama". Par choses, d'autre part, nous entendons que lorsque quelqu'un recherche Obama sur Google, il s'agit probablement du "président américain Barack Obama", une personne ayant des liens avec d'autres choses et personnes.
Le graphe de connaissances est une base de données de faits concernant des éléments du monde réel et les relations entre eux. C'est pourquoi, lorsque nous effectuons une recherche du type "quand est née la femme d'Obama", nous obtenons une réponse précise de Google qui nous indique également son nom.
Comment RankBrain aide-t-il à améliorer les requêtes ?
Les méthodes utilisées par Google pour améliorer les requêtes de recherche sont généralement réalisées par des humains qui font le travail quelque part, soit en créant d'énormes listes de dérivations et de synonymes, soit en créant des bases de données de connexions entre les choses (entités). Bien sûr, il y aura aussi une partie automatisée, mais tout dépend davantage du travail humain.
Le problème est que Google traite trois milliards de recherches par jour. En 2007, Google a affirmé que 20/25 % de ces requêtes n'avaient jamais été vues auparavant. En 2013, elle a abaissé ce chiffre à 15 %, un pourcentage repris par Bloomberg dans l'article et confirmé par Google. Mais 15 % de trois milliards de requêtes, cela reste un nombre énorme de requêtes jamais saisies par un humain, soit environ 450 millions par jour.
Il s'agit souvent de requêtes complexes, composées de plusieurs mots, également appelées requêtes de longue traîne.
RankBrain est conçu pour aider Google à mieux interpréter ces requêtes, à les traduire efficacement et à identifier les pages les plus adaptées.
Comme le mentionne Google, il peut identifier des modèles parmi des recherches complexes, apparemment sans rapport, et se rendre compte qu'elles sont en fait très similaires. Cet apprentissage permettra à Google de comprendre toutes les requêtes futures et de déterminer à quel sujet spécifique elles se rapportent. Plus important encore, d'après ce que Google nous a dit, il peut associer ces groupes de requêtes à des groupes de résultats qui sont plus susceptibles de satisfaire l'internaute.
Google n'a pas fourni d'exemples de groupes de requêtes ni de détails sur la façon dont RankBrain devine quelles sont les meilleures pages. Mais c'est probablement parce que Google peut traduire quelque chose d'ambigu en quelque chose de beaucoup plus spécifique et fournir les résultats appropriés.
Y a-t-il des exemples ?
Bien que Google n'ait pas fourni d'exemples, l'article de Bloomberg en présente un provenant d'une recherche où RankBrain pourrait probablement être utile :
"Quel est le titre du consommateur au plus haut niveau d'une chaîne alimentaire".
Pour quelqu'un comme moi, le terme "consommateur" fait référence à une personne qui achète quelque chose.
Cependant, il s'agit également d'un terme scientifique désignant une personne qui consomme des aliments. Il existe également des sous-niveaux dans la chaîne alimentaire. Quels sont les "consommateurs" au plus haut niveau ? "Le titre" - "le nom" est "prédateurs".
En fournissant la requête à Google, voici le résultat de la recherche.
Maintenant, regardez à quel point les résultats sont similaires en recherchant uniquement "le niveau supérieur de la chaîne alimentaire".
Imaginez que RankBrain ait lié la première requête longue à la deuxième version plus simplifiée, qui est probablement aussi la plus courante et la plus répandue. Il se rend compte qu'ils sont très similaires. Par conséquent, Google peut déduire la réponse en s'appuyant sur ce qu'il connaît déjà pour donner des réponses à ce qui est moins courant.
C'est un exemple de la façon dont Google pourrait utiliser RankBrain.
Bing peut-il faire de même avec RankNet ?
En 2005, Microsoft a commencé à utiliser son système d'apprentissage automatique, appelé RankNet, dans le cadre de Bing tel que nous le connaissons aujourd'hui. En fait, le chercheur principal et créateur de RankNet a récemment été honoré. Mais au fil des ans, Microsoft n'a jamais mentionné RankNet.
Vous pouvez imaginer que cela va changer. Il est également intéressant de voir que lorsque nous effectuons une recherche sur Bing, pour montrer à quel point RankBrain fonctionne bien, Bing donne de bons résultats, on voit une similitude sur les résultats fournis.
Une seule requête ne signifie pas que RankNet est aussi bon que RankBrain et vice versa.
Malheureusement, il est vraiment difficile de créer une liste pour comparer les deux.
D’autres exemples ?
Google a fourni un nouvel exemple : "Combien de cuillères à soupe dans une tasse ?" (unités de mesure pour les recettes de cuisine).
Google a déclaré que RankBrain a favorisé certains résultats en Australie et d'autres aux États-Unis pour la requête, car dans les pays, les unités de mesure sont différentes même si elles portent les mêmes noms.
J'ai essayé ce test moi-même mais je n'ai pas trouvé de grandes différences. Même sans RankBrain, les résultats auraient été légèrement différents, car les sites connus aux USA sont favorisés lorsque vous effectuez une recherche depuis ce pays.
RankBrain est-il vraiment utile ?
Bien que les deux exemples ci-dessus ne donnent pas de grandes preuves de la grandeur de RankBrain, je crois vraiment qu'il y aura un grand impact, comme Google le prétend. L'entreprise ne parle pas souvent de ce qui se passe dans ses algorithmes. Il fait des petits tests tout le temps. Mais elle ne lance de grands changements que lorsque tout est déjà bien testé.
En intégrant RankBrain, et en affirmant qu'il s'agit du troisième signal de classement en importance, cela signifie qu'il s'agit d'un changement énorme. Google ne l'aurait jamais revendiqué s'il n'était pas sûr de sa capacité à être utile.
Quand RankBrain a-t-il commencé ?
Google nous a dit qu'il y avait eu une version progressive au début de 2015 et qu'elle était pleinement active depuis quelques mois.
Quelles requêtes sont concernées ?
Google a déclaré à Bloomberg qu'une grande partie des requêtes sont traitées par RankBrain. Nous avons demandé des données plus détaillées mais avons reçu la même réponse vague.
RankBrain apprend-il en permanence ?
Tout l'apprentissage de RankBrain se fait hors ligne, comme l'a dit Google. Il traite par lots les recherches historiques et apprend à en prévoir les résultats.
Ces "prédictions" sont testées et si elles fonctionnent bien, la dernière version de RankBrain entre en vigueur (Live). Ensuite, le cycle d'apprentissage et de publication hors ligne se répète.
RankBrain fait-il plus qu’affiner les requêtes ?
En général, la façon dont les requêtes sont traitées et simplifiées, que ce soit par le biais de l'abréviation, des synonymes ou maintenant de RankBrain, n'est pas considérée comme un facteur ou un signal de classement.
Les signaux sont généralement des facteurs liés au contenu, tels que les mots de la page, les liens pointant vers la page, le fait que la page soit en https ou non. Elles peuvent également être liées à l'utilisateur, comme l'endroit où il effectue ses recherches ou l'historique de recherche du navigateur.
Ainsi, lorsque Google qualifie RankBrain de troisième signal de classement le plus important, s'agit-il réellement d'un signal de classement ? OUI. Google a confirmé qu'il existe un composant dans lequel RankBrain contribue activement à décider du classement d'une page Web.
Comment exactement ? Y a-t-il une sorte de score RankBrain qui puisse signaler la qualité ? Peut-être, mais il semble beaucoup plus probable que RankBrain aide Google à mieux classer les pages en fonction de leur contenu. RankBrain devrait être capable de mieux résumer le contenu des pages que tout autre système utilisé par Google jusqu'à présent.
Lectures supplémentaires
Comment puis-je en savoir plus sur RankBrain ?
Google nous a dit que les personnes qui souhaitent en savoir plus sur les vecteurs de mots - la façon dont les mots et les phrases peuvent être mathématiquement reliés - devraient lire ce billet, qui explique comment RankBrain a appris le concept de "capitale" des nations simplement en analysant les nouveaux articles.
Des recherches plus approfondies sont menées ici. Vous pouvez également jouer avec votre propre projet d'apprentissage automatique en utilisant word2vec de Google. En outre, Google dispose d'un secteur entier avec ses documents sur l'apprentissage automatique et l'IA, idem pour Microsoft.
Optimisez votre site internet pour Rankbrain avec Metadosi
Avez vous besoin des services d'une agence SEO expérimentée pour optimiser votre site internet pour le nouvel algorithme de Google ? Votre site a plongé suite à une mise àjour de Google ? Contactez-nous en ligne ou par téléphone au 09 73 88 45 37, nous serons ravi de vous aider.