Google Autocomplete, comment fonctionne le système de sasie automatique Google
Il s'agit d'un mécanisme que nous voyons fonctionner tous les jours, plusieurs fois par jour : nous ouvrons la page de Google et, à la première lettre saisie dans le champ de recherche, des suggestions de recherche apparaissent par le biais de prédictions d'autocomplétion. Danny Sullivan, porte-parole pour la recherche, a parlé de ce système et de son fonctionnement, en développant toutes les questions et les principaux doutes des utilisateurs à son sujet.
Comment fonctionne la saisie automatique de Google ?
L'article, publié sur le blog de Google, vise à clarifier divers aspects de l'autocomplétion, et notamment comment les prédictions, la saisie automatique sont générées automatiquement sur la base de recherches réelles, comment cette fonction aide les utilisateurs à compléter la saisie de la requête qu'ils avaient déjà en tête, mais aussi pourquoi toutes les prédictions ne sont pas utiles, et ce que fait Google dans de tels cas.
Tout d'abord, Sullivan décrit brièvement le système : "Vous vous rendez sur Google avec une idée de ce que vous souhaitez rechercher ; dès que vous commencez à taper, des prédictions s'affichent dans le champ de recherche pour vous aider à compléter ce que vous tapez", écrit-il. Ces prédictions, "qui vous font gagner du temps, proviennent d'une fonctionnalité appelée Auto-Complete.
D'où viennent les prédictions
Dans l'ensemble, la saisie semi-automatique est "une fonction complexe qui permet de gagner du temps et qui ne se contente pas d'afficher les requêtes les plus courantes sur un sujet donné". C'est pourquoi il diffère et ne doit pas être comparé à Google Trends, qui est au contraire un outil destiné à toute personne souhaitant étudier la popularité des recherches et des sujets de recherche dans le temps.
Les prédictions de l'autocomplétion reflètent toutefois les recherches qui ont été effectuées sur Google, précise l'auteur. Pour déterminer les prédictions à afficher, "nos systèmes commencent par examiner les requêtes courantes et tendances qui correspondent à ce que quelqu'un commence à saisir dans le champ de recherche", en donnant quelques exemples illustratifs.
Si l'utilisateur tape "best star trek …" (l'une des grandes passions de Sullivan), les compléments courants qui s'ensuivront pourraient inclure "best star trek series" ou "best star trek episodes".
Réponses adaptées à l'utilisateur
Toutefois, il ne s'agit là que du niveau le plus élémentaire des prédictions, qui comportent beaucoup plus d'aspects et ne se contentent pas de montrer les réponses les plus courantes en général.
En fait, Google prend également en compte des facteurs tels que la langue de l'internaute ou le lieu à partir duquel il effectue sa recherche, car ils rendent les prédictions "beaucoup plus pertinentes". Dans l'image suivante, on peut voir la différence entre les prévisions automatiques générées par la recherche de l'épreuve de conduite dans l'État américain de la Californie et dans la province canadienne de l'Ontario.
Les requêtes proposées diffèrent dans la définition des lieux physiques à proximité, dans les expressions les plus fréquentes, mais aussi dans l'orthographe : par exemple, dans la version canadienne, le terme "centre" - correct pour cette langue - est proposé à la place de "center", qui est utilisé dans l'orthographe américaine.
Conseils pour les requêtes longues
Afin de fournir de meilleures prédictions pour les longues requêtes, les systèmes de Google peuvent "passer automatiquement de la prédiction d'une recherche entière à celle de certaines parties d'une recherche".
Par exemple, il se peut qu'il n'y ait pas beaucoup de requêtes pour "le nom de l'objet situé à l'avant" d'un objet particulier, mais il y a beaucoup de requêtes pour "l'avant d'un navire" ou "l'avant d'un bateau" ou "l'avant d'une voiture", et Google est donc en mesure de proposer ces prédictions par rapport à la fin de ce que quelqu'un tape.
La fraîcheur dans la saisie automatique de Google
Comme pour la recherche - voir le cas du ciel orange que nous avons également abordé sur notre blog - Google tient également compte de la fraîcheur dans l'affichage des prévisions. Si les systèmes automatisés détectent "un intérêt croissant pour un sujet, ils peuvent afficher une prévision tendancielle, même si elle n'est généralement pas la plus courante de toutes les prévisions connexes que nous connaissons", explique M. Sullivan.
Par exemple, poursuit-il, "les recherches portant sur une équipe de basket-ball sont probablement plus fréquentes que celles portant sur des matchs individuels ; cependant, si cette équipe vient de remporter un match important contre un rival, des prédictions opportunes liées au match pourraient être plus utiles pour ceux qui recherchent des informations pertinentes à ce moment-là".
Autres facteurs influençant l'auto-complétion
Là encore, les prédictions varient également en fonction du sujet spécifique recherché, car "les personnes, les lieux et les choses ont tous des attributs différents qui intéressent les gens".
Par exemple, une personne recherchant "voyage à New York" pourrait voir une prédiction de "voyage à New York pour Noël", car c'est (généralement) une période populaire pour visiter cette ville (et c'est également ce que l'on voit dans notre image d'exemple). À l'inverse, "voyage à San Francisco" peut donner lieu à une prédiction de "voyage à San Francisco et Yosemite".
Même si deux sujets semblent être similaires ou entrer dans des catégories similaires, nous ne verrons pas "toujours les mêmes prédictions si nous essayons de les comparer", car "les prédictions reflèteront les requêtes qui sont uniques et pertinentes pour un sujet particulier".
Des prédictions que nous ne verrons probablement pas
En fin de compte, les prédictions "sont censées être des moyens utiles de compléter plus rapidement ce que vous étiez sur le point de taper", mais elles ne sont pas parfaites et il est possible que des "requêtes inattendues ou choquantes" apparaissent ; en outre, "il est également possible que les gens prennent les prédictions pour des déclarations de faits ou d'opinions", tout comme Google est conscient "que certaines requêtes sont moins susceptibles de mener à un contenu fiable".
Google traite ces problèmes potentiels de deux manières. Premièrement, elle utilise "des systèmes conçus pour empêcher l'affichage de prédictions potentiellement inutiles et contraires à la loi", et "deuxièmement, si nos systèmes automatisés ne détectent pas les prédictions qui violent nos politiques, nous avons mis en place des équipes chargées de les supprimer".
Contenu supprimé par Autocomplete
Plus précisément, les systèmes de Google "sont conçus pour reconnaître les termes et les phrases qui pourraient être violents, sexuellement explicites, haineux, dénigrants ou dangereux" : lorsqu'ils reconnaissent "qu'un tel contenu pourrait apparaître dans une prédiction particulière, nos systèmes empêchent son affichage".
Bien sûr, les gens peuvent toujours rechercher ces sujets en utilisant ces termes, rien ne l'empêche, mais Google veut éviter de "choquer ou surprendre involontairement les gens avec des prédictions auxquelles ils ne s'attendaient peut-être pas".
Grâce à des systèmes automatisés, Google peut également "reconnaître si une prédiction est peu susceptible de renvoyer un contenu très fiable". Par exemple, "après un événement majeur, il peut y avoir un certain nombre de rumeurs ou d'informations non confirmées", et Google veut éviter que les gens pensent "que l'autocomplétion confirme en quelque sorte ces rumeurs".
Dans ce cas, "nos systèmes déterminent s'il est probable qu'il existe un contenu fiable sur un sujet particulier pour une recherche donnée ; si cette probabilité est faible, les systèmes peuvent automatiquement empêcher l'affichage d'une prédiction". Mais encore une fois, cela n'empêche personne d'effectuer une recherche par ses propres moyens s'il le souhaite.
La politique pour les prédictions de saisie semi-automatique
En règle générale, les systèmes automatisés de Google fonctionnent bien "mais ne peuvent pas tout détecter" : c'est pourquoi des "règles d'autocomplétion" en ligne accessibles au public ont été établies.
L'objectif est évidemment d'empêcher l'affichage de prédictions qui violent les règles, mais si "de telles prédictions dépassent nos systèmes et que nous en prenons connaissance (par exemple par le biais des options de signalement public), nos équipes d'application s'efforcent de les examiner et de les supprimer, le cas échéant". Dans ce cas, Google supprime "la prédiction spécifique en question et nous utilisons souvent la comparaison de modèles et d'autres méthodes pour capturer les variations proches".
Pour illustrer le fonctionnement du système en pratique, " considérez notre politique sur les noms dans la saisie automatique, qui a débuté en 2016, conçue pour empêcher l'affichage de requêtes offensantes, malveillantes ou inappropriées en rapport avec des personnes nommées, afin que les utilisateurs ne se forgent pas une impression sur les autres uniquement sur la base de prédictions ". Des systèmes sont donc en place pour empêcher l'affichage de telles prédictions pour les requêtes de personnes nommées, mais si des violations se produisent pour une raison quelconque, "nous les supprimons conformément à nos politiques".
Il est toujours possible de chercher ce que l’on veut.
Après avoir passé en revue les raisons pour lesquelles Google n'affiche pas certaines options de saisie automatique, M. Sullivan rappelle néanmoins que "les prédictions ne sont pas des résultats de recherche". Parfois, "les personnes préoccupées par les prédictions pour une requête donnée pourraient suggérer que nous empêchons l'affichage des résultats de recherche réels", mais ce n'est pas le cas : "les critères de complétion automatique ne s'appliquent qu'aux prédictions et non aux résultats de recherche".
Le Googler admet qu'il est possible que "nos systèmes de protection empêchent l'affichage de certaines prédictions utiles" et que l'approche adoptée est très stricte et prudente, notamment "lorsqu'il s'agit de noms", à tel point qu'elle pourrait empêcher même l'affichage de prédictions qui ne violent pas les règles. Cependant, Danny Sullivan conclut : "Nous pensons qu'il est préférable d'adopter cette approche prudente, car même si une prédiction n'est pas affichée, cela n'affecte pas la capacité d'une personne à finir de taper une requête par elle-même et à trouver les résultats de la recherche".
Image de couverture tirée de blog.google