Les fautes d’orthographe, comment Google reconnaît et corrige les erreurs dans les recherches
Chaque nuage a son revers, dit un vieil adage, et pour les fautes d'orthographe, cette maxime semble particulièrement appropriée : le système de recherche de Google évolue, en effet, également grâce aux fautes de frappe, aux erreurs basées sur des connaissances approximatives ou des fautes de frappe, qui servent à l'algorithme pour croître et s'améliorer.
Erreurs et fautes d’orthographe dans la recherche Google
Le sujet des termes mal orthographiés avait déjà été au centre des anticipations de Google Search On 2020, lorsque le vice-président senior de la recherche, Prabhakar Raghavan, a révélé qu'"une requête de recherche sur dix contient des fautes d'orthographe".
Ces données, ainsi que le nombre de nouveaux mots saisis en permanence (et qui peuvent parfois ne pas donner de résultats pertinents), ont rendu nécessaire le développement d'un nouvel algorithme dédié au décryptage des erreurs orthographiques, avec des capacités élevées de compréhension et de correction orthographique et la possibilité de répondre avec les bons résultats "en moins de 3 millisecondes".
Grâce à cet algorithme, Google est en mesure de comprendre mieux et plus rapidement le contexte des mots mal orthographiés et de fournir ainsi des suggestions ciblées à l'utilisateur. En bref, c'est le secret qui permet à Google de savoir comme par magie ce que nous recherchons, même lorsque notre requête de recherche contient des fautes de frappe et est mal orthographiée.
Les fautes d'orthographe aident Google
Pandu Nayak, membre de Google et vice-président de la recherche, s'est également exprimé récemment sur le sujet. Il a écrit un article intéressant sur "l'ABC de l'orthographe dans la recherche" dans lequel il explique tout d'abord que cela fait déjà plus de 20 ans que Google a introduit et utilise un système de vérification orthographique, même si l'orthographe et les fautes d'orthographe restent "un défi permanent pour la compréhension de la langue".
Avant même que Google puisse "commencer à chercher des résultats pertinents pour une requête de recherche", il doit "savoir ce qu'un utilisateur recherche, en le tapant correctement" : mais le nombre élevé de requêtes de recherche comportant des fautes d'orthographe et l'introduction continuelle de nouveaux mots, "ainsi que de nouvelles façons de les orthographier incorrectement", rendent nécessaire un travail d'amélioration constant et spécifique.
Comment Google classe les fautes d’orthographe
La première chose que fait l'intelligence artificielle de Google lorsqu'elle rencontre ce qu'elle pense être un mot mal orthographié est de le classer, et il existe deux grandes catégories de fautes d'orthographe : les erreurs conceptuelles et les fautes de frappe.
- Les erreurs conceptuelles sont celles commises "lorsque nous ne sommes pas sûrs de l'orthographe de quelque chose et que nous essayons de deviner au mieux".
- Les erreurs de glissement de doigt se produisent lorsque "nous savons comment épeler ce que nous cherchons, mais nous le tapons accidentellement de manière incorrecte".
Exemples d'erreurs conceptuelles sur Google
Également connue sous le nom de "best-effort spelling", cette erreur se produit lorsqu'un utilisateur ne sait pas comment épeler un mot et le tape de la manière qu'il pense être la meilleure.
Nayak clarifie la situation avec un exemple lié au terme gobbledygook (identification de mots inintelligibles), qui est "un mot difficile à prononcer et qui a deux orthographes communément acceptées, dont gobbledegook". Si nous voulons approfondir la signification du charabia mais que nous ne savons pas exactement comment l'épeler, nous risquons de taper ce que nous pensons être la meilleure solution (et la plus proche de la réalité) pour nous, comme "garbledygook", "gobblydegook", "gobbleygook", "gobbly gook" et plus encore.
Exemples d'erreurs de manipulation sur Google
Il en va différemment pour les fautes d'orthographe dues à un glissement de doigt, qui peuvent être considérées comme une sorte de faute de frappe classique : l'utilisateur connaît le terme et sait comment l'épeler, mais il l'écrit mal dans la boîte par précipitation ou distraction.
Il s'agit donc d'une erreur accidentelle, assez fréquente et en augmentation avec la diffusion des smartphones - "mais cela arrive aussi quand on tape sur des claviers de taille standard".
C'est une situation que tout le monde a probablement vécue au moins une fois et c'est la raison pour laquelle nous voyons plus de 10 000 variantes de requêtes telles que YouTube, toutes générées par le défilement accidentel d'un doigt, comme ytoube, 7outub, yoitubd et tourube' (toutes les lettres ou chiffres qui sont proches des bons sur le clavier).
Interventions sur les fautes d’orthographe
Malgré la fréquence des erreurs, de nombreuses requêtes mal orthographiées "n'apparaissent qu'une seule fois, ce qui fait de l'orthographe un défi unique pour la recherche" et, quel que soit le type de faute d'orthographe, les systèmes de Google trouvent le moyen de comprendre ce que nous voulons dire.
L'approche précédente de Google concernant les requêtes de recherche comportant des fautes d'orthographe inédites reposait simplement sur la conception du clavier : par exemple, explique Pandu Nayak, "si vous essayez de taper u mais que vous faites une erreur, nos systèmes ont appris que vous étiez plus susceptible d'appuyer sur y que sur z, car sur un clavier anglais standard, la touche y est adjacente à u".
Les modèles de Google "ont appliqué le concept général à toutes les nouvelles fautes d'orthographe, en procédant à des substitutions de lettres proches jusqu'à ce qu'un terme de substitution populaire soit identifié". En pratique, ils analysaient l'erreur dans la requête et commençaient à substituer la lettre la plus proche de celle qui avait été tapée pour voir "l'effet final", en continuant éventuellement avec la lettre encore adjacente, puis avec la suivante jusqu'à ce qu'une lettre appropriée soit trouvée pour former un mot correct.
En apparence, il s'agit d'un moyen évident de résoudre les erreurs de frappe, mais en réalité, cette approche s'est avérée valable pour corriger également les erreurs conceptuelles.
Le nouveau système basé sur le deep learning
Grâce aux progrès de l'apprentissage profond, Google a initié il y a quelques mois " une meilleure façon de comprendre l'orthographe ", en présentant " un nouvel algorithme d'orthographe qui utilise un réseau neuronal profond qui modélise mieux et apprend des erreurs d'orthographe moins courantes et uniques ".
Cette avancée "permet d'exécuter un modèle comportant plus de 680 millions de paramètres en moins de deux millisecondes, de sorte que les gens peuvent effectuer des recherches sans être interrompus par leurs propres fautes d'orthographe".
Les progrès sont évidents : auparavant, l'algorithme donnait les résultats recherchés par l'utilisateur en moins de trois millisecondes, alors qu'aujourd'hui, il modélise plus de 680 millions de paramètres en moins de deux millisecondes - "un très grand modèle qui fonctionne plus vite que le battement d'ailes d'un colibri", explique Nayak.
Comment fonctionne l'algorithme de Google pour les fautes d'orthographe ?
Au lieu d'utiliser l'ancienne approche du clavier, le nouvel algorithme utilise le contexte pour comprendre ce qu'un utilisateur avait l'intention de taper, ce qui lui permet "de savoir ce que quelqu'un cherche, quel que soit le type d'erreur et même si nous n'avons jamais vu la faute d'orthographe auparavant".
En détail, explique le vice-président chargé de la recherche, les modèles de compréhension du langage naturel de Google "examinent une recherche dans son contexte, comme la relation entre les mots et les lettres de la requête", en essayant d'abord de déchiffrer ou de comprendre l'intégralité de la requête. À partir de là, "nous générons les meilleures substitutions pour les mots mal orthographiés dans la requête en nous basant sur notre compréhension générale de ce que vous recherchez".
Par exemple, l'analyse des autres termes de la requête "coût moyen d'une maison" permet à Google de déduire que l'utilisateur recherche probablement des informations sur le "coût moyen d'une maison".
En résumé, donc, avec la nouvelle approche de l'algorithme des fautes d'orthographe de Google :
- Évalue la requête entière, pas seulement le mot mal orthographié.
- Recherche des mots de substitution qui correspondent à la requête globale.
- Fournit des résultats de recherche basés sur la "meilleure correspondance".
La correction des requêtes mal orthographiées
Nous pouvons voir ces technologies orthographiques apparaître dans Google Search de différentes manières, corrigeant une éventuelle faute d'orthographe par une prédiction probabiliste de ce que nous avions l'intention de rechercher.
Lorsque l'algorithme est "presque sûr" de savoir ce que nous recherchons, il peut suggérer poliment que "vous recherchiez peut-être" une autre requête et afficher l'alternative qu'il pense être plus probable que nous recherchions.
Lorsque l'algorithme est "tout à fait sûr" d'avoir correctement identifié la faute d'orthographe, il affichera automatiquement les résultats correspondant à ce qu'il pense que nous recherchons, "mais nous vous le ferons toujours savoir et vous fournirons un moyen de revenir à votre orthographe initiale". En d'autres termes, une note sous la barre de recherche nous informe qu'il y a eu un changement et nous donne la possibilité de voir les résultats de la recherche pour la requête initiale mal orthographiée.
Pourquoi les erreurs sont utiles à Google
La façon dont nous répondons à ces notes et interagissons avec les résultats ainsi fournis affecte directement l'algorithme, car Google utilise ces signaux pour continuer à former l'IA. Comme le dit Pandu Nayak, "que vous acceptiez ou non notre suggestion, nous apprenons et améliorons constamment nos systèmes en fonction de ce retour d'information afin de rendre les recherches plus utiles".
Ainsi, même une faute d'orthographe commise lors d'une recherche Google, qui peut sembler ennuyeuse à première vue, devient en fait quelque chose d'utile et de "plus important", permettant au moteur de recherche de "continuer à améliorer son orthographe pour que vous puissiez continuer à chercher".