Google Webspam Report 2021, les résultats du travail de SpamBrain
Le spam en ligne reste un problème majeur dans notre vie quotidienne et, comme nous le savons tous, c'est l'une des principales questions au cœur du travail de Google, qui déploie des outils et des ressources pour rendre l'expérience de recherche "sûre et sans spam". Comme le veut la tradition, l'équipe de Mountain Views a partagé les résultats des travaux menés sur ce front au cours de l'année écoulée, anticipant certaines des données du Webspam Report 2021, mais a également présenté le " nom officiel " de l'algorithme délégué à l'activité anti-spam, qui s'appelle SpamBrain et est à l'œuvre depuis 2018.
Lutte contre le spam, le travail de Google SpamBrain
Cet algorithme spécial est présenté dans un article de Cody Kwok, ingénieur principal chez Google, qui décrit SpamBrain comme un "système de prévention du spam basé sur l'intelligence artificielle".
Lancé pour la première fois en 2018, Google n'a cessé d'améliorer les performances de cet algorithme, qui a aussi la particularité notable d'être "une plateforme robuste et évolutive pour traiter tous les types d'abus".
Avec un volume croissant de spam sophistiqué produit chaque jour trouvé sur le web, Kwok dit, la capacité de SpamBrain à identifier "le comportement perturbateur et malveillant parmi des milliards de pages web nous a permis de garder plus de 99% des recherches exemptes de spam" - une réalisation qui, en vérité, a été revendiquée pour la première fois dans le rapport 2019 sur le Webspam.
Plus en détail, au cours de l'année 2021, SpamBrain a identifié près de six fois plus de sites de spam qu'en 2020 (alors qu'il affirmait déjà avoir détecté 40 milliards de pages de spam chaque jour), ce qui s'est traduit par une réduction significative du spam piraté (-70%), qui était l'un des types de spam les plus couramment observés en 2020, et du spam gibbeux sur les plateformes d'hébergement (-75%). Au total, Google a pu détecter 200 fois plus de sites de spam en 2021 que lorsqu'il a commencé sa bataille il y a près de vingt ans.
Les activités de SpamBrain et les efforts anti-spam de Google
Les autres fronts de la bataille de Google concernent la protection de la qualité des recherches et la sécurité des utilisateurs. Selon le rapport, des progrès significatifs ont également été réalisés en 2021 dans ces domaines autres que le spam web traditionnel, et notamment dans la lutte contre le spam de liens, les escroqueries et le harcèlement en ligne.
Dans le premier cas, la mise à jour sur le spam de liens lancée en juillet 2021 porte ses fruits "pour identifier largement les liens non naturels et les empêcher d'affecter la qualité des recherches", de manière à protéger les liens, qui restent un signal clé pour Google pour "découvrir et classer les résultats de manière significative".
Une grande attention a également été accordée à la fraude, qui reste une menace majeure pour la sécurité des utilisateurs en ligne : développant le travail de 2020, Google a lancé plusieurs mises à jour d'algorithmes qui ont conduit à une réduction de 40 % des résultats frauduleux, et l'amélioration de la couverture " nous a permis de protéger les gens contre beaucoup plus de types d'escroqueries, en plus des demandes de service client que nous avons combattues ces dernières années ".
En outre, toujours pour protéger la sécurité des utilisateurs, Google a étendu l'action de SpamBrain "pour lutter contre le harcèlement en ligne et, pour les requêtes de noms, réduire l'importance des sites ayant des pratiques de suppression exploitantes" - et, ainsi, Kwok révèle que SpamBrain est l'algorithme à l'œuvre contre les sites prédateurs depuis juin dernier.
Réduire les effets de la manipulation du classement
Outre le spam, Google continue à "travailler dur pour réduire les contenus de mauvaise qualité et les manipulations de classement", en luttant contre les comportements qui sont à la limite de la violation des directives de qualité, mais qui "restent de nature manipulatrice et dégradent l'expérience de l'utilisateur".
Par exemple, poursuit l'article, l'un des aspects de cette initiative consistait à améliorer le classement des demandes d'avis sur les produits, dont le contenu "consistait souvent en des descriptions de produits réécrites et non en des avis authentiques de première main". Comme nous le savons, deux mises à jour substantielles de la façon dont le moteur de recherche évalue les avis sur les produits en anglais ont été effectuées en 2021 (et une en 2022, il y a quelques semaines), ce qui a entraîné une réduction significative des avis de mauvaise qualité, tout en favorisant ceux qui présentaient un meilleur contenu et une meilleure expertise.
En fin de compte, Kwok nous rappelle et réitère que l'engagement de Google est "de veiller à ce que rien n'empêche les gens de trouver le contenu le plus utile par le biais de la recherche" et, grâce à SpamBrain, il semble que cet objectif soit à portée de main. Il est vrai que certains sites peuvent encore s'en tirer avec des tactiques de spam ou de référencement "black hat", mais les nouvelles d'aujourd'hui et les chiffres du Webspam Report confirment que Google teste constamment de nouvelles méthodes pour détecter et empêcher ces sites (et bien d'autres) d'obtenir un classement élevé dans les recherches Google en utilisant des techniques illégales et déloyales.