Pages orphelines : Qu’est-ce que c’est, comment les trouver dans le site web
Le nom est plutôt évocateur et symbolique : pages orphelines, et indique précisément la caractéristique principale de ces ressources, qui n'ont aucune référence entrante depuis une autre page du site. C'est-à-dire qu'il s'agit de pages qui ne reçoivent aucun lien interne, pratiquement isolées de la structure du site et des autres pages. Même à partir de ce seul résumé, il est clair que la présence copieuse d'une telle situation peut être un problème pour le référencement, mais trouver et corriger les pages orphelines n'est pas compliqué et il existe divers outils pour aider.
La définition des pages orphelines
En langage SEO, les pages orphelines sont définies comme des pages présentes sur le site mais qui n'ont aucun lien pointant vers elles depuis une autre page. Une page orpheline peut donc être une URL ou une sous-page qui est physiquement présente, mais essentiellement invisible pour les utilisateurs qui naviguent sur le site, car elle est absente de la structure de liens internes du site.
Attention à ne pas les confondre avec les pages sans issue : les pages sans issue sont des impasses, c'est-à-dire des pages qui ne mènent nulle part ailleurs car elles n'ont pas de liens sortants (mais ont des liens entrants).
Problèmes de référencement pour les pages orphelines
Les pages orphelines sont des URL qui ne peuvent être trouvées régulièrement par les utilisateurs et, dans une certaine mesure (si elles ne figurent pas dans le sitemap), pas même par Googlebot, qui a pour fonction de suivre les liens, externes et internes, et de déterminer la structure et la forme du site.
Leur présence entraîne divers problèmes de référencement, tels qu'un index mal entretenu, des perturbations de la structure de liens internes (si la page orpheline comporte des liens sortants vers d'autres ressources), mais aussi des difficultés de ciblage des mots clés.
Causes des pages orphelines
Plusieurs raisons peuvent expliquer l'apparition de telles URL : des pages de produits qui ne sont plus en stock, des contenus d'actualité anciens et désactivés ou des vidéos supprimées.
Parmi les autres raisons expliquant la présence de pages orphelines, citons une mauvaise utilisation du CMS pour la création de pages, une mauvaise gestion d'une migration, des catégories mises hors ligne sans redirection, l'absence de suppression des pages de test (par exemple, celles utilisées pour les tests A/B).
Il existe également deux causes techniques courantes de pages orphelines qui doivent être immédiatement traitées et résolues, car elles créent essentiellement des pages en double qui devraient automatiquement et systématiquement rediriger vers une seule URL. Il s'agit de la gestion des HTTPS/HTTP et www/non-www non canonique et celle de la barre oblique de fin, la barre oblique finale du chemin.
Contrôle des variantes de pages
Idéalement, chaque page publique du site devrait utiliser HTTP ou HTTPS (de préférence) de manière cohérente et, toujours de manière cohérente, la version avec www ou sans www.
Pour vérifier s'il y a des erreurs, vous pouvez faire un test simple : tapez les quatre variantes de la page d'accueil du site dans votre navigateur -
- https://www.example.com
- http://www.example.com
- https://example.com
- http://example.com
Vérifiez que les quatre redirigent automatiquement vers la même URL qui, par souci de cohérence, doit être définie comme canonique à elle-même.
Si l'une de ces variantes ne redirige pas correctement, cela peut être le signe de problèmes similaires sur d'autres pages du site. Vous devez vérifier d'autres URL pour la variante incriminée afin de voir s'il s'agit d'une erreur plus courante, puis tester certaines pages de votre site et le fichier .htaccess pour vous assurer que les redirections sont correctement définies.
Vérification des chemins avec des slashs de fin de ligne
Une autre chose à laquelle il faut prêter attention est l'utilisation systématique des barres obliques de fin de ligne. Par exemple, ces deux URLs peuvent produire le même contenu, mais les URLs ne sont pas identiques :
- https://example.com/page1/
- https://example.com/page1
Pour savoir si les paramètres sont corrects, il suffit de faire un contrôle aléatoire sur certaines pages du site recherchées avec et sans le slash de fin, en vérifiant qu'il y a une redirection automatique vers la même URL et que le choix est cohérent.
Les effets négatifs sur le référencement
D'une manière générale, la structure des liens d'un site web doit être organisée de manière uniforme afin d'assurer deux objectifs : favoriser le jus de lien interne vers les pages importantes et garantir une bonne expérience utilisateur.
Laissées telles quelles, les pages orphelines n'ont aucune valeur pour le site et peuvent même devenir nuisibles, surtout si elles sont en grand nombre.
D'une part, ils créent une expérience utilisateur frustrante, car les utilisateurs ne peuvent pas atteindre ces pages par la structure naturelle du site ; si ces pages contiennent des informations importantes ou utiles, elles sont gâchées.
D'autre part, ils peuvent avoir un impact sur l'optimisation du budget de crawl et la qualité des visites / conversions du site : le crawler ne peut pas rapporter beaucoup de données ou un profil favorable à l'indexation, ce qui à long terme peut affecter le classement, faisant apparaître le site de moindre qualité.
Comme elles n'ont pas de liens internes, elles ne bénéficient d'aucune équité et les moteurs de recherche ne disposent d'aucun contexte sémantique ou structurel pour évaluer la page : en d'autres termes, ils n'ont aucun moyen de comprendre la place de la page dans l'ensemble du site, ce qui rend plus difficile la détermination des requêtes pour lesquelles la page est pertinente.
La recherche de pages par le crawler
Les moteurs de recherche, tels que Google, trouvent généralement les nouvelles pages de deux manières :
- Le crawler suit un lien depuis une autre page.
- Le robot d'exploration trouve l'URL figurant dans le sitemap XML.
Pour que Google puisse explorer et indexer la page, il doit d'abord être en mesure de la trouver par le biais de liens. Dans le cas des pages orphelines, cela n'est pas possible et, par conséquent, ces URL ne sont souvent pas indexées et risquent de ne jamais s'afficher dans les résultats de recherche.
Même si elles figurent dans le sitemap XML, les pages orphelines restent donc un problème pour le référencement et vous devez essayer de les trouver et de les corriger.
Comment trouver toutes les pages orphelines sur votre site web
La première étape pour résoudre le problème des pages orphelines consiste à identifier les pages exploitables, c'est-à-dire à créer une liste complète des URL qui peuvent actuellement être atteintes par l'exploration des liens sur le site.
Il est important de disposer d'une liste de toutes les URL actives - c'est-à-dire celles qui peuvent recevoir des visites des crawlers - puis d'exclure les pages qui ne peuvent pas être indexées par les moteurs de recherche, car elles sont classées comme noindex ou bloquées par un paramètre du fichier robots.txt. L'analyse doit toujours commencer par la page d'accueil du site et s'assurer que l'URL canonique est utilisée, y compris les versions HTTPS ou HTTP et www ou sans www correctes.
Comparer les listes d'URL pour découvrir les lacunes
Une fois l'analyse terminée, exportez la liste des URL vers une feuille de calcul Excel et collez-les dans une colonne.
Il faut maintenant procéder à l'analyse des écarts, qui consiste à comparer les données provenant de différentes sources pour rechercher d'éventuelles divergences : par exemple, les données de Google Analytics, les données de la Search Console, les données de Sitemap ou les fichiers journaux du serveur du site.
L'important est de disposer de listes complètes d'URL pour analyser les ressources "manquantes" afin d'identifier les lacunes : l'utilisation de la formule de correspondance par exemple lancera automatiquement la recherche des correspondances et des absences et vous pourrez trouver les URL orphelines.
Comment traiter les pages orphelines
Après avoir effectué ces étapes et trouvé toutes les pages orphelines, il est temps de déterminer le sort qui doit leur être réservé sur la base de quelques évaluations et réflexions :
- La page est-elle pertinente ?
- Est-elle classée pour certains mots-clés, malgré tout ?
- Génère-t-elle des visites ?
- Reçoit-elle des backlinks de sources externes faisant autorité ?
- Son existence a-t-elle un sens dans la taxonomie du site ?
- Est-elle optimisée ?
Si les réponses sont positives, vous devriez améliorer cette page et l'inclure dans la structure de liens internes du site, simplement en créant un lien vers elle à partir d'une page régulière existante ; pour améliorer ses performances, vous pouvez ensuite mettre à jour et améliorer son contenu si nécessaire.
À l'inverse, si la page est inutile et que, de surcroît, son contenu est dupliqué ou presque, la meilleure option est de la supprimer, en définissant un code d'état HTTP 404 ou 410, ce qui pourrait également offrir des avantages en termes d'efficacité du budget de crawl.