Restreindre l’acces aux robots pour optimiser votre referencement



Les robots sont livrés à eux même car ils indexent souvent des pages qui ne
devraient pas être indexé, ou encore donne du poids à des pages qui ne
devraient pas servir de *point d’entré* aux utilisateurs de votre site,
comme par exemple une page profonde de troisième niveau qui a fait un buzz
et qui a pris beaucoup (trop) de poids. Vous préféreriez voir vos
utilisateurs rentrer sur des pages de premier niveau ou se trouve un
résumez explicite de la thématique de votre site !! Les robots ont aussi la
fâcheuse habitude d’indexer du duplicata de contenu puis de faire le
mauvais choix entre les pages dupliquées. Alors comment *résoudre ces
différents problèmes qui font perdre du jus à votre site* et désoriente vos
utilisateurs qui accèdent à votre site directement par les pages de
résultats des moteurs?


Prenons un exemple simple, imaginer un enfant en bas âge. Pour l’empêcher
de faire des bêtises vous protégez vos prises de courant, vous cachez les
produits inflammables dans un endroit qu’il ne peut atteindre, retirez tout
objet tranchant de son environnement pour qu’il ne puisse pas se couper, et
en même temps vous lui donnez des jouets éducatifs, mettez un jolie dessin
animé éducatif à la télé. Maintenant vous pouvez le laisser seul vaquer à
ses occupations.

C’est pareil pour les moteurs, ils sont comme de jeunes bébés, il faut *les
guider pour les empêcher d’accéder à certaines zones de votre site*. Pour
cela vous disposez d’outils. Je vais avec vous, décrire ces outils qui
donneront du poids à vos pages qui doivent servir de point d’entré à vos
utilisateurs et empêcher les moteurs d’indexer du contenu dupliqué.

*1. Le Tag canonical*

La balise canonique est une balise Meta placée dans l’en-tête HTML de la
page web. Il donne au moteur des indications de recherche dont l’URL est la
version canonique de la page en cours.

Le code ressemble à ceci:

<link rel="canonical" href="http://exemple.com/ma_page_canonique.htm">

*Exemples*
Si vous présentez des articles, vous avez souvent une page qui liste les
articles avec le texte de l’article et un lien ancré vers l’article.
Appliquer le canonicale parait ici judicieux, il vous faut simplement
mettre sur cette page qui liste vos articles la balise canonique qui pointe
sur votre home, et ainsi éviter aux moteurs d’indexer l’article plusieurs
fois. *Cela va donner du poids à votre home* et laisser le champ libre aux
moteurs pour indexer indépendamment votre article.

Dans ce cas beaucoup de référenceurs préféreront également ne pas utiliser
le canonicale en mettant seulement une partie tronqué de l’article sur
cette page qui liste les articles. C’est une technique judicieuse car l’on
n’a pas de duplication de contenu et l’on obtient en supplément un double
résultat dans les pages de résultats des moteurs. Si vous adoptez cette
technique, je vous conseil de tronquer jusqu’à 90% de l’article sur la page
qui liste les article et ne laisser que 10% à manger aux moteurs, histoire
de les laisser gouter l’article sans le manger intégralement.

Un autre exemple pour l’application du canonical pourrait être *la version
mobile de votre site*, pour éviter que Google n’indexe cette version, il
est fort recommandé d’installer la balise canonicale vers la version non
mobile du site.

Garder à l’esprit que *le canonicale n’est pas une redirection 301* mais un
indicateur pour les moteurs afin qu’ils suppriment les doublons de votre
site et ne laissent qu’une seule url d’entrée. Regarder attentivement sur
votre site tous les points d’entrées de vos pages de contenu, comme par
exemple vos pages archives, vos pages de listes, votre sitemap XML… et ne
laisser aux moteurs qu’une seule entrée à indexer.

*2. Le robots.txt*

Robots.txt permet un certain contrôle des accès par les robots de moteur de
recherche à un site, mais robots.txt ne garantit pas qu’une page ne soit
pas indexée. Il est à utilisé uniquement lorsque c’est nécessaire. Il est
souvent utilisé pour empêcher les moteurs d’indexer vos pages périmées et
autre page sessions. L’avantage est que ce fichier est enfantin à mettre en
place. Par contre *éviter de mettre vos pages admin dans ce fichier* car
c’est un point d’entré pour les hackeurs.
Je vous recommande de le placer sur votre site, même vide, mettez le!

*3. Les Meta Tag des Robots*

La balise Meta Robots est une instruction pour les robots des moteurs de
recherche. La balise Meta Robots doit être placée dans l’en-tête HTML de la
page web.

*Le Meta Robot « noindex »*

C’est de loin *le tag le plus puissant pour empêcher un moteur d’indexer
une page*. Car au delà d’une indication c’est une instruction. L’avantage
de ce Meta Robot est à la fois d’interdire aux Robots des moteurs
d’interdire d’indexer des pages et de le laisser suivre les liens.
Ce Meta Robot est bien plus puissant qu’une simple indication du fichier
robots.txt, et tant que vous n’utilisez pas de « nofollow » le jus des
liens continue d’être propagé.

*Exemple d’utilisation:*
Imaginez que vous commenciez un annuaire, au début vos pages seront vide,
il est alors judicieux de ne pas les indexer en plaçant un Meta « noindex »
sur ces pages. Et si ces pages ne contiennent pas de pages profondes à
indexer, alors ajouter également le Meta Robot « nofollow »

*Comme ceci:*

<meta name="robots" content="noindex,nofollow" />

Et voilà! Dans ce parcours pour empêcher les Robots des Moteurs d’indexer
certaines pages, nous avons fait un grand tour d’horizon sur les
différentes techniques à mettre en place. De mon coté je préfère de loin le
Meta Tag « noindex » car il est pris en compte immédiatement par les Robots
des moteurs et *il laisse le jus se propager sur les autres pages*.

Gardez le cap sur vos optimisations!