Le fichier robot.txt, à placer à la racine des serveurs virtuels de chacun de vos domaines et sous-domaines, contient des directives transmises à titre d’indication aux moteurs de recherche et différents outils d’indexation venant les chercher.
Remarque : pour protéger et sécuriser un dossier contre la lecture, seul le fichier .htaccess doit être utilisé. Il peut interdire l’accès à un répertoire et donc à l’indexation des pages et dossiers qu’il contient.
Le robot.txt peut être avantageusement utilisé pour retirer de l’index des moteurs de recherche des pages sans intérêt pour les Internautes ou pouvant créer du contenu dupliqué sur votre propre site et déclasser certaines pages importantes.
Voici en exemple 2 règles utilisées sur news.68000.fr pour l’optimisation SEO, indiquant aux moteurs de recherche que :
- les fichiers du dossier lib ne seront pas parcourus et donc pas indexés (utilisé pour ne pas référencer des fichiers librairies sans utilité pour le SEO)
- les fichiers du dossier cat seront parcourus mais non indexés. Les liens qu’ils comportent pourront être suivis par le crawler des moteurs de recherche (utilisé ici pour ne pas indexer les pages de listes mais les liens qu’elles comportent)
User-agent: *
Disallow: /lib/
Noindex: /cat/
Dans le cas du moteur de recherche Google, les résultats de ces actions seront indiquées depuis votre compte Search Console, comme celles du fichier sitemap.xml
Référence : http://robots-txt.com/ressources/robots-txt-noindex/