Placé à la racine de votre site, ce fichier facultatif est destiné au robots d'indexation. Ils testeront sa présence et, s'il existe, tiendront compte des directives qu'il contient. A défaut, ils exploreront l'ensemble de votre site et référenceront ce que bon leur semblera, parfois sans finesse…
Eviter le référencement aveugle • Ce fichier ne sert pas à guider le robot, mais plutôt à lui interdire de référencer certains répertoires ou fichiers sur lesquels vous ne souhaitez pas voir les internautes arriver directement, voire pas du tout. • Il n'existe pas d'autre procédé «positif» désignant aux robots les pages à référencer !
Au-delà des robots • Le contenu du fichier robots.txt sera également exploité par les référenceurs manuels auprès desquels vous aurez déclaré l'existence de votre site.
Avec un éditeur de texte • La réalisation du fichier robots.txt est particulièrement simple. Elle s'effectue avec un éditeur de texte. Le fichier sera enregistré avec l'extension .txt
Que faire de robots.txt ? • Vous lui donnerez donc le nom: robots.txt (minuscules) et le transfèrerez sur le serveur hébergeant votre site. • Sa place est à la racine de l'arborescence. • Le transfert s'effectue grâce à un programme de transfert ftp, comme pour l'ensemble des pages de votre site. • Pour en savoir plus, cliquer ici.
Comment le rédiger ? • La syntaxe est assez simple. Vous pouvez même finasser en vous adressant individuellement à chaque robot d'indexation. Mais pourquoi interdire à certains ce que vous autoriseriez à d'autres ? • Indiquez donc que vous vous adressez à tous. Quoi exclure ? • Soit vous listez des répertoires, soit des
fichiers, soit une combinaison des deux. Les robots n'iront pas explorer leur contenu. • Vous pourriez même (en une seule commande…) leur interdire de référencer l'ensemble du site… Mais à quoi bon publier sur le web si vous cachez le fruit de votre travail ? • Ecartez les robots des zones de service (mots de passe, pages d'erreur etc), et des pages s'inscrivant dans des frames (si celles-ci comptent sur les autres frames pour naviguer sur le site) ! Il serait en effet dommage qu'un internaute atterrisse bêtement sur une page html ne comportant pas de liens exploitables…
Un exemple • Vous trouverez ci-dessous un exemple de fichier robots.txt, utile à la bonne compréhension de ce qu'il faut faire pour guider les robots d'indexation.
Olivier SASSOT
# Ici votre nom - la date ou tout autre commentaire à usage interne, non lu par les robots # Ces lignes seront par contre accessibles aux référenceurs manuels. # Le fichier robots.txt doit être copié à la racine du site. # Il ne doit pas contenir de ligne vide entre User-agent et Disallow, tant qu'on s'adresse à un même robot. On passe une ligne pour s'adresser au robot suivant (si nécessaire). # La ligne suivante pour que tous les robots se sentent concernés... User-agent:* # Désignez la liste des répertoires à écarter. On peut fermer par un / ou non. Dans ce dernier cas, l'ordre concernera à la fois les répertoires et les fichiers portant les noms listés ci-dessous. # Pour exclure l'ensemble du site, il faudrait écrire: Disallow:/ (et c'est tout…) Disallow:/nomdurepertoire/ Disallow:/autrerepertoire/ Disallow:/etainsidesuite/ # Désignez aussi les pages html à exclure, si elles figurent dans des répertoires laissés accessibles aux robots. # A l'inverse de ce qui précède, ne fermez pas la ligne par \ . Vous pouvez préciser ou ne pas préciser l'extension html, elle est alors sous-entendue. En ne fermant pas la ligne par \, l'exclusion concernera conjointement les répertoires ET les pages dont le nom est mentionné ci-dessous. Disallow:/chemin1/page1 Disallow:/chemin2/page2 Disallow:/chemin3/page3 # C'est finalement plus simple que d'utiliser les META tags d'exclusion, sur chaque page...