Fichier ROBOTS.TXT

Votre première page html
Editeurs html
Conseils de bon sens
Polices (fontes) lisibles
Caractères accentués
Charte graphique
Images légères
La page d'accueil (pdf)
Les formulaires
Tester avant mise en ligne
En savoir plus (pdf)
Robots d'indexation et annuaires
Sécurité - virus

    Placé à la racine de votre site, ce fichier facultatif est destiné au robots d'indexation. Ils testeront sa présence et, s'il existe, tiendront compte des directives qu'il contient.
    A défaut, ils exploreront l'ensemble de votre site et référenceront ce que bon leur semblera, parfois sans finesse…

Eviter le référencement aveugle
Ce fichier ne sert pas à guider le robot, mais plutôt à lui interdire de référencer certains répertoires ou fichiers sur lesquels vous ne souhaitez pas voir les internautes arriver directement, voire pas du tout.
Il n'existe pas d'autre procédé «positif» désignant aux robots les pages à référencer !

Au-delà des robots
Le contenu du fichier robots.txt sera également exploité par les référenceurs manuels auprès desquels vous aurez déclaré l'existence de votre site.

Avec un éditeur de texte
La réalisation du fichier robots.txt est particulièrement simple. Elle s'effectue avec un éditeur de texte. Le fichier sera enregistré avec l'extension .txt

Que faire de robots.txt ?
Vous lui donnerez donc le nom: robots.txt (minuscules) et le transfèrerez sur le serveur hébergeant votre site.
Sa place est à la racine de l'arborescence.
Le transfert s'effectue grâce à un programme de transfert ftp, comme pour l'ensemble des pages de votre site.
Pour en savoir plus, cliquer ici.

Comment le rédiger ?
La syntaxe est assez simple. Vous pouvez même finasser en vous adressant individuellement à chaque robot d'indexation. Mais pourquoi interdire à certains ce que vous autoriseriez à d'autres ?
Indiquez donc que vous vous adressez à tous.

Quoi exclure ?
Soit vous listez des répertoires, soit des

Optimiser son référencement...
Généralités
Nom du site
URL de la page
Texte de la page
Titre donné à la page
Balises META
Renseignement par le(s) ALT
Echange de bannières
Frames ou multi-fenêtres
Fichier robots.txt
Web-Se référencer KITWEB)

fichiers, soit une combinaison des deux. Les robots n'iront pas explorer leur contenu.
Vous pourriez même (en une seule commande…) leur interdire de référencer l'ensemble du site… Mais à quoi bon publier sur le web si vous cachez le fruit de votre travail ?
Ecartez les robots des zones de service (mots de passe, pages d'erreur etc), et des pages s'inscrivant dans des frames (si celles-ci comptent sur les autres frames pour naviguer sur le site) ! Il serait en effet dommage qu'un internaute atterrisse bêtement sur une page html ne comportant pas de liens exploitables…

Un exemple
Vous trouverez ci-dessous un exemple de fichier robots.txt, utile à la bonne compréhension de ce qu'il faut faire pour guider les robots d'indexation.

Olivier SASSOT

# Ici votre nom - la date ou tout autre commentaire à usage interne, non lu par les robots
# Ces lignes seront par contre accessibles aux référenceurs manuels.
# Le fichier robots.txt doit être copié à la racine du site.
# Il ne doit pas contenir de ligne vide entre User-agent et Disallow, tant qu'on s'adresse à un même robot. On passe une ligne pour s'adresser au robot suivant (si nécessaire).
# La ligne suivante pour que tous les robots se sentent concernés...
User-agent:*
# Désignez la liste des répertoires à écarter. On peut fermer par un / ou non. Dans ce dernier cas, l'ordre concernera à la fois les répertoires et les fichiers portant les noms listés ci-dessous.
# Pour exclure l'ensemble du site, il faudrait écrire: Disallow:/ (et c'est tout…)
Disallow:/nomdurepertoire/
Disallow:/autrerepertoire/
Disallow:/etainsidesuite/
# Désignez aussi les pages html à exclure, si elles figurent dans des répertoires laissés accessibles aux robots.
# A l'inverse de ce qui précède, ne fermez pas la ligne par \ . Vous pouvez préciser ou ne pas préciser l'extension html, elle est alors sous-entendue. En ne fermant pas la ligne par \, l'exclusion concernera conjointement les répertoires ET les pages dont le nom est mentionné ci-dessous.
Disallow:/chemin1/page1
Disallow:/chemin2/page2
Disallow:/chemin3/page3
# C'est finalement plus simple que d'utiliser les META tags d'exclusion, sur chaque page...