Pour cette deuxième leçon, nous allons travailler sur le fichier robots.txt et le sitemap.xml.

Créer un fichier robots.txt et le placer à  la racine du site (http://www.example.net/robots.txt)
Le fichier robots.txt donne des instructions robots des moteurs de recherche.

Son contenu pourrait être par exemple:

User-agent: Zarmito
Disallow: /secret/
Disallow: /dangereux/
Disallow: /photos/personnel/2008.html

User-agent: *
Disallow: /secret/
Disallow: /dangereux/

Sitemap: http://www.example.tld/sitemap.xml

Cela signifie que le robot Zarmito peut voir toutes les pages du site sauf celles qui sont placées dans les trois répertoires mentionnés. Et que les autres robots peuvent visiter toutes les pages sauf celles contenues dans secret et dangereux.La ligne concernant le sitemap indique au bot le chemin à  suivre pour trouver le fichier sitemap (voir plus bas).

La liste des bots est visible ici: http://www.robotstxt.org/db.html

Transférez votre fichier robots.txt en mode ASCII. De nombreux clients FTP modifient le code des fichiers .txt lorsqu’ils ne sont pas transférés en mode ASCII. Ceci est la cause des problèmes les plus fréquemment rencontrés avec les fichiers robots.txt.

Créer un sitemap
C’est un moyen pour le webmaster de décrire la liste des pages de son site qui doivent être indexées par Google. L’idée est de faciliter la tâche aux robots d’indexation de Google afin qu’ils indexent plus rapidement et efficacement les pages de votre site.

Le ou les fichiers sitemaps doivent être placés dans le répertoire de plus haut niveau (celui se rapprochant le plus près de la racine). Sitemap: http://www.example.com/sitemap.xml
Pour soumettre le sitemap à  Google on doit faire une requête HTTP :
http://www.google.com/webmasters/sitemaps/ping?sitemap=http://www.monsite.fr/url_sitemap

Pour wordpress, il suffit d’installer le plugin Google Sitemap Generator pour générer automatiquement un sitemap (http://www.arnebrachhold.de/projects/wordpress-plugins/google-xml-sitemaps-generator/).
Pour les autres types de site, il est possible d’utiliser les outils proposés par Google Webmaster par exemple.

Pour Spip, créer un sitemap: http://www.spip-contrib.net/Sitemap-Google

Prochaine leçon demain : L’optimisation des urls et du code html