Los buscadores, si no se les indica lo contrario, indexan todo aquello que esté enlazado desde alguna página web previamente indexada, ya se trate de imágenes, scripts, ficheros XML, ficheros de datos, otras páginas web, etc.
Pero a veces ocurre que, aunque estos contenidos estén previamente enlazados en algún sitio, no nos interesa que sean indexados en los buscadores, ni aparezcan en los resultados de búsqueda, por el motivo que sea.
Para hacer ésto, tenemos una opción muy sencilla de indicar a los buscadores qué elementos queremos que indexen en sus bases de datos, y cuales no, mediante el fichero robots.txt.
Por ejemplo, si en robots.txt indicamos lo siguiente:
User-agent: *
Disallow: /
… hacemos saber a los robots (indexadores) que su contenido es aplicable a todos los buscadores ( User-agent: * ) y que no debe indexar ningún contenido del sitio web ( Disallow: / ).
Siendo menos radicales, si especificamos lo siguiente:
User-agent: *
Disallow: /admin.php
Disallow: /fotos/
… indicamos a los robots que las siguientes órdenes son aplicables a todos los buscadores, y que no deben indexar ni el fichero /admin.php , ni el directorio /fotos/ (ni su contenido, claro está).
El fichero robots.txt debe ponerse en el directorio raíz de nuestro sitio web.
Más información en el sitio web de robots.txt.