Blog sobre Accesibilidad Web, diseño Web, SEO y recursos gratis en la Web

martes, 11 de marzo de 2008

Como decirle no a un crawler

El archivo robots.txt es el encargado (en el root del sitio) de implementar directivas con respecto al rastreo de los bots en nuestro sitio, o impartir restricciones para alguno en particular.
La sintaxis adecuada y las consideraciones correspondientes están disponibles en el sitio oficial http://www.robotstxt.org/
No obstante, a veces (tópico frecuente en los foros de discusión) el bot o spider no sigue las directivas y rastrea e indexa contenido de nuestro sitio, a pesar de nuestros explícitos requerimientos.
Esto, generalmente se debe a una mala implementación de las directivas o debido a un error de sintaxis en el archivo.


robots.txt Checker es una herramienta que se encarga de verificar la sintaxis de nuestro archivo.

Independientemente del espíritu de esta entrada están disponibles otros recursos adicionales:
Share:

Publicidad

Estadísticas

A cotidiano, me siguen