29 marzo, 2014

Acerca del archivo robots.txt: cómo crearlo

Por Marketing Online
Share

Acerca del archivo robots.txt, cómo crearloValencia, 29/03/2014, G.B.
El archivo robots.txt es un fichero de texto plano (plain text) que se utiliza para dar instrucciones a los robots web, crawlers o arañas web -programas que rastrean toda la Red para indexar resultados en las bases de datos de los motores de búqueda, como Google, Yahoo!, Bing…- qué es lo que deben visitar y qué es lo que no deberían para indexar de nuestro sitio web.

Con robots.txt podemos así excluir páginas y directorios enteros de nuestro sitio web de los resultados de búsqueda.

bot

Cómo crear el fichero robots.txt
Un fichero robots.txt se crea de forma muy sencilla: simplemente necesitas un editor de texto plano (como el notepad de Windows, gedit de Linux, etc.) el cual, tras haber escrito las instrucciones y guardado el archivo como robots.txt (siempre en formato texto plano, recordad), subimos al directorio raíz de nuestro sitio web. ¿Y cuál es su sintáxis? Sencilla. Veámoslo con un ejemplo:

User-agent: *
Disallow: /

User-agent indica el robot o crawler. Tras los dos puntos utilizamos el asterisco que hace de comodín, es decir, indicamos a todos los robots que pueden rastrear nuestro sitio.

El siguiente término, Disallow, escrito en la segunda línea, indica que partes de nuestra web queremos que no sean rastredas para así no indexarse en los motores de búsqueda. La barra inclinada hacia la derecha (/) nos indica el directorio de nuestro sitio web. Si sólo está la barra, indicará que no queremos que los robots indexen nuestro sitio.

En el siguiente ejemplo vamos a especificar en nuestro fichero robots.txt  que los robots no visiten (paa no indexar) una determinada carpeta, como por ejemplo una carpeta denominada apuntes y una serie de archivos: enlaces.html, directorios.txt, por ejemplo. Veamos:

User-agent: *
Disallow: /apuntes
Disallow: /enlaces.html
Disallow: /directorios.txt

Podemos indicar en nuestro archivo robots.txt que los robots o crawlers no rastrear cualquier tipo de archivo de nuestra web (páginas html, archivos de texto, imágenes, vídeos…). Eso sí, tened en cuenta que robots.txt no prohíbe la visita, simplemente recomienda a los robots o crawlers que no las visiten. Los robots ‘buenos’ (Googlebot es el de Google) suelen hacer caso a la recomendación de nuestro fichero robots.txt, pero a los robots ‘malos’ les da exactamente igual nuestra ‘recomendación, como ya os podéis imaginar.

Para evitar rastreos a determinados directorios y archivos de nuestro sitio deberemos utilizar otros métodos, como por ejemplo el archivo de directiva de servidor Apache .htaccess, o el fichero de configuración de servidores Windows webconfig. También podemos utilizar la restricción de directorios y archivos que suelen poner a nuestra disposición de forma gráfica y sencilla el hosting en donde tengamos alojado nuestro sitio. Otra opción: utilizar las Google Webmaster Tools, o Herramientas para Webmasters de Google.

Un sitio que nos permite crear el archivo robots.txt de forma gratuita, sencilla, rápida y online es: Herramienta SEO : Generador Robots.txt.

Más información sobre robots.txt:

Print Friendly, PDF & Email

Publicado por Puntocomunica.com :: comunicación 2.0 - Noticias Valencia y Comunitat Valenciana