Please enable / Por favor activa JavaScript!
Por favor activa el Javascript![ ? ]

Robots.txt: Qué es y como configurarlo  Robots.txt: Qué es y como configurarlo

Valoración de éste post
4.62 / 5 de 24 votos



Mensajes: 1235


Puntos totales:

Enhorabuena!

32





El archivo robots.txt consiste en toda una serie de recomendaciones y reglas que todos los robots de los buscadores deberán cumplir.

En este post veremos cómo crear este archivo y como parametrizarlo. El archivo robots.txt consiste básicamente en un archivo de texo que informa de las reglas que deberán seguir los crawlers o robots de los diferentes buscadores.

Definamos brevemente que es un crawler o un robot: se trata de un rastreador que rastrea todas las secciones de una página web para buscar en indexar el mayor número de información sobre ella para posteriormente añadirla a los índices de los buscadores o resultados de búsqueda. A los crawlers habitualmente se les llama arañas, spiders o robots. Si tomamos como ejemplo el rastreador de Google, este se llama Googlebot.

Estableciendo una adecuada parametrización de nuestro archivo robots.txt, podemos lograr una serie de acciones positivas hacia nuestro site como pueden ser impedir la indexación de ciertos lugares dentro de nuestra web, reducción de la sobrecarga del servidor: se puede monitorizar el tráfico de algunos crawlers.

Hay algunos crawlers que la verdad van como locos en la indexación y nos pueden llegar a sobrecargar nuestro server. Podemos también restringir las zonas de acceso a la indexación o sólo permitir acceso en aquellas zonas donde nos interese. Podemos también mitigar el contenido duplicado: algo que muchas veces no tienen en cuenta los webmasters, al eliminar el contenido duplicado los crawlers puntuarán con más nota nuestro dominio incrementando así el número y tránsito de visitas.

También podemos identificar los mapas del dominio (sitemaps.xml): podemos definir dentro del archivo robots.txt donde está ubicado el sitemap de nuestro site, etcétera.

Veamos ahora como creamos este archivo de texto robots.txt

La elaboración de nuestro archivo robots.txt es relativamente sencilla. Tomaremos a modo de ejemplo el siguiente caso dónde permitiremos la entrada de los spiders y el bloqueo a ciertas zonas del site.

Empecemos creando el archivo de texto robots.txt:

User-agent: *
Disallow: /zona_de_admin


Aquí estamos diciendo que todos los crawlers (User-agent: *) no tienen accesos a la carpeta /zona_de_admin. Esto significa que no se indexará nada de esta carpeta en los resultados de búsqueda.

Hay veces que los webmasters usan en vez de Disallow: /ruta el Allow: /ruta para indicar justamente lo contrario, aunque técnicamente es correcto, no hace falta usar el allow ya que por defecto los crawlers indexan todo excepto lo que les indiquemos con el Disallow.

También podemos indicar varios Disallow: /ruta en el archivo robots.txt, tantos como tantas zonas nos interese no indexar.

Si aplicas correctamente estas normas, verás que a ojos de Google estarás quedando muy bien ya que sólo le estás indicando el contenido que realmente quieres indexar.

Otro parámetro interesante es si queremos definir la frecuencia de rastreo. Podemos indicar cada cuanto tiempo queremos que los crawlers rastreen mediante:

User-agent: * Crawl-delay: 60


Con esta parametrización, le indicamos al robots.txt que se mantenga en espera 60 segundos entre un y otro acceso. Cabe decir que el crawl-delay no todos los spiders lo entienden y nos podemos encontrar que los periodos de indexación varíen.

Otra función interesante es incluir la ruta de nuestro Sitemap.xml: es importante que los crawlers sepan dónde se encuentra el mapa del sitio para que puedan rastrear nuestra web al completo. Para indicar el sitemap de nuestro sitio web usaremos:

 Sitemap: http://www.nuestra_web.ext/sitemap.xml


Normalmente nuestro Sitemap.xml lo ubicaremos en la raíz del dominio.

Como detalle final, os dejo un vídeo de Matt Cutts dónde nos habla de si podemos utilizar el robots.txt para optimizar el crawl o spider de Google:







No te pierdas el tema anterior: Qué es y como salir del efecto Sandbox

Salta al siguiente tema: Sitemap.xml: Qué son los sitemaps y como crearlos

Quizás también te interese:
Si has encontrado información útil en Exaforo, ayúdanos a seguir creciendo. Muchas gracias por confiar en nosotros!


Volver a Posicionamiento