Herramientas y recursos para optimizar el SEO de tu web:

SEMrush

Este post con identificación 59, con web https://www.exabyteinformatica.com/tienda/foro/robots-txt-que-es-y-como-configurarlo-t59.html y con una longitud de 93 caracteres, ha sido cargada con éxito. En el foro verás iconos que si eres un gamer de Nintendo te serán familiares: la seta grande expande tu conocimiento, la seta verde te abre un nuevo umbral de conocimiento. Destapa conocimientos (seta verde) y házlos crecer con la seta roja. Para dar tu opinión sobre este tema o cualquier otro, primero es necesario registrarte en exaforo.com, no cuesta dinero: es GRATIS.

En el momento de registrarte, tendrás que leer y aceptar, las Normas generales del foro. No cuesta nada agradecer un comentario de alguien o de no insultarle, el respeto es el valor más preciado que intentamos fomentar. Si detectamos una actividad ilícita en tu cuenta o haces abuso de spam, podemos cancelar tu cuenta permanente o temporalmente.

Cuando decidas escribir para nosotr@s, por favor, no copies y pegues contenido que ya exista en otra página web o que ya sea de otro usuario. Ten en cuenta que si detectamos contenido duplicado, el sistema anti-spam procederá a borrarlo sin prévio aviso.

Finalmente, y no por eso menos importante, queremos desde todo el equipo humano que formamos Exaforo, desearte una muy feliz y productiva estancia en nuestro dominio. Disfruta, aprende y comparte...

¡Muchas gracias por dedicarnos unos minutos y disfruta mucho con nuestra comunidad!

Datos internos informativos (No hagas caso de estos datos, son para los administradores de Exaforo)

Fecha y hora de carga de esta página: 16/122018 a las 19:48:55
Memória total usada: 7508232

¿Por qué aparece el logo de Paypal en los temas? ¿Cobra Exaforo por usar su foro? No cobramos por usar el foro y el logo de Paypal es el de las donaciones. Tener en marcha un servidor 24/365, costear el hosting, los certificados digitales SSL, nuestros equipos…todo esto conlleva un coste que tratamos de sufragar mediante las donaciones. Nuestra aportación, cuando adquirimos equipos nuevos, consiste en donar nuestros viejos equipos a centros educativos con pocos recursos para que su alumnado (la mayoría niños) puedan desempeñar las asignaturas de tecnología y el centro pueda cubrir unos pocos puntos de trabajo. Tus donaciones no solo nos ayudan a nosotros sino también a los niños de las escuelas. Por eso es tan importante, porque a pesar que nosotros fomentamos el conocimiento libre, las herramientas para desempeñar dicho trabajo no lo son.

Más abajo verás un botón con el logo de Paypal. Si haces clic en el botón, te llevará a la página oficial de Paypal, allí dentro, con tu cuenta de Paypal, puedes hacer la donación del importe que tú quieras. Nosotros no pedimos un mínimo, puedes donar 1 céntimo de € si quieres o la cantidad que tú quieras. Si donas o no donas, solo te diremos una cosa: ¡Muchas gracias por habernos leído hasta aquí!

Robots.txt: Qué es y como configurarlo  Robots.txt: Qué es y como configurarlo

Valoración de éste post
4.62 / 5 de 951 votos



Mensajes: 956


Puntos totales:

Enhorabuena!

32




El contenido de este artículo o información está sujeto a una licencia Creative Commons BY (CC-BY), puedes divulgar públicamente este contenido pero deberás hacer mención del autor: Kernel e indicar la dirección web de esta página: https://www.exabyteinformatica.com/tienda/foro/robots-txt-que-es-y-como-configurarlo-t59.html

The content of this article or any related information is under the Creative Commons license BY, you can republish this content freely but you must mention the author of this article: Kernel and indicate the URL of this page: https://www.exabyteinformatica.com/tienda/foro/robots-txt-que-es-y-como-configurarlo-t59.html

Bajo licencia de Creative Commons


El archivo robots.txt consiste en toda una serie de recomendaciones y reglas que todos los robots de los buscadores deberán cumplir.

En este post veremos cómo crear este archivo y como parametrizarlo. El archivo robots.txt consiste básicamente en un archivo de texo que informa de las reglas que deberán seguir los crawlers o robots de los diferentes buscadores.

Definamos brevemente que es un crawler o un robot: se trata de un rastreador que rastrea todas las secciones de una página web para buscar en indexar el mayor número de información sobre ella para posteriormente añadirla a los índices de los buscadores o resultados de búsqueda. A los crawlers habitualmente se les llama arañas, spiders o robots. Si tomamos como ejemplo el rastreador de Google, este se llama Googlebot.

Estableciendo una adecuada parametrización de nuestro archivo robots.txt, podemos lograr una serie de acciones positivas hacia nuestro site como pueden ser impedir la indexación de ciertos lugares dentro de nuestra web, reducción de la sobrecarga del servidor: se puede monitorizar el tráfico de algunos crawlers.

Hay algunos crawlers que la verdad van como locos en la indexación y nos pueden llegar a sobrecargar nuestro server. Podemos también restringir las zonas de acceso a la indexación o sólo permitir acceso en aquellas zonas donde nos interese. Podemos también mitigar el contenido duplicado: algo que muchas veces no tienen en cuenta los webmasters, al eliminar el contenido duplicado los crawlers puntuarán con más nota nuestro dominio incrementando así el número y tránsito de visitas.

También podemos identificar los mapas del dominio (sitemaps.xml): podemos definir dentro del archivo robots.txt donde está ubicado el sitemap de nuestro site, etcétera.

Veamos ahora como creamos este archivo de texto robots.txt

La elaboración de nuestro archivo robots.txt es relativamente sencilla. Tomaremos a modo de ejemplo el siguiente caso dónde permitiremos la entrada de los spiders y el bloqueo a ciertas zonas del site.

Empecemos creando el archivo de texto robots.txt:

User-agent: *
Disallow: /zona_de_admin


Aquí estamos diciendo que todos los crawlers (User-agent: *) no tienen accesos a la carpeta /zona_de_admin. Esto significa que no se indexará nada de esta carpeta en los resultados de búsqueda.

Hay veces que los webmasters usan en vez de Disallow: /ruta el Allow: /ruta para indicar justamente lo contrario, aunque técnicamente es correcto, no hace falta usar el allow ya que por defecto los crawlers indexan todo excepto lo que les indiquemos con el Disallow.

También podemos indicar varios Disallow: /ruta en el archivo robots.txt, tantos como tantas zonas nos interese no indexar.

Si aplicas correctamente estas normas, verás que a ojos de Google estarás quedando muy bien ya que sólo le estás indicando el contenido que realmente quieres indexar.

Otro parámetro interesante es si queremos definir la frecuencia de rastreo. Podemos indicar cada cuanto tiempo queremos que los crawlers rastreen mediante:

User-agent: * Crawl-delay: 60


Con esta parametrización, le indicamos al robots.txt que se mantenga en espera 60 segundos entre un y otro acceso. Cabe decir que el crawl-delay no todos los spiders lo entienden y nos podemos encontrar que los periodos de indexación varíen.

Otra función interesante es incluir la ruta de nuestro Sitemap.xml: es importante que los crawlers sepan dónde se encuentra el mapa del sitio para que puedan rastrear nuestra web al completo. Para indicar el sitemap de nuestro sitio web usaremos:

 Sitemap: http://www.nuestra_web.ext/sitemap.xml


Normalmente nuestro Sitemap.xml lo ubicaremos en la raíz del dominio.

Como detalle final, os dejo un vídeo de Matt Cutts dónde nos habla de si podemos utilizar el robots.txt para optimizar el crawl o spider de Google:

Ver vídeo https://www.youtube.com/watch?v=I2giR-WKUfY en Youtube | http://www.exaforo.com
Dale al botón del play para ver el vídeo https://www.youtube.com/watch?v=I2giR-WKUfY  en YouTube




No te pierdas el tema anterior: Qué es y como salir del efecto Sandbox

Salta al siguiente tema: Sitemap.xml: Qué son los sitemaps y como crearlos

Quizás también te interese:
Si has encontrado información útil en Exaforo, ayúdanos a seguir creciendo. Muchas gracias por confiar en nosotros!


Volver a Posicionamiento


cron