No te pierdas nuestras otras creaciones:
La-biblioteca.com | Cineactual.es | Dedemonios.shop


Qué es el crawling?  Qué es el crawling?

Valoración de éste post
4.23 / 5 de 2962 votos



Mensajes: 791


Puntos totales:

Enhorabuena!

34




El contenido de este artículo o información está sujeto a una licencia Creative Commons BY (CC-BY), puedes divulgar públicamente este contenido pero deberás hacer mención del autor: Kernel e indicar la dirección web de esta página: https://www.exabyteinformatica.com/tienda/foro/que-es-el-crawling-t1520.html

The content of this article or any related information is under the Creative Commons license BY, you can republish this content freely but you must mention the author of this article: Kernel and indicate the URL of this page: https://www.exabyteinformatica.com/tienda/foro/que-es-el-crawling-t1520.html

Bajo licencia de Creative Commons


¿Qué es un crawling?

Google para decidir qué páginas indexa en su base de datos y por consiguiente puede luego posicionar visita todas las páginas que puede de cada dominio en internet. Para ello utiliza lo que se llama un Crawler, un rastreador Web que comienza con una lista de direcciones URL para visitar.

A medida que el rastreador visita estas direcciones URL, identifica todos los hipervínculos en la página y los añade a la lista de URL para visitar.

Uno de los principales problemas a los que se enfrenta Google es que el número de posibles URL rastreadas que genera el software del lado del servidor le hace tener que dedicar cada vez más recursos al proceso de visitar las páginas web. Para decidir cuántas páginas visita Google asigna a cada dominio lo que llamamos un Crawl budget y cuando lo agota deja ese proyecto y pasa al siguiente.

Visita Exaforo.com


Por esto es importante optimizar el proceso de crawling pues si consumimos nuestro crawl budget en páginas no importantes podemos
encontrarnos que las páginas que nos interesa posicionar no son visitadas por el crawler y por tanto no se posicionarán.

Teniendo en cuenta que el ancho de banda para la realización de rastreos no es ni infinito ni gratis, se hace indispensable para rastrear la Web, no sólo en una forma escalable, pero eficiente, sino también alguna medida razonable de calidad o frescura debe ser mantenido. Un crawler debe elegir con cuidado en cada paso qué página siguiente visitar.

Por ello cuando el crawler se encuentra con errores, problemas de acceso, redirecciones o mucho contenido duplicado suele terminar ignorando grandes secciones de la web.

Hemos de evitar que la web de:

Errores 404 : Si una de nuestras páginas enlaza a una dirección incorrecta (error 404) el crawler la sigue y se encuentra con que no existe. Le hemos hecho perder el tiempo y una petición. Además aunque hoy de un error 404 no dejará de volver a visitarla en el futuro por si hay cambios y vuelve a estar disponible por eso hemos de corregir todos los errores 404 que tiene la web.

Redirecciones internas : enlazamos una página pero al llegar a esa página le decimos al crawler que esta dirección no es la correcta que vaya a esta otra. Hemos vuelto a consumir recursos cuando lo óptimo habría sido enviarlo desde el principio a la dirección correcta.

Contenido vacío o duplicado : La capacidad de la programación web de generar contenido vacío es infinita. Hemos de controlar los parámetros de las urls y la programación para que no generen contenido vacío o duplicados.

Velocidad de carga : cuando el crawler hace una petición a una web tiene que esperar a que esta responda y le envíe los contenidos de la urls que está visitando. Cómo el número de peticiones simultáneas que puede realizar no es infinito una web que tarda mucho en contestar es rápidamente ignorada.



No te pierdas el tema anterior: Novato en SEO, alguien ha leído estos libros?

Salta al siguiente tema: Best Practice for Long Tail keywords on ecommerce?

Quizás también te interese:

Volver a Posicionamiento