Guía Completa de Screaming Frog

Para muchos Screaming Frog es la herramienta de SEO Técnico por excelencia. Una tool muy eficaz para analizar sites de casi cualquier tamaño, y que nos viene al pelo para sacar insights que nos permitan saber qué es lo que está pasando en un site. Eso sí, para poder sacar un informe de calidad hay que saber usarla y entender muy bien qué es cada cosa. En esta guía de Screaming Frog voy a analizar de manera detallada cada uno de los recursos que nos ofrece está herramienta. ¡Empezamos!

Una vez instalada la herramienta, lo primero que vamos a ver es un campo donde podemos introducir la URL que queremos crawlear y darle al botón de start. No obstante, es bastante importante revisar la configuración que hay preestablecida y ver bajo qué parámetros vamos a rastrear nuestra web.

Configuración del rastreo en Screaming Frog

configuración de rastreo en screaming frog
Panel De Configuración de Rastreo en Screaming Frog

Para configurar el «crawl» en Screaming Frog nos vamos a «Configuration»-> «Spider», y se nos abrirá una ventana, en la que hay distintas pestañas. La primera pestaña es «Crawl» o «Rastreo» en castellano, y será la que modificaremos para configurar el rastreo. En esta pestaña vamos a decidir qué tipos de enlace rastreará Screaming y qué archivos se comprueban durante el crawleo. Par mí, esta es la página más importante, puesto que determina la cantidad de datos que vamos a tener después de nuestro análisis.

  • Resource Links: Aquí básicamente lo que seleccionamos son las configuraciones de crawleo en lo que respecta a los recursos del site. Es decir, le decimos a la arañita de Screaming si queremos o no que nos rastree los enlaces a Imágenes, a archivos CSS, a Javascript o a SWF. Yo suelo dejarlo siempre todo chequeado, porque a no ser que sepas qué es lo que estas buscando esto suele darte pistas sobre posibles errores de rastreo que puedan haber, como por ejemplo imágenes rotas, enlaces a archivos CSS que ya no existen por problemas con la cache… etc.
  • Page Links: Bien, aquí lo que estamos configurando es el rastreo de enlaces presentes en DOM. Por defecto, Screaming Frog no crawlea los enlaces de paginaciones, hreflangs o AMP, pero a mí siempre me gusta tener esto checkeado, sobretodo si es un primer crawleo del site, puesto que me permite encontrar cosas que de lo contrario serían «invisibles».
  • Crawl Behaviour: La configuración de crawl behaviour de Screaming Frog sirve básicamente para controlar cómo se comporta el bot una vez haya empezado el crawleo. Es decir, le decimos si queremos que respete o no las directivas que hay especificadas en el sitio web. Por ejemplo, imaginaros que una URL contiene un «nofollow», nosotros podemos decirle a Screaming si queremos que que respete ese «nofollow» o si, por lo contrario, queremos que rastree de todas formas esa URL. Aquí también podemos configurar la opción de «Check links outside the Start Folder», que básicamente significa que queremos que rastree enlaces que no están dentro del folder que hemos introducido en le buscador. Por ejemplo, imaginaros que le hemos dicho que crawlee el site empezando por «https://www.webejemplo.com/eventos/.*» Si marcamos esta opción, Screaming Frog también va a rastrear URLs como por ejemplo «https://www.webejemplo.com/noticias/», es decir URLs que se encuentran en un folder distinto a /eventos/ que es el folder por el que hemos empezado el rastreo.
  • XML Sitemaps: Aquí podemos decirle a la ranita que nos rastree también los sitemaps que se vaya encontrando. Esta opción es bastante útil si queremos ver qué URLs no están en el sitemap al finalizar el crawleo. Además, también podemos usar la opción «Crawl These Sitemaps» para decirle que rastree los Sitemaps que nosotros queramos.

Configuración de «Extraction» en Screaming Frog

configuracion de extraction screaming frog
Configuración Extraction Screaming Frog

Bien lo siguiente después del rastreo es la configuración de extraction. ¿Qué es exactamente extraction? Bien, básicamente la configuración de extraction nos permite elegir cuáles son los elementos que queremos que aparezcan en el informe de rastreo. Es decir, si por ejemplo desmarcamos la casilla de «Page Title», lo que pasará es que una vez finalizado el rastreo, no podremos ver qué page titles tiene cada página. Este panel es útil si estamos trabajando con sites muy grandes, para los cuales no queremos información de detalles de la página, o por ejemplo cuando estamos rastreando un site en búsqueda de detalles muy concretos. En las versiones recientes de Screaming Frog se han añadido las casillas de Schema, para ver y comprobar los distintos datos estructurados del website. Normalmente, si estamos viendo un site por primera vez y necesitamos la mayor cantidad de información posible, yo marco todas las casillas, excepto las opciones de mostrar el HTML.

html extraction en Screaming Frog
Opciones de Extracción de HTML en Screaming Frog

Configuración de los Limites en Screaming Frog

configuracion limites en Screaming Frog
Configuración de Límites en Screaming Frog

Screaming Frog permite establecer ciertos límites en el rastreo de un site. De esta manera podemos configurar los siguientes límites:

  • Limitar el número de URLs totales a rastrear. Por defecto es 5.000.000 de URLs. Hay ranita para rato.
  • Limitar la profundidad del rastreo. Es decir, aquí podemos decirle «Oye, sólo rastrea las URLs que estén de 0 a 4 niveles de click de la home» por ejemplo.
  • Limitar la Profundidad en Folder: Aquí le decimos por ejemplo que nos limite el rastreo hasta el 3r subfolder. Puede servirnos para casos muy concretos en los que por lo que sea, sólo queremos datos de lo que hay por ejemplo en las páginas índice y la home, o en los que queremos cuantos «first folder» tenemos.
  • «Limit the number of query Strings»: Básicamente es configurar un límite sobre el número de Query Strings /?x= que queremos que la ranita rastree.

Configuración de Renderizado en Screaming Frog

configuración del renderizado en Screaming Frog
Configuración del Renderizado en Screaming Frog

La opción de rendering nos da la posibilidad de establecer un modo de renderizado para cada rastreo. Tenemos 3 opciones:

  • Text Only: El rastreo se centrará sólo en el HTML, va ignorar el rastreo de AJAX (contenido generado dinámicamente).
  • Old Ajax Crawling Scheme: Scremaing Frog rastreará AJAX emulando un sistema propuesto por Google, aunque desde el año 2015 el sistema está obsoleto, es la opción que más se acerca al rastreo que realiza Google. Yo solía marcar siempre esta opción, pero cada vez mas sites tienen elementos Javascript, que dificultan un rastreo correcto, por lo que al final muchas veces acabo rastreando el HTML plano. «Text Only».
  • JavaScript: La arañita rastreará y ejecutará Javascript renderizando la página e incluso te dará capturas de pantalla. No hace falta decir que este tipo de rastreo es el que requiere de más recursos y si estas rastreando un site grande, probablemente no sea la mejor opción. Cuando la seleccionamos, Screaming Frog nos permite configurar unos ajustes adicionales, como el tiempo dedicado a rastrear el código Ajax o el dispositivo en el que queremos que nos devuelva el Screenshot.
Ajustes de renderizado en Screaming Frog

Configuración Avanzada en Screaming Frog

configuracion avanzada en Screaming Frog
Configuración Avanzada en Screaming Frog

En la configuración avanzada de Screaming Frog podremos marcar varias opciones que nos permiten refinar hasta el último detalle el proceso de crawleo. Esas opciones son las siguientes:

  • Allow Cookies: Puedes marcar esta opción si estas rastreando un site que requiera la aceptación de las cookies para acceder al contenido.
  • Pause on High Memory Usage: La aplicación se pausará si está llegando al límite de su memoria. Una vez se pause, te permitirá guardar el progreso antes de continuar.
  • Always Follow Redirects: Esta opción sirve para ajustar el Crawleo en Modo Lista, y es muy útil cuando estas auditando las redirecciones de una migración por ejemplo. Más adelante hablaremos de los distintos modos de rastreo, per básicamente y para dar una explicación simplista, básicamente esta opción te permitirá detectar posibles cadenas de redirecciones.
  • Always Follow Canonicals: Esta opción también forma parte de los ajustes del crawleo en modo lista, y básicamente lo que te permite es decirle al crawler que cuando encuentre un canonical lo siga hasta la URL final. Esta opción también se usa bastante cuando se auditan migraciones, ya que le permite seguir al crawler cadenas de canonicalizaciones.
  • Respect Noindex, Respect Canonical y Respect Next/Prev: Marcando estas opciones no podremos ver en el informe final cuáles son las URLs noindex, las canonicalizadas (excepto los self canonical) y las etiquetas de paginación Next/Prev.
  • Extract Images From Img srcset Attribute: Screaming Frog extrae todas las imágenes marcadas en CSS con el atributo srcset.
  • Respect HSTS policy: Todos los recursos que se soliciten al servidor se solicitan sobre HTTPS. Si un site tiene activado HSTS, debería tener igualmente redirecciones 301 «site-wide» a la versión HTTPs. Si lo que queremos es ver esas redirecciones subyacentes, lo que hacemos es desactivar esta opción.
  • Respect Self Referencing Meta Refresh: Por defecto, las redirecciones meta refresh a la misma página se consideran non-indexable. Si se desmarca la casilla, se considerarán como indexables.
  • Response TimeOutSecs: Se esperará 20 segundos por defecto para recibir cualquier tipo de respuesta HTTP.
  • 5xx response retries: Te da la opción devolver a rastrear las URLs con códigos respuesta 5xx.

Configuración de Robots.txt en Screaming Frog

Screaming Frog sigue por defecto la información de tu archivo robots.txt. Es decir, rastreará el archivo y seguirá sus directrices como si se tratara del propio Google. Para configurar la lectura del archivo robots.txt vamos a «Configuration» -> «Robots.txt». Ahí encontraremos las siguientes opciones.

opciones robots.txt
Opciones robots.txt
  • Respect Robots.txt: Respetará las directivas especificadas en robots.
  • Ignore Robots.txt: Se ignorarán las directivas especificadas en robots, y el archivo no se descargará.
  • Ignore Robtots.txt but report status: Ignora las directrices del robots, pero lo descarga para mostrarlo en el informe final.

Por defecto, Screaming Frog nos va a mostrar aquellas URLs tanto internas como externas bloqueadas por robots.txt, pero si por lo que fuera no queremos que eso aparezca en el informe simplemente podemos desmarcar las respectivas casillas, dentro de la misma «tab» de ajustes de robots.txt.

URL Rewriting y configuración de CDNs

Deja un comentario