Eliminar el tráfico spam y de robots

Proceso para eliminar de nuestras plataformas de analítica el tráfico spam y el generado por robots.


  • Tiempo de lectura: 4 minutos
  • Autor: Emirodgar
  • Publicado: 25/09/2022
  • Actualizado: 29/09/2022

Desde hace unos años, nuestros sistemas de analítica reflejan picos de tráfico de referencia de dominios que nunca nos han enlazado y tráfico desde países que no tiene sentido. Se trata de tráfico spam y/o generado por robots. Más allá de que pueden consumir una parte de los recursos de nuestro servidor, el verdadero problema reside en que nuestra analítica se distorsiona y terminamos analizando un tráfico que no aporta ningún valor.

A continuación detallo algunos pasos para prevenir y minimizar el impacto de este tráfico malo en nuestra estrategia digital.

Identificar el tráfico de baja calidad

El primer paso será asegurarnos de que realmente tenemos tráfico SPAM o de robots. Por norma general, este tipo de tráfico se caracteriza por:

  • Poco tiempo en el sitio.
  • Alto porcentaje de rebote.
  • Porcentaje alto de visitantes nuevos.
  • Sin conversiones asociadas.

Ojo, por sí solo esto no es indicativo de que se trate de robots, lógicamente tenemos que ver si tenemos un segmento de nuestro tráfico que corresponde con estas características y, de ser así, analizarlo para determinar si se trata de tráfico malo.

Bloquear los accesos

En el caso de Google Analytics 4 GA4, se bloquea por defecto el tráfico generado por robots de búsqueda conocidos. Por ello se excluirá todo el tráfico que identifique dentro de la lista internacional de robots de IAB.

El siguiente paso será bloquear todos aquellos dominios y fuentes de tráfico que son conocidos por hacer spam. Lo haremos desde el servidor (por ejemplo en Apache con el fichero .htaccess) bloqueando por IP y User Agent. Existen multitud de listas negras que podemos utilizar e incorporar a nuestro proyecto para, con un copiar y pegar, bloquear cientos de fuentes SPAM.

Este paso, aunque nos ayudará a reducir considerablemente el tráfico de baja calidad, no es una solución definitiva porque tendremos que actualizar frecuentemente el listado de fuentes bloqueadas.

Aunque podemos utilizar el fichero robots.txt para solicitar que nuestra página no sea rastreada por ciertos robots, la manera más eficiente será bloquear su acceso desde el servidor, dado que el robots.txt podría ser ignorado.

En el caso de Apache, para bloquear el acceso a estos robots tendríamos que utilizar un código como el siguiente:

RewriteEngine On 
RewriteCond %{HTTP_USER_AGENT} ^BlackWidow [OR]
RewriteCond %{HTTP_USER_AGENT} ^Bot\ mailto:[email protected] [OR]
RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [OR]
RewriteCond %{HTTP_USER_AGENT} ^Custo [OR]
RewriteCond %{HTTP_USER_AGENT} ^DISCo [OR]
....

Una última acción para frenar el tráfico generado por robots es habilitar un captcha para los usuarios que visitan nuestra página por primera vez. Si resuelven el captcha, procedemos a insertar el código de analítica, si no, no lo hacemos y evitamos así registrar información de baja calidad.

Filtrar los datos adecuados para ser analizados

Como hemos visto hasta ahora, no existe una solución definitiva para hacer frente a todo el tráfico spam o generado por bots, pero lo que sí podemos hacer es, con lo que no haya sido bloqueado hasta este punto, excluirlo de nuestros análisis.

Para ello podemos generar una nueva audiencia de análisis que excluya el segmento de tráfico identificado en el punto 1. De esta forma nos aseguraremos que los informes incluirán únicamente tráfico relevante para ser analizado.

Recursos

Los recursos más interesantes están relacionados con los listados de robots y páginas de baja calidad así como la documentación oficial de GA4.

Herramientas

Preguntas frecuentes

Por norma general nos referimos a un tráfico simulado por un rastreador web o robot que lo que hace es navegar por nuestra página para obtener información de manera automatizada. Los datos que generan no tienen ningún valor de análisis y ensucian los de los usuarios reales, complicando cualquier posible aprendizaje.

Servicios adicionales

Aprovecha al máximo el conocimiento SEO de este portal suscribiéndote a la newsletter que enviamos cada semana con las novedades del mundo SEO. También te ofrecemos recursos y herramientas gratuitas para ser más eficiente en tus estrategias.

Newsletter

Suscribirse a la newsletter en Linkedin

    Más de 2.600 personas están suscritas a nuestra Newsletter de Chuleta SEO y reciben todas las semanas las últimas noticias del sector.

Dashboard

Dashboard SEO gratuito