filtrar spam de google analytics

El spam genera diariamente un elevado tráfico de datos en Internet que acaba afectando a todos. De una u otra forma sufrimos las consecuencias y en cientos de ocasiones acabamos siendo víctimas.

Si bien podemos bloquear el referrer spam desde .htaccess para que no nos lleguen visitas de esos referers esta solución solo funciona cuando se intenta acceder a la web, pero no cuando se hace la petición al código de Google Analytics por lo que el trafico de referers  o ghost spam (falsas visitas) en la estadística de Google Analytics seguirá apareciendo.

¿Qué es el referer spam, en que consiste?

El spam de referencia o también conocido como referrer spam, es una URL falsa enviada a nuestra cuenta de Google Analytics para atraer a las personas a esa URL y así promocionar su producto o servicio, y en algunos casos extremos para inyectar malware.

Para ser más especifico, el spam referer consiste en realizar repetidas peticiones a paginas web que tengan el código de seguimiento de Google Analytics o de cualquier herramienta de seguimiento estadístico.

Con el fin de aparecer en nuestro informe de estadísticas de trafico de referencia, ¿La razón? Pues, hay distintas teorías y una de las más comunes es:

Si el webmaster accede a cualquiera de las URLs de procedencia dudosa que le llame la atención sin antes investigar un poco, el spammer ya ha conseguido su objetivo principal que normalmente es colocar cookies de programas de afiliación y así obtener ganancias.

Características del tráfico spam

  • Por lo general tiene una duración media de sesión de cero segundos.
  • Tiene una tasa de rebote cercana al 100%.
  • El tráfico SPAM no interactúa con tu web.

Cómo identificar el tráfico spam en Google Analytics

Lo primero que tienes que hacer es ir a tu cuenta de Google Analytics, y en la parte inferior izquierda haga clic en Adquisición luego en Todo el tráfico > Fuente/ Medio.

Dependiendo del tiempo que hayas creado tu propiedad de GA

  • Seleccionar un período personalizado de al menos 5 meses.
fecha periodo personalizado GA
  • Haga clic en Dimensión secundaria escriba y seleccione Nombre de host.
nombre de host GA

El tráfico spam es muy fácil de identificar,  ya que sólo tenemos que fijarnos en la columna “Nombre de host” y descartar todo el tráfico que venga de host validos reconocidos por nosotros. Es decir, nuestro dominio y otros más como por ejemplo:

  • www.tudominio.com: Tu sitio web.
  • webcache.googleusercontent.com: Caché de Google.
  • translate.googleusercontent.com: Traductor de Google, entre otros.
identificar tráfico spam
Tráfico por Fuente/Medio y Nombre de Host

Como puedes observar en la imagen anterior, uno muy común es (not set) Ghost Spam o Spam fantasma, esto pasa cuando el spammer no se preocupa ni siquiera de asignar un nombre de host falso.

Si no tienes claro si un host es spam o no puedes mirar esta lista de sitios que hacen spam que se actualiza periódicamente, si el sitio no se encuentra en la lista aún puedes investigar un poco más realizando una búsqueda en Google y te dará la información que necesitas.

Una pequeña lista que he identificado como spam en mi propiedad de GA son:

vbly.us
semalt.com
piulatte.cz
free-fbook-traffic.com
event-tracking.com
how-to-promote-website.review
how-to-promote-website.faith
how-i-promote-website.review
how-i-build-website.review
website-services.bid

Ya cuando identifiques cuales son trafico de host validos y cuales no para tu caso particular, anótelos en un bloc de notas porque más adelante tendrás que crear un filtro.

Para identificar el trafico spam de referencia repite el proceso en vez de seleccionar Fuente/Medio haga clic en URLs de Referencia.

Cómo filtrar el ghost spam y referrer

Puede bloquear el spam con el método .htaccess, sin embargo, la cantidad de tráfico generado por el es muy muy bajo y esto solo funcionara con una pequeña porción de spam que tengas añadido en tu código.

Ya que como te mencionaba anteriormente bloquear estos ataques de spam desde el fichero .htaccess (firewall, etc.) no evitara que aparezcan en tu estadística de Google Analytics, porque estos ataques no se realizan entrando en las paginas web, sino que son peticiones directas al código de seguimiento JScript de Google.

El spam fantasma nunca visita tu sitio web, por lo que no es posible bloquearlo desde el fichero .htaccess

En consecuencia la solución definitiva y eficiente para eliminar el  spam de Google Analytics, es acudiendo a nuestra cuenta de Google Analytics y aplicar filtros y segmentos avanzados que te muestro a continuación.

Pero antes, si ya implementaste algún tipo de configuración en tu cuenta de Google Analytics en necesario que crees otra vista para proteger tus datos actuales ya que los filtros no se aplican de forma retroactiva.

Dicho de otra manera, crea una vista de respaldo por si cometes algún error en el camino.

En Google Analytics no es posible recuperar los datos perdidos por una configuración incorrecta, por eso es importante siempre tener las siguientes vistas:

  • Vista principal  (Análisis de datos): En esta vista de análisis de datos, configurará los filtros, segmentos, objetivos, etc.
  • Vista sin filtros: Como su nombre lo indica es una vista sin ningún tipo de filtro aplicado como la que tenía inicialmente cuando creó la propiedad. Esta sera tu vista de datos de respaldo, también puedes usarla para comparar tu configuración con la vista Anti-spam y así supervisar si los nuevos filtros y segmentos están funcionando de manera correcta..
  •  Vista de prueba (Opcional) – Si desea tener un poco más de precaución adicional, puede crear una tercera vista para verificar los filtros antes de aplicarlos a su Vista principal.

(Lee también: Cómo crear un vista sin filtros en Google Analytics)

Filtro para detener el tráfico spam fantasma

Siga los pasos a continuación:

En la parte inferior izquierda haga clic en Audiencia expande Tecnología y selecciona Red.

sección audiencia google analytics

Luego en la parte superior por defecto Proveedor de servicios esta seleccionado asegúrate de cambiar a Nombre de Host.

google analytics nombre de host

Te aparecerá una lista de nombre de host y uno de ellos sera tu dirección de dominio principal el resto seran host de todos los servicios en los que hayas añadido tu codigo de GA, y host no validos (Spam).

Anota todos los nombres de host cuyo trafico deseas incluir en Google Analytics.

Una vez que tengas los nombres de host validos, convierte todos esos nombres de host en expresiones regulares (REGEX) que contenga a todos, por ejemplo si su lista de host contiene:

  • tecnojupiter.net
  • webcache.googleusercontent.com
  • translate.googleusercontent.com

La expresión regular correspondiente seria:

tecnojupiter.net|webcache.googleusercontent.com|traslate.googleusercontent.com 

  • El punto y el guion son considerados caracteres especiales en REGEX, para que funcionen como caracteres normales debes usar una barra invertida  antes de ellos.
  • Utiliza la barra vertical  | para separar cada nombre de host, no añadas una barra vertical al principio o final de la expresión.
  • No dejes ningún espacio entre caracteres

Una vez que tu expresión regular este lista, es tiempo de crear el filtro:

Vea a la sección Administrar y en la tercera columna selecciona la vista principal donde aplicaras el filtro, luego haz clic en la opción Filtros después en +Agregar filtro.

  • Coloca como Nombre del filtro «Host Validos»
  • En Tipo de Filtro selecciona Personalizado.
  • Modo: «Incluir«.
  • Campo del filtro: «Nombre del host»
  • Patrón del filtro: Copia y pega la expresión de nombres de host que creaste.

El aspecto que tendrá el filtro será el siguiente.

host válidos incluir
Filtro host válidos

Para completar la configuración del filtro haz clic en Guardar.

Este filtro de Nombre del Host no requiere mucho mantenimiento cada vez que añadas tu código de seguimiento en algún servicio solo debes actualizar la expresión.

Filtro para detener el tráfico referrer spam

En el caso del tráfico spam de referencia lo que haremos será excluir aquellas fuentes de tráfico que hayamos identificado como spam referrer directamente desde Google Analytics.

Para ahorrarte algo de tiempo he incluido varias expresiónes REGEX que contienen la mayoría de spam de referencia molesto conocido, sin embargo puedes crear tu propia expresión o añadir otra fuente más en el patrón del filtro.

Para deshacerte de todo el spam conocido:

  • Ve a la sección de Administrar.
  • Selecciona Filtros en la tercera columna y luego haz clic en +Agregar Filtro.
  • Coloca como Nombre del filtro «Excluir spam referrer».
  • En Tipo de filtro elige Personalizado.
  • Selecciona Excluir.
  • En el Campo del filtro busca y selecciona Fuente de la Campaña.
  • Patrón del filtro: Copia las siguientes expresiones. Crea un filtro para cada Expresión. Por ejemplo. Comienza con el nombre Excluir spam referrer, luego continua con (Excluir spam referrer #1, Excluir spam referrer #2 y así sucesivamente hasta completar las expresiones).

Expresión #1
Total caracteres sin espacios: 239

darodar.com|priceg.com|ilovevitaly.com|blackhatworth.com|econom.co|iskalko.ru|lomb.co|lombia.co|humanorightswatch.org|luxup.ru|myftpupload.com|seoexperimenty.ru|vodkoved.ru|4webmasters.org|webmonetizer.net|sitevaluation.org

Expresión #2
Total caracteres sin espacios: 251

brasseriebread|helvetiiconsulting|johntrapane|cloudsendchef|theautoprofit|:8888|blog1989|how-to-promote-website.review|how-to-promote-website.faith|how-i-promote-website.review|how-i-build-website.review|website-services.bid|vbly.us

Expresión #3
Total caracteres sin espacios: 238

oldfaithfultaxi|christopherlane|hollywoodweeklymagazine|losangeles-ads|anniemation|timdreby|pcimforum|yellowstonesafaritours|autoseo|blogarama|for-placing|brainwizard|casinos4|ḷ.com|-backlinks.com|phoenicx.co.uk|be-escorts|vidyoze

Expresión #4
Total caracteres sin espacios: 243

anal-acrobats.hol.es|analytics-ads.xyz|analyze-best-copywriting-services.party|analyze-extra-analytic-service.stream|anapa-inns.ru|android-style.com|android-systems.ru|android-vsem.org|android4fun.org|androids-store.com

Expresión #5
Total caracteres sin espacios: 230

uptime(robot|bot|check|-|.com)|vitaly|sharebutton|semalt|ranksonic|share-button|anticrawler|timer4web|free-video-tool|responsive-test|dogsrun|fix-website-er|dailyrank|sitevaluation|99seo|top10-way|seo(-2-0|-analysis).

Expresión #6
Total caracteres sin espacios: 224

(videos|buttons)-for-your|best-seo-(solution|offer)|buttons-for-website|profit.xyz|dbutton|keywords-monitoring|platezhka|7makemoney|forum69|kings-analytics|checkpagerank|pr-cy.ru|--(production|website|sale).com

Expresión #7
Total caracteres sin espacios: 248

(express|audit|dollars|success|top1|amazon|commerce)-seo|free-video-tool|datract|hacĸer|ɢoogl|slifty.github|-liar.ru|3-letter-|foxweber|free-fbook|goodwriterssales|your-rankings|tourcroatia|spinnerco|justkillingti|suralink|worldtraveler.w

Expresion #8
Total caracteres sin espacios: 198

catalogs-parts.com|cayado.snn.gr|cbcseward.com|cbox.ws|celldog.ru|centre-indigo.org.ua|centrumcoachingu.com|dcdcapital.com|ddlmega.net|f1nder.org|facebook-mobile.xyz|girlsatgames.ru
spam excluir de GA
Excluir Spam

Como te mencione anteriormente los filtros no se aplican de forma retroactiva por lo que debemos crear un segmento de tráfico válido ya que las visitas spam que no hayamos evitado anteriores a los filtros se seguirán mostrando en Google Analytics.

Si ya tienes todos los filtros creados ya la mitad del trabajo esta hecho ya que usaras las mismas expresiones REGEX por lo que limpiar los datos del spam anteriores a la fecha en que creaste los filtros en tu Google Analytics no deberá tomarte mucho tiempo para ellos solo necesitarás crear un segmento avanzado:

Ve a la sección de Audiencia, ubicada en la parte superior izquierda y selecciona Visión general luego haz clic en la sección que dice Todo los usuarios  después en  +Crear Segmento.

Crear segmento GA
+Crear segmento en Google Analytics

Y en Opciones avanzadas selecciona Condiciones, y aplica las siguientes condiciones:

  • Filtro >Sesiones > Incluir
  • Campo 1 > Nombres de Host
  • Campo 2 > Coincide con la expresión regular
  • Campo 3 > Pega la misma expresión de Nombres de Host que creaste previamente para el filtro host válidos.

Segunda Condición:

  • Filtro > Sesiones > Excluir
  • Campo 1 > Fuente
  • Campo 2 > Coincide con la expresión regular
  • Campo 3 > Pega las expresiones de excluir spam creadas previamente.
segmento condiciones GA
Condiciones segmento

Haz clic en Guardar y el segmento se aplicará automáticamente. Eventualmente los filtros harán su trabajo

Lo bueno de GA es que puedes combinar varios segmentos a la vez en una visualización, quitarlos cuando quieras, o aplicarlos a cualquier vista en cualquier momento.

Conclusión

No todo el tráfico inusual es spam, por lo que antes de aplicarle un filtro, debes investigar un poco. Primero, puedes verificar esta lista de github que se actualiza constantemente.

REGEX tiene un límite de 255 caracteres, si tu expresión excede el límite trata de optimizarla para mantener todo dentro de una.

De lo anterior, es importante destacar que tenemos que revisar al menos cada 7 días el informe de GA para evitar esas URLs de referencia Spam que afectan los datos reales de nuestro sitio web o crear una alerta personalizada que te envié Google Analytics cuando se detecten tasas de rebote 100% y otras condiciones usuales del spam.

Similar Post