Una vez que empezamos a revisar las visitas de nuestra web con Google Analytics, es muy habitual encontrarnos con tráfico spam y por tanto indeseado, que lo único que hace es llenar de “ruido” nuestras analíticas.
Por ejemplo:
Una forma sencilla para evitar esta situación y que suele ser efectiva, es bloquear directamente este tráfico a través del fichero .htaccess en nuestro website de alguna de las siguientes formas:
a) A través del origen de la petición:
SetEnvIfNoCase Referer [sitioweb.com] spambot=yes
Order allow,deny
Allow from all
Deny from env=spambot
Con SetEnvIfNoCase definimos una variable llamada spambot que tendrá un valor yes en el caso que la petición a nuestro sitio web provenga (referer) de sitioweb.com.
Con las siguientes líneas establecemos las reglas que permitirán el acceso a nuestro sitio web. Obviamente deberemos añadir todas a nuestro fichero .htaccess, pero me gustaría destacar la última línea.
Deny from env=spambot
Básicamente denegamos el acceso a nuestro sitio web en aquellos casos que se cumpla la condición spambot=yes.
Ten en cuenta que podemos añadir cuantas condiciones necesitemos por ejemplo:
SetEnvIfNoCase Referer 230-60-110-78.net.hts.ru spambot=yes
SetEnvIfNoCase Referer net.hts.ru spambot=yes
SetEnvIfNoCase Referer 78.110.60.230 spambot=yes
SetEnvIfNoCase Referer darodar.com spambot=yes
SetEnvIfNoCase Referer responsinator.com spambot=yes
Order allow,deny
Allow from all
Deny from env=spambot
b) Por la IP del origen de la petición. Si queremos bloquear el tráfico de una determinada IP o rango de IP’s, también podremos añadir una configuración como la siguiente:
deny from 38.100.19.8/29
Esta configuración es un mucho más radical… así que deberemos estar completamente seguros antes de añadir algo como esto.
Por último, me gustaría destacar que este problema es bastante frecuente en nuestro día a día, así buscando un poco en Internet, nos podremos encontrar con black lists que podemos usar como plantilla para nuestro sitio web. Por ejemplo:
https://github.com/Stevie-Ray/htaccess-spam-blacklist-block/blob/master/.htaccess
EDICIÓN POSTERIOR
Tal y como ha apuntado Jarfer en su comentario, hay casos en los que la edición .htaccess no es suficiente y hay que filtrar este tráfico directamente en Google Analytics. En mi caso, me han llegado los siguientes referrals:
- daoradar.com
- priceg.com
- iloveitaly.com
- iloveitaly.co
- econom.co
- forum.topic55694179.darodar.com
- my.gamesgofree.com
- blackhatworth.com
Hola, he estado sufriendo en mi blog este tipo de tráfico spam con falsas referencias desde darorar.com, ilovevitaly.com, econom.co, priceg.com y similares desde principios de diciembre y, al menos en mi caso, he podido comprobar que realmente no llega ese tráfico spam al servidor web de mi blog (ni rastro en access.log), ya que lo que hace este tipo de ataque es inyectar tráfico falso directamente en Google Analytics utilizando el código GA del sitio al que ataca. Es por esto que todo lo que hagas en el servidor web (.htaccess, robots.txt, etc.) no sirve absolutamente para nada en este caso. Incluso si se detiene el servidor web de forma que sea imposible recibir tráfico alguno, en Google Analytics seguiría apareciendo ese tráfico spam.
Parece ser que este tipo de spam está afectando desde principios de diciembre a multitud de sitios en todo el mundo, por lo que tiene pinta de que es un ataque spam automatizado a lo bestia en toda regla. Los códigos de GA seguramente los generen aleatoriamente.
Te dejo un enlace a mi blog en el que cuento cómo lo he tratado yo: http://www.jarfer.com/como-eliminar-el-referrer-spam/
Saludos,
Jarfer
Como indicas acabo de comprobar que si bien la mayoría del tráfico spam lo he podido eliminar, daoradar sigue ensuciando las analíticas de Google…. y de hecho en mi caso se ha sumado otro a la fiesta: priceg.com :-(.
En este caso, sí me tocará crear filtros en Google Analytics como apuntas.
Gracias por tu visita y por tu aporte!
Por cierto… he ojeado tu blog con un poco más de calma y me encanta tu iniciativa… te seguiré de cerca! 😉