Już ponad rok temu użytkownicy Analytics dostrzegli problem spamu wpływającego na wiarygodność danych na kontach. Rozważano wiele różnych rozwiązań, z których większość okazywała się niewystarczająca, aby w końcu wypracować skuteczny mechanizm zabezpieczający przed szkodliwym spamem.
Rodzaje spamu
Wpierw przyjrzyjmy się dwóm podstawowym rodzajom spamu, gdyż ma to zasadnicze znaczenie przy zabezpieczeniu naszego konta.
- 1. Referral spam
Polega na odwiedzaniu twojej strony internetowej przez tzw. crawlery, czyli roboty internetowe zbierające informacje. Oczywiście taki ruch jest z punktu widzenia analityki zupełnie bezużyteczny.
- 2. Ghost referral spam
Polega na wszczepianiu do Analyticsa odesłań, które w razie naciśnięcia (w celu zweryfikowania źródła ruchu) przekierowują do różnych miejsc w sieci. Ten rodzaj spamu jest szczególnie niebezpieczny z uwagi na strony internetowe, do których możemy zostać odesłani.
Rozwiązania
a) blokowanie niepożądanego ruchu z poziomu serwera
Dotyczy tylko i wyłącznie pierwszego rodzaju spamu, tj. referral spamu. Aby pozbyć się robotów internetowych, które najczęściej „odwiedzały” twoją stronę internetową, wystarczy dodać do pliku .htacces na twoim serwerze następujące komendy:
order allow,deny
deny from przykladowastrona.pl
deny from nastepnastrona.pl
allow from all
Gdzie w miejsce „przykładowastrona.pl” i „nastepnastrona.pl” etc. wpisujemy adresy spamerów. Oprócz adresów, które do tej pory zarejestrowaliśmy na naszym koncie, możemy również poszukać list spamerów w internecie.
Ważne: rozwiązanie NIE będzie skuteczne dla drugiego rodzaju spamu, tj. ghost refferal spamu! O tym, dlaczego tak się dzieje, a także jakich innych rozwiązań nie należy stosować, można przeczytać na TYM blogu. My skoncentrujemy się na rozwiązaniu, które skutecznie zabezpieczy nasze konto.
b) filtrowanie hosta
Chcąc pozbyć się problemów z fałszywymi danymi na koncie Analytics oraz uniknąć zagrożenia wiążącego się z ghost refferal spamem, powinniśmy wyposażyć nasze konto w filtr uwzględniający tylko ruch z naszej nazwy hosta.
Praktycznie 100% spamerów wysyła swój spam do losowo wybranych kont Analytics, podszywając się pod różne hosty. Na naszym koncie w statystykach możemy znaleźć różne dziwnie wyglądające nazwy hostów, a nawet takie jak chociażby google.com. Oczywiście jest to spam, gdyż nie instalowaliśmy na nich naszego kodu Google Analytics. Dlatego powinniśmy bazować tylko na danych, które podchodzą od naszej nazwy hosta lub innego hosta, którego wykorzystujemy.
Filtrowanie hosta nie jest trudne. Wystarczy, że na naszym koncie Analytics wejdzie w górnym menu w zakładkę „Raportowanie„, po czym w panelu bocznym wybierzemy kolejno: „Odbiorcy > Technologia > Sieć„. Teraz potrzebujemy wyświetlić dane dotyczące nazw hostów, więc nad tabelą z danymi naciskamy przycisk „Nazwa hosta„. Nazwa Hosta to nic innego jak adres na którym mamy osadzony nasz kod śledzący (w 99% wypadków jest to nasza domena, czasem adresy stron które tłumaczą (np translate.googleusercontent.com lub cache google webcache.googleusercontent.com )
Oto nasz raport, który wykorzystamy przy tworzeniu filtru. Aby go utworzyć, wchodzimy w zakładkę „Administracja” w górnym menu, po czym wybieramy „Filtry„w widoku naszego konta. Teraz wystarczy nacisnąć „+ Dodaj filtr„. Wpisujemy nazwę filtru (na własne potrzeby) oraz wybieramy typ „Niestandardowy„. Zaznaczamy opcję „Uwzględnij” i jako pole filtru wskazujemy „Nazwa hosta„.
We wzorcu podajemy te hosty, które są wartościowe, pamiętając żeby wpisać je jako wyrażenie regularne, czyli na przykład:
roiexperts\.pl|semkonsultant\.pl
Gdzie backslash (\) poprzedza znaki szczególne takie jak kropka, natomiast pipe (|) oddziela poszczególne hosty.
Zapisujemy i tym samym jesteśmy spokojni o wiarygodność naszych danych na koncie Analytics. Przynajmniej do czasu aż spamerzy wymyślą, jak dobrać się do naszej nazwy hosta.