Contents
- Kurz vorab: Was genau ist Spam?
- Die 2 Arten von Spam: Ghost Spam und Crawler Spam.
- Methode 1: Die klassische Variante – Verweisfilter
- Methode 2: Lange Zeit am effektivsten – Hostname-Filter
- Methode 3: Gegen den Spamtrend 2016 – Sprach Spam Filter
- Methode 4: Spam rückwirkend in Analytics mit Segmenten filtern
- Methode 5: zusätzlicher Kniff – hohe Property-ID verwenden
- Methode 6: Bekannte Bots und Spider ausschließen
- Methode 7: Für radikale – Crawler via .htaccess blocken
- Methode 8: Best Practice – Passwortschutz mit benutzerdefinierter Dimension
- Zu viel gefiltert? Spamansicht anlegen!
- Fazit: Die für uns besten Methoden gegen Spam
Kurz vorab: Was genau ist Spam?
Spam Traffic ist sämtlicher Traffic, der nicht von echten Nutzern generiert wird und eine (Werbe-)Botschaft in einer oder mehreren Dimensionen enthält. Meistens versucht der Spammer, Werbebotschaften in verschiedenen Datenfeldern in Analytics zu hinterlassen, um Webmastern die eigene Domain zu bewerben. 300 Zugriffe von ecommerce-seo.org sollen Analytics Nutzer neugierig machen, worum es sich bei dieser Seite handelt. Dabei versucht der Spammer, die Barrieren der Webmaster zu umgehen. Die Spam „Botschaft“ kann in fast jede beliebige Dimension eingetragen werden, wobei es im Sinne des Spammers liegt, hier eine aufmerksamkeitsstarke Dimension zu wählen, die von vielen Webmastern gesehen wird.
Die 2 Arten von Spam: Ghost Spam und Crawler Spam.
Crawler (oder Bot) Spam entsteht durch Spam Bots, die sich durch eine Seite bewegen und Nutzersignale auslösen. Der Besuch kann in Analytics wie ein echter Besuch aussehen, da der Bot einen wirklichen Nutzer imitiert. Dadurch ist Crawler Spam teilweise schwer zu identifizieren.
Ghostspam ist Traffic, der nie auf einer Website war. Über das Measurement Protocol werden an Analytics beliebige Daten gesendet. Woher weiß der Spammer, welche Analytics ID Ihre Seite hat? Meistens weiß er das gar nicht. Es werden tausende Analytics IDs (UA-XXXXX-1) durchgegangen und an alle ein paar Daten gesendet. Diese Form von Spam ist sehr billiger als Crawlerspam, da man keine Ressourcen für das Besuchen der Website verbraucht. Der größte Teil des Spam Traffics besteht daher meistens aus Ghost Spam.
Methode 1: Die klassische Variante – Verweisfilter
Der gängigste Ansatz in der Spam Bekämpfung ist es, die Spam-Verweisquellen per Filter aus Analytics herauszuwerfen. Da in den meisten Fällen die Quelle als Spamdimension genutzt wird, bekommt man so Spam, der immer wieder auf gleicher Weise geschieht, aus seinen Datenansichten heraus. Welche Verweisquellen Spam sind, kann man in den umfangreichen bei Analytrix (Liste für Ghost Spam) oder ohow (Liste für Ghost und Crawler Spam) suchen.
Die negativen Seiten dieser Methode sind, dass man immer nur auf aktuellen Spam reagieren kann. Man muss also regelmäßig nach Spam suchen, den man dann wieder ausschließen kann. Durch die Vielzahl an Spammern und Verweisen wird das keine wünschenswerte Aufgabe. Gegen Crawler Spam gibt es jedoch keine bessere Vorgehensweise.
Verweisausschlussliste mit Spam füllen?
Die Annahme, dass man mit der Verweisausschlussliste unerwünschte Quellen „ausschließt“, liegt für Analytics Einsteiger nah. Jedoch entfernt das den Traffic nicht, sondern zeichnet ihn nur nicht mehr als Verweis aus. Die Sitzungen, Seitenaufrufe etc. erscheinen weiterhin (z.B. als direkter Traffic).
Methode 2: Lange Zeit am effektivsten – Hostname-Filter
Eine wirkungsvollere Methode gegen Ghostspam ist das Filtern von Hostnamen statt Verweisen. Hier geht die Überlegung voraus, dass der Ghostspammer nicht weiß, an welche Seite er Traffic schickt. Auf einer Website sollte nur Traffic mit der eigenen Domain als Host vorhanden sein (je nach Seite auch ein paar andere Hosts).
Wenn man nur die richtigen Hostnamen durchlässt und alles andere ausschließt, muss der Ghost Spammer den Hostnamen richtig raten, um noch am Filter vorbei zu kommen. Das Problem: wir haben bei mehreren Kunden bereits gesehen, dass genau das passiert. Im November 2016 konnte der Trump Spam u.a. auch den Hostnamen unserer Kunden richtig raten. Entweder war es also Bot Spam oder wahrscheinlich kam hier eine Analytics Reverse Suchmaschine zum Einsatz, mit der man aus der Analytics ID die Domain suchen kann. Dieser Filter ist also wahrscheinlich nicht mehr zukunftssicher bei Spam Offensiven, die mit Reverse Maschinen arbeiten.
Methode 3: Gegen den Spamtrend 2016 – Sprach Spam Filter
Da wir gerade vom Trump Spam gesprochen haben. Ende 2016 kam der Trend auf, die Dimension Sprache als Spam Dimension zu verwenden. Da die Sprache auf der Analytics Startseite einer Datenansicht zu sehen ist, wurde dieser Spamtrend schnell bemerkt und bekannt.
Wer sich speziell dagegen schützen möchte, kann sich einen Filter anlegen, der Sprachcodes mit 13 oder mehr Zeichen ausschließt. So kann niemand mehr längere Botschaften in dieser Dimension hinterlassen.
Methode 4: Spam rückwirkend in Analytics mit Segmenten filtern
Da sämtliche Filter den Traffic nur filtern ab dem Zeitpunkt, an dem sie erstellt wurden, bleibt der Traffic der Vergangenheit verspammt. Bei Websites mit besonders viel Spamtraffic, bei denen wir jedoch schon valide Zahlen brauchen, legen wir die Filterungen in einem einzigen No-Spam-Segment an. So können unsere Regeln auf die vorhandenen Daten angewandt werden.
Methode 5: zusätzlicher Kniff – hohe Property-ID verwenden
Ein kleiner Trick für neue Analytics Konten: Beim Ghost Spam wird Traffic an eine Analytics Property Nummer (UA-12345678-1) gesendet. Die Property ID besteht aus der Kontonummer (UA-12345678) und der ID für die Property (-1). Da die meisten Analytics Konten nur wenige Properties haben, richtet sich auch der Ghostspam vorrangig an Properties mit ID-Nummer 1, 2 oder 3. Beim Aufsetzen einer neuen Property könnte man das ausnutzen und einfach vorher ein paar „Sinnlos-Properties“ anlegen und später löschen, damit die eigene ID-Nummer höher ist.
Diese Methode ist zwar kein absolut sicherer Schutz, kann aber das eigene Analytics-Anwendung zusätzlich etwas vor neuen Ghost-Spam Attacken bewahren.
Methode 6: Bekannte Bots und Spider ausschließen
Es gibt nicht nur Spamcrawler, sondern auch seriöse Crawler, wie von Google, dem Screaming Frog oder ahrefs. Auch diese Crawler verursachen Traffic, den man nicht unbedingt in der Auswertung braucht.
Methode 7: Für radikale – Crawler via .htaccess blocken
Für Crawler Spam gibt es neben dem herausfiltern der Quellen in Analytics noch die Möglichkeit, die Crawler gar nicht erst auf die Seite zu lassen. Diese Variante ist dem Filter in Analytics nur vorzuziehen, wenn die Masse an Crawler Traffic sich negativ auf die Performance des Servers auswirkt. In allen anderen Fällen empfehlen wir, die Spamfilter innerhalb von Analytics zu lassen und die .htaccess Datei nicht für Webanalyse zu bearbeiten.
Methode 8: Best Practice – Passwortschutz mit benutzerdefinierter Dimension
Der derzeit beste Schutz gegen Ghost Spam ist der Filter mit einer benutzerdefinierten Dimension als Passwort. Es funktioniert so, dass bei jedem Besucher auf der Seite mit dem Seitenaufruf ein Wert für eine benutzerdefinierte Dimension mitgeschickt wird – z.B. „nospam“ ( ga(’set‘, ‚dimension1′, ’nospam‘) ). Auf genau diesen Wert können wir dann in der Datenansicht einen Filter erstellen.
Das hat zur Folge, dass ein Ghost Spammer nicht nur den Hostnamen zur Analytics ID kennen muss, sondern auch, auf welche Dimension wir filtern und dazu noch das richtige Passwort. Das Passwort bekommt man nur heraus, indem man die Seite besucht, was der Ghostspammer eben nicht kann und möchte.
Hinweis: Der Filter für die benutzerdefinierte Dimension kann nur unter Datenansicht >Filter konfiguriert werden. Unter Konto > Filter kann man die Dimension nicht auswählen.
Zu viel gefiltert? Spamansicht anlegen!
Wer nicht sicher ist, ob seine Spamfilter korrekt funktionieren, sollte sich eine Datenansicht für Spam anlegen, bei der alle Filter umgedreht wirken. In diese Datenansicht läuft dann nur der Spam Traffic hinein. Wenn die Filter fehlerhaft sind, sieht man hier jedoch u.U. echten Traffic.
Fazit: Die für uns besten Methoden gegen Spam
Gegen Ghost und Crawler Spam gibt es mehrere Methoden, die alle zu einem gewissen Grad wirken. Während man Crawler Spam nur mit Verweis Filtern bekämpfen kann und die Crawler schon vorher kennen muss, kann man Ghost Spam effektiver blocken. Gegen Ghost Spam ist die aktuell beste Methode der Passwortschutz mit benutzerdefinierter Dimension. Mit dieser Methode hat der Spammer eine Mauer, an der er mit automatischen Verfahren nur schwer vorbeikommt, ohne die Seite zu besuchen. Falls bei einer Seite aus irgendwelchen Gründen dies nicht möglich ist, wäre eine Filterkombination aus Hostname, Verweis und Sprache die Alternative.
Noch Fragen zum Analytics Setup? Kontaktieren Sie uns oder informieren Sie sich über unsere Leistungen rund um Webanalyse (Beratung)
Unsere Lesetipps:
https://moz.com/blog/stop-ghost-spam-in-google-analytics-with-one-filter
https://www.ohow.co/removing-google-analytics-spam/#Referrer-Spam-List
https://www.gandke.de/blog/analytics-ghost-spam-wirksam-verhindern-ein-etwas-anderer-filter/
Webanalyse mit Google Analytics: Die wichtigsten Dimensionen und Metriken