Die häufigsten Fehler von A/B-Tests

14. Juli 2017
contentXXL Wissen
0 Kommentare
Trackback URL

Trackback URL

A-B-Tests werden häufig genutzt, um den Erfolg von Änderungen auf Landingpages, Websites und im E-Commerce zu testen. Doch wer wirklich aussagekräftige Ergebnisse erhalten möchte, muss einige statistische Grundlagen beachten und sollte sich an wissenschaftlichen Standards und Arbeitsweisen orientieren. Denn ein signifikantes Ergebnis allein erlaubt keine verlässlichen Aussagen über die Änderungen. Dies sind die häufigsten Probleme und Grenzen von A-B-Tests:

1. Keine klar formulierten Hypothesen

Bei A-B-Tests testen Sie zwei Hypothesen gegeneinander -- nicht mehr und nicht weniger. Diese sollten eindeutig definiert und klar voneinander abgegrenzt werden. Ein Beispiel: Sie möchten testen, ob die Integration eines Zitats des Geschäftsführers die Conversion-Rate einer Landingpage signifikant verbessert oder verschlechtert. Die Nullhypothese würde dann lauten: die Integration des Zitats hat keinen signifikanten Einfluss auf die Conversion-Rate. Als (gerichtete) Alternativhypothese würden Sie formulieren: Die Integration des Zitats führt zu einer signifikant höheren Conversion-Rate.

Entscheidend für die Signifikanz ist das Alpha-Niveau, das bei beiden Hypothesen angegeben werden sollte und in der Regel 5 Prozent beträgt. Es bedeutet, dass das Testergebnis erst dann signifikant wird, wenn die Unterschiede bei den Conversion-Rates in den beiden Gruppen mit weniger als 5-prozentiger Wahrscheinlichkeit zufällig entstanden sind. Sie sollten sich darüber informieren, welche Testverfahren das verwendete Programm nutzt und welche Formeln zu Grunde liegen. Wenn Sie A-B-Tests langfristig als nachhaltiges Instrument implementieren möchten, sollten Sie sich mit der verwendeten Software und den zugrundeliegenden Formeln und Verfahren auseinandersetzen.

2. Kein Konstanthalten anderer Variablen

Im oben genannten Beispiel darf sich die Landingpage nur durch das Zitat unterscheiden. Alle anderen Faktoren, die die Conversion-Rate beeinflussen, bleiben im Idealfall gleich. Fügt der Webdesigner zusammen mit dem Zitat auch einen Mouseover-Effekt für den Call-to-Action-Button ein, erlaubt der Test keine Aussagen mehr über die Wirkung des Zitats. Der Mouseover-Effekt müsste entweder mit in die Hypothesen aufgenommen werden, oder in einem separaten Test überprüft werden.

Vermeiden Sie es, mehrere Tests auf der gleichen Seite parallel laufen zu lassen.

3. Keine zufällig gezogenen Stichproben

In der Statistik ist ein Testergebnis nur auf die Population -- im obigen Beispiel die Besucher der Website -- verallgemeinerbar, wenn die Stichprobe -- hier die Besucher der Landingpage während des A-B-Tests -- zufällig aus der Population gezogen wurde. In der Praxis ist das nur im Rahmen einer Studie umsetzbar. Trotzdem können Sie einiges dafür tun, um ein Testergebnis zu erhalten, dass sie ruhigen Gewissens verallgemeinern können.

Lassen Sie den Test zu einer möglichst durchschnittlichen Zeit laufen und decken Sie alle Tageszeiten und Wochentage ab. Würden Sie die oben beschriebenen Hypothesen in der Vorweihnachtszeit testen, könnte ein gefundener Unterschied allein auf einer generell höheren Kaufbereitschaft basieren. Testen Sie hingegen die Variante ohne Zitat in der ersten Woche des Monats und die Variante mit Zitat in der letzten Woche des Monats könnte es am knappen Kontostand der Landingpage-Besucher liegen, dass sie das beworbene Produkt nicht kaufen. Am Wochenende sind die Besucher der Website möglicherweise eher männlich, unter der Woche eher weiblich.

Profi-Tipp: Sie können Ihre Zielgruppe auch bewusst unterteilen und ihnen jeweils verschiedene Website-Versionen präsentieren. Zum Beispiel könnten Sie testen, ob die häufige Verwendung der Wörter "günstig" und "sehr gutes Preis-Leistungs-Verhältnis" die Conversion-Rate am Monatsende im Vergleich zur Conversion-Rate am Monatsanfang erhöht. In einem weiteren Schritt können Sie überprüfen, ob es die Conversion-Rate am Monatsanfang erhöht, wenn Sie nicht den günstigen Preis, sondern die besondere Qualität des Produktes betonen.

4. Falsche Stichprobengröße

Zu kleine Stichproben sind eines der größten Probleme bei A-B-Tests -- und sie sind der Grund, warum die Tests für kleine Onlineshops und Websites wenig aussagekräftig bis ungeeignet sind. Kleine Stichproben führen zu hohen Schwankungen und Verzerrungen in den Ergebnissen. Je kleiner die Stichprobe ist, desto höher wird die Wahrscheinlichkeit für einen Schätzfehler angenommen. Häufig kommt es dann vor, dass der Test oder das verwendete Programm die Nullhypothese beibehält, obwohl eigentlich die Alternativhypothese gilt.

Nicht nur zu kleine, sondern auch zu große Stichproben können ein Problem werden. Bei intervallskalierten Daten -- zum Beispiel bei Messung der Verweildauer -- werden bei einer sehr großen Stichprobe auch sehr kleine Mittelwertunterschiede signifikant. Diesem Problem entgegenwirken können Sie durch Berechnungen zur Effektgröße und zum optimalen Stichprobenumfang. Wenn Sie sich ausführlich mit dem optimalen Stichprobenumfang befassen möchten, stellt das kostenlose Programm G*Power eine gute Möglichkeit dar, diesen für verschiedene Testverfahren zu berechnen.

Fazit

A/B-Tests können ein geeignetes Hilfsmittel sein, um zwei Varianten gegeneinander zu testen. Allerdings setzen valide Ergebnisse eine solide Planung und die Einhaltung verschiedener Kriterien voraus. Für viele Unternehmen ist es daher häufig effektiver, auf durchdachte und erprobte Usability-Konzepte und hochwertigen Content zu vertrauen..

Tipp zum Weiterlesen: Kostenloses A/B-Testing für jede Website – ein Selbstversuch mit Google Optimize

Lassen Sie uns wissen, was Sie denken...

Kommentar erstellen

(Kommentare werden moderiert - bitte beachten Sie die Blogregeln!)