Piotr Majewski @piotrmajewski

Pułapki Google Website Optimizer: Uważaj na Test A/B

Google Website Optimizer teoretycznie robi z każdego amatora testowania profesjonalistę, ponieważ GWO automatycznie wylicza poziom istotności. Problem polega na tym, że GWO nie wie, co liczy i popełni

Optymalizator Witryn Google (Google Website Optimizer, GWO) to fantastyczne narzędzie, niezbędne w pracy każdego szanującego się marketera - czyli takiego, który testuje.

W poprzednim artykule pisałem o tym, żeby uważać na długości testu. Tym razem zajmę się pułapkami w testach A/B.

Na czym polega TEST A/B - jeśli go robisz, jesteś w elicie

Test A/B (Split test) jest najpopularniejszym typem testu wykorzystywanego przez marketerów na całym świecie.

Test A/B polega na tym, że losowo wyświetlamy odbiorcom wersję kontrolną (dotychczas najlepsza, A) oraz wersję testową (pretendenta, B). Następnie mierzymy ile osób, które widziało wersję A lub wersję B wykona zakładaną akcję.

Amatorzy porównują następnie wynik wersji A z wynikiem wersji B i na tej podstawie podejmują decyzje marketingowe.

Zaawansowani marketerzy zanim podejmą decyzję badają jeszcze poziom istotności otrzymanych wyników. Tj. wykorzystują testy statystyczne aby określić, jak bardzo (statystycznie) prawdziwe są otrzymane wyniki. Innymi słowy jeśli jedna wersja jest skuteczniejsza od drugiej o 100%, ale wynik ten oparto o zbyt małą próbkę, wynik może być nieprawdziwy - zachwiany przez czynniki zewnętrzne.

Google Website Optimizer teoretycznie robi z każdego amatora testowania profesjonalistę, ponieważ GWO automatycznie wylicza poziom istotności. GWO podaje obok każdego wyniku prawdopodobne odchylenie realnego wyniku od zmierzonego oraz procentową szansę danej wersji na pobicie oryginału:

Gdy GWO wyliczy, że istotność jednego z wyników jest wystarczająco duża, pojawia się zielony komunikat informujący nas, która kombinacja statystycznie rzecz biorąc jest najlepsza:

Jednak cytując Jeana Rigaux: "Istnieją trzy rodzaje kłamstwa: przepowiadanie pogody, statystyka i komunikat dyplomatyczny." Cały czas w powyższym teście podkreślałem, że statystycznie.... Problem polega na tym, że Google nie zawsze ma rację, zwłaszcza w testach A/B.

Być może więc powinienem cytować Janusza Wiśniewskiego: "Statystyka nie kłamie. Kłamią jedynie statystycy. "

Test A/A/B - Czyli jak zrobić Google w balona?

Aby mieć pewność, a nie tylko statystyczną pewność, wyniku naszego testu, musimy zastąpić test A/B testem A/A/B. W teście A/A/B porównujemy:

wersję kontrolną
dokładną kopię wersji kontrolnej
jedną lub więcej wersji testowych

Tego typu test trwa tak długo, aż:

Liczba akcji będzie odpowiednio duża - albo po prostu, gdy odjęcie błędu od skuteczności najlepszej kombinacji da wynik większy, niż dodanie błędu do wyniku kombinacji drugiej w kolejce.
Skuteczność wersji kontrolnej będzie identyczna lub niemalże identyczna z jej dokładną kopią.

Oba te warunki muszą zajść. W takiej sytuacji mamy wynik naprawdę wiarygodny - ponieważ statystyka nie wie, że testujemy 2 identyczne wersje, logicznie rzecz biorąc powinny one dać dokładnie taki sam wynik - raczej niespotykana sytuacja, ze względu na wspomniane czynniki zewnętrzne.

Dlaczego jest to aż tak ważne?

Jeśli jeszcze tego nie widzisz, kombinacja pierwsza (Original, uznana za GWO za statystycznie najlepszą) to wersja kontrolna. Kombinacja "Control 2" to dokładna kopia kombinacja pierwszej, ale jej zmierzona skuteczność jest o 16% niższa. Kombinacja "Pretendent" to wersja testowa, inna od pierwszych dwóch, ale jej skuteczność jest identyczna z kopią wersji kontrolnej.

Dodam jeszcze, że każda z wersji zaliczyła ok. 5000 wyświetleń i ok 500 akcji, więc nie był to test mały.

Co wynika z takiego testu?

Z powyższych danych wynika prawie na pewno, że obie wersje miały identyczną skuteczność na poziomie 12-13% (czyli taką, jak wersja oryginalna, bez przeładowania strony).

Nie wolno bezmyślnie wierzyć w wyliczenia Google Website Optimizer, ponieważ Google nie wie, co liczy. To jest pierwsza pułapka GWO.

Testy A/B mają jedną poważną wadę. Jeśli GWO wylosuje nam inną wersję niż oryginalna, następuje przeładowanie strony i wyświetlenie wersji testowej. Prawdopodobnie to przeładowanie strony jest odpowiedzialne za kilkanaście procent różnicy w skuteczności strony. Najwyraźniej ludzie to zauważyli.

Ja rzadko prowadzę testy A/A/B ponieważ spowalniają one znacznie cały test. Zamiast tego prowadzę je raz na jakiś czas, aby ustalić ile test powinien trwać i jaka różnica w skuteczności nie jest dla mnie wiarygodna.

Ja w przypadku różnicy mniejszej niż 20% biorę pod uwagę intuicję oraz inne korzyści - np. lepsze pozycjonowanie się którejś wersji, albo lepszy branding, albo większa lista adresowa. Czasami wybieram opcję o niższym wyniku, ale dodatkowych korzyściach. Przykładem może być squeeze page z większą ilością treści, który będzie się lepiej pozycjonował. Nawet jeśli ma skuteczność niższą, będzie ściągał więcej ludzi na stronę - w liczbach bezwględnych da nam więcej.

Zdecydowanie lepiej prowadzić test wielu wariacji (dostępny również w GWO), który zamiast przeładowania strony w widoczny dla użytkownika sposób, podmienia jeden lub wiele elementów na stronie w sposób praktycznie niewidoczny.

Poprzedni

Chce wprowadzić na rynek naklejki na ścianę. Mam listę mailingową. Jak zapytać subskrybentów, czy kupią produkt? [podcast]

Następne

1 Najpotężniejsze Słowo w Arsenale Copywritera - To jest o Tobie

Komentarze

Newsletter

Newsletter CzasNaE-Biznes

Cotygodniowa dawka darmowych artykułów od Piotra Majewskiego - ojca chrzestnego polskiego małego e-biznesu...

Dołącz do 97 734 czytelników