Что дает добавление еще одной буквы «А» в старый, добрый АБ-тест и почему этого тоже бывает недостаточно для оценки изменений.
ААБ-тест или ABA-тест — это когда трафик делят на три части: первую и вторую направляют на сайт без изменений, а третью с изменениями.
Что это дает?
- Выше точность теста. Считаем, что Б дает относительно достоверный результат только когда А и А сравняются.
- Видны резкие колебания значений А и А, легче понять какой из факторов, искажающих тест в этот момент повлиял.
- Получаем время и количество данных необходимое для будущих тестов.
Факторы, искажающие результаты тестов
1. Недостаточное количество трафика/операций
Вывод делается рано, высокая погрешность.
2. Некорректная ротация
Система или скрипт, который занимается ротацией не дает произвольного и равномерного распределения между блоками теста.
3. Неполная кроссбраузерность
В каком-то из браузеров изменения работаю неправильно. Группа пользователей данного браузера может иметь особенности. Исключение их из теста искажает его результат.
4. Влияние устройств
На разных устройствах изменения могут выглядеть по-разному. Например, на больших экранах небольшие детали не так заметны.
5. Эффект новизны
Пользователи заметили новый элемент на сайте или его изменение, больше на это обращают внимание и он в первое время работает лучше.
6. Эффект привыкания
Пользователи привыкли к каком-то элементу и не замечают его изменение, работают с ним как со старым.
7. Непопадание в покупательский цикл
Во время оценки конверсии период теста может не совпасть с циклом, в который происходит покупка. Другие факторы могут сработать раньше, а на время теста пользователи уже будут подготовленными, тест покажет некорректный результат. Также, у покупательского цикла может быть длительный или отложенный эффект и он не попадет в результаты теста.
8. Другие изменения
Чистого теста добиться очень сложно, во время его проведения могут произойти другие изменения на сайте. На первый взгляд может показаться, что они не связаны, но это косвенно повлияет на тест.
9. Сезонные факторы, распродажи и изменение товарных остатков и другие.
Что можно сделать, чтобы уменьшить эти влияния?
- проводить сплит-тест только на новых пользователях или на новых и старых отдельно.
- использовать несколько систем для контроля.
- выделить на тест отдельный источник трафика.
- делать AAБ-тесты.
Минимальные значения для тестов
По моему опыту это:
для рекламных кампаний 500.000, срок 2 недели.
для конверсии сайта: 500 транзакций, 2 месяца.
для оценки небольших изменений на сайте: 3 тысячи сеансов, неделя.
У каждого проекта цифры свои и определить их поможет как раз ААБ-тест.
А что делать, если нет такого количества на сайте?
- Смириться, что сплит-тесты пока у вас не работают.
- Оставить тесты работающими, пусть набирают статистику.
- Использовать другие способы проверки гепотез (опросы, изучение конкурентов, оценка поведения пользователей).
- Работать над минимизацией искажений в будущих тестах. Когда-то придет их время, а вы уже готовы.
Классическое АБ-тестирование
По этому поводу написано много, не вижу смысла повторяться. Пожалуй, имеет смысл дать ссылки на сервисы, с помощью которых можно делать тесты в том числе многовариантные:
Эксперименты в Google Analitycs — отличный вариант для новичка.
Changeagain.me, Convert.com, Vwo.com, Optimizely.com — мощные, платные сервисы с интеграцией с аккаунтом в Google Analytics.
A/Bingo — серверные фреймворки для Ruby.
В рекламной системе Google Adsense функция эксперименты тоже есть.
Отмечу также Онлайн-калькулятор критериев значимости сплит-теста
и сервис построения графиков по его результатам.
АА-тестирование
Для оценки корректного времени и необходимого количества данных иногда применяют АА-тесты, когда на тест ставят одно и то же, без изменений. Этот подход имеет право на жизнь, но он занимает отдельное время. Кроме того, с момента проведения АА до проведения АБ-теста что-то может измениться.
Плюсы и минусы AАБ
Подводя итоги можно сказать, что ААБ-тесты требуют больше ресурсов (трафика, времени, денег), но дают более точный и уверенный результат. Для его улучшения также применяют систему ААББ. В любом случае для нового проекта или типа изменений стоит сделать один два раза именно ААБ-тест, затем можно перейти на классические АБ.
Всем хороших тестов!
Смотрите также: Интерактивный UX-прототип: разбор на реальном примере.
Автор: izhanov