Мобильные технологии

Как избежать типичных ошибок в А/Б-тестировании

А/Б-тесты являются одним из основных инструментов проверки продуктовых и маркетинговых гипотез. Во многих компаниях тесты являются обязательным этапом внедрения любого изменения в продукт. Это позволяет компаниям оставлять в продукте только то, что действительно полезно для пользователей, партнеров и бизнеса.

Меня зовут Дмитрий Волошин, я CTO EdTech маркетплейса Preply. В этом материале я хочу рассмотреть типичные ошибки, с которыми сталкиваются новички при внедрении А/Б-тестирования в компаниях. Это поможет вам внедрить тестирование быстрее, уберечь от нежелательных ущербов, а также сэкономить время команды.

Опасные HiPPO

А/Б-тестирование всегда начинается с идеи, что тестировать. Идея становится гипотезой, гипотеза — реализацией и тестом. Качество и основа гипотезы во многом определяют успех эксперимента. В свою очередь то, как команда решает, что тестировать, определяет успех всего подхода.

HiPPO — это английская аббревиатура, которая означает «Мнение самого высокооплачиваемого человека» (Highest Paid Person’s Opinion). По сути, это когда руководитель говорит, что лучше знает, что надо делать, и вся команда просто должна следовать плану. HiPPO как метод принятия решения обычно противопоставляется подходу, основанному на данных. Все смотрят на старшего, лидера и принимают только его мнение. Проблема в том, что каждый человек в разной степени предвзят. Это несомненно мешает принимать верные решения в длительной перспективе.

В реальной жизни это выглядит примерно так. Приходит руководитель и говорит, что его сосед по дачному участку смотрел сайт или использовал продукт и дал несколько дельных советов. Нам обязательно надо все внедрить, но через А/Б-тест. Гипотезы не имеют под собой реальных оснований, хотя идеи звучат великолепно. Да, идея и гипотеза — это не одно и тоже, и об этом важно помнить.

Так происходит несколько раз. Эксперименты не выигрывают, тратятся ресурсы, время уходит, ничего не работает. Под удар попадает сама идея экспериментов. Тесты не работают, все это сказки. Компания отказывается от инструмента тестирования и продолжает вслепую внедрять идеи руководителя.

Лучше всего работает независимая методика, алгоритм приоритизации гипотез. Одной из самых распространенных на сегодня является методика RICE. Гипотеза новичка рассматривается и оценивается наравне с гипотезой опытного сотрудника или гендиректора. Никто не может быть более правым, чем фактические данные.

Копирование кейсов других компаний

В заимствовании, адаптации и даже слепом копировании кейсов и идей других компаний нет ничего плохого. Логика таких решений простая: сработало у них, сработает и у нас, сработало один раз, может сработать и второй. К сожалению, это может как ускорить процесс, так и замедлить, и сбить команду с верного пути.

В начале пути обычно именно HiPPO приносят идеи извне. Он прочитал, услышал на конференции, узнал от коллег по рынку новый кейс. Презентация кейса была очень вдохновляющей, сама идея выглядела настолько простой и изящной, что становится непонятно, как же сами до этого не додумались. Нет никаких сомнений, что сработает и у вас.

Дело в том, что решение сработает только в том случае, если у вас есть такая же проблема. А это уже не факт. Это как в очереди к врачу обсудить свои симптомы и начать принимать лекарства соседа, но к врачу так и не зайти. Разумеется, лекарство от того, чего у вас нет, не сработает. Так же и с внедрением чужих решений. В результате, как и с прошлой проблемой, во всем виноваты тесты, и зачем вообще их делать, без тестов же все было замечательно.

Решить это поможет наличие списка проблем ваших клиентов, пользователей, посетителей. С актуальным списком проблем вы всегда можете проверить, подходит ли решение для чего-то из списка. Не стоит чинить то, что не сломано.

Досрочное завершение теста

В основе контролируемых экспериментов лежит математика. Представьте, что вы подбрасываете монетку десять раз. 5 раз выпадает орел, и 5 раз — решка. Потом вы сделали изменение, подпилили монетку напильником слегка. Бросаете еще 10 раз. Орел выпадает 6 раз, что скажете? Такое случается? Сколько раз должен выпасть орел, чтобы вы были уверены, что с монеткой стало что-то не так, и орел выпадает чаще?

В разных тестах и при разных условиях используются разные математические методы. Но цель всегда одна — понять, действительно ли результаты эксперимента (орел выпал чаще) вызваны нашими изменениями (мы подпилили монетку).

Досрочное завершение теста — это когда вы бросаете монетку три раза из 10, и неожиданным образом все три раза выпадает орел. «Ну вот оно! Работает! Теперь монетка волшебная, всегда выпадает орел». После этого вы решаете, что делать оставшиеся семь бросков смысла уже не имеет, и так уже все понятно.

В бизнесе желание завершить эксперимент раньше очень усугубляется слепым желанием заработать или избежать потерь. Если видят, что несколько дней положительная динамика, и что каждый день приносит +10% денег, то зачем же продолжать получать +10% только с половины трафика, а не со всего? Аналогично с потерями, каждый день терять 10% очень больно.

Такое поведение очень опасно и приводит к внедрению случайных изменений. С одной стороны, это просто трата ресурсов и драгоценного времени на то, что не работает. С другой стороны, внедряются изменения, которые наносят вред бизнесу.

Вы справедливо можете заметить, что если это приводит к внедрению случайных изменений, то внедряются и изменения, которые улучшают бизнес. Вы правы. Но положительные изменения менее вероятны, чем негативные. Представьте себе весь перечень лекарств. Какова вероятность, что, выбирая лекарства наугад, вы вылечитесь, а не наоборот? И помните, что эффект от всех лекарств накапливается.

Решение здесь одно. Всегда ждите завершения теста. Если ваш инструмент не дает однозначной оценки эффективности, попросите помощи у аналитиков.

Одна из самых поучительных историй произошла осенью 2012 года. Мы очень быстро начали внедрять А/Б-тестирование и запускали несколько тестов в неделю. У всех была эйфория, и все смотрели на результаты по несколько раз в день. Если положительный тренд держался несколько дней, то ура-ура, принимали решение оставлять на сайте. К ноябрю, спустя месяца два, у нас было очень много нового на сайте. Но в один день продажи просто упали. Мы почти трое суток ночевали на работе, закопавшись в аналитику. В конечном итоге мы пришли к выводу, что каждый такой тест менял поведение людей не в лучшую сторону, но так как мы не ждали завершения теста, то узнать о реальном влиянии на бизнес не могли.

Мы приняли решение откатить все изменения за последние два месяца. Через сутки продажи вернулись на прежний уровень, а мы научились ждать завершения тестов.

Знать результат заранее

В А/Б-тестировании возможны три варианта результата:

  1. Изменения приносят пользу.

  2. Изменения вредят.

  3. Результаты неоднозначны.

Что значит неоднозначны? Это когда эксперимент не выиграл и не проиграл. Утверждать, что А и Б равны, является ошибкой. Вы можете бросить монетку всего два раза. Будет ли этого достаточно, чтобы проверить, как сработало подпиливание монетки?

Когда вы собираетесь в магазин, то хотите тем или иным образом убедиться, что у вас хватит денег на все покупки, которые собираетесь сделать. Аналогичным образом следует поступать и с экспериментами.

До того, как будет решено начать разработку, необходимо рассчитать минимальный обнаруживаемый эффект (MDE — Minimum Detectable Effect). Например, расчет MDE может показать, что любой рост менее 42% не будет значимым. Здесь стоит спросить себя, а верим ли мы, что новый цвет кнопки поможет поднять продажи на 42%?

По сути, ошибка здесь — это запуск тестов, которые скорее всего не смогут достичь значимых результатов. Это само по себе – трата времени и ресурсов.

Расчет MDE является неотъемлемой частью составления дизайна самого эксперимента, где необходимо определить, кто войдет в тест, где будет происходить разделение аудитории на группы и т.д.

В моей сегодняшней практике MDE отсеивает примерно треть гипотез. Приведу пример. Изначально, мы планировали выводить количество забронированных уроков за последний час. Очевидно, что общее количество репетиторов, у которых забронировали уроки за последний час намного меньше, чем тех, у кого бронировали уроки за последние 12, 24 или 48 часов.

Посчитав MDE для всех случаев, стало очевидно, что 48 часов — это идеальный вариант: много репетиторов, привлекательное количество забронированных уроков, достаточный трафик и конверсия. Если бы мы запустили, как изначально планировали, то не было бы даже шанса получить какой-то результат.

Продолжать нельзя сдаться

Все описанные ошибки обычно приводят к тому, что никакого положительного эффекта от А/Б-тестирования нет. После несколько таких ошибок компании сдаются и отказываются от экспериментов как инструмента. Это сравнимо с походом в горы, где в какой-то момент вас не устраивает, как и куда вы идете, и вы решаете выбросить компас. На самом деле компас тут ни при чем, просто им надо научиться пользоваться.

А/Б-тесты — хороший инструмент в умелых руках. Как и любой инструмент, эксперименты идеально подходят для одних задач и совершенно бесполезны для других. Уверенное владение таким инструментом и его целесообразное использование помогут расти бизнесу быстрее и добывать новые достоверные знания.



Источник

Кнопка «Наверх»
Закрыть
Закрыть