Задача по бизнес применению машинного обучения
Компании заинтересованы в ответах на два вопроса:
- Будет ли кампания успешной?
- Если кампания была успешной, насколько этот успех можно объяснить рекламой?
Большинство людей будут видеть рекламу (экспериментальная группа). А небольшая часть людей (контрольная группа) вместо этого увидит объявление государственной службы (PSA) (или ничего) точно такого же размера и в том же месте, где обычно находится реклама.
Идея задания состоит в том, чтобы проанализировать группы, выяснить, была ли реклама успешной, сколько компания может заработать на рекламе и является ли разница между группами статистически значимой.
Словарь данных:
- user id: Идентификатор пользователя (уникальный).
- test group: Если "ad", то человек видел рекламу, если "psa", то он видел только объявление государственной службы.
- converted: Если человек купил продукт, то True, иначе False.
- total ads: Количество рекламы, увиденной человеком.
- most ads day: День, в который человек увидел наибольшее количество рекламы.
- most ads hour: Час дня, в который человек увидел наибольшее количество рекламы.
- Исследуйте структуру данных;
- Преобразуйте столбцы к необходимым типам данных.
- Проверьте данные на наличие пропусков и избавьтесь от них, если нужно.
- Проверьте, есть ли пользователи, которые в процессе A/Bтеста попали в обе группы. Если да, исключите пользователей, оказавшихся в обеих группах.
- Рассчитайте вспомогательные показатели для контрольной и тестовой групп:
- количество посещений сайта;
- суммарное количество совершённых покупок;
- В каждой из групп рассчитайте ключевые показатели:
- конверсия;
- среднее количество рекламы, увиденной пользователем.
- Сформулируйте статистические гипотезы, соответствующие поставленным бизнес-вопросам, и выберите статистический тест для их проверки.
Не забудьте проверить данные на нормальность там, где это необходимо. - С помощью аппарата статистических тестов определите:
- Есть ли статистическая разница между конверсиями в группах А и B?
- Есть ли статистическая разница между средними количествами увиденной рекламы в группах А и B?
- Подкрепите результаты статистических тестов, построив 95 % доверительные интервалы для:
- конверсий в каждой из групп;
- разницы конверсий в группах;
- среднего количества увиденной рекламы в группах А и B.
- Проинтерпретируйте построенные доверительные интервалы для конверсий и среднего количества увиденной рекламы группах. Есть ли перекрытие между доверительными интервалами для групп? Если есть, то о чём это говорит?