Школа Данных «Билайн», для менеджеров

2016-02-08 в 8:02, admin, рубрики: big data, data mining, kaggle, R, sna, Алгоритмы, алгоритмы обработки данных, анализ данных, анализ социальных сетей, Блог компании ВымпелКом (Билайн), машинное обучение, рекомендательные системы, школа данных

Школа Данных «Билайн», для менеджеров - 1

Привет!

Итак, мы запустили третий курс Школы Данных «Билайн». Подробный отчет о занятиях от одного из участников можно почитать здесь.

Отчеты о работе Школы мы также будем выкладывать на официальной странице Школы в Facebook. Там же будем отвечать на вопросы, которые также можно направлять на dataschool@beeline.digital.

Набираем 4-ый курс, который стартует с 4 апреля. Запись, как всегда, на странице Школы.

Однако, данный пост не только об этом. До сих пор в Школе Данных мы учили аналитиков, учили тому, как применять методы машинного обучения для решения практических задач. Однако, практически любая практическая задача начинается с бизнес-потребности и бизнес- постановки.

Мы сейчас не будем говорить о том, что на заре больших данных считалось, что основные инсайты и применения аналитики идут скорее от данных. Это безусловно есть, но в нашей практике это происходит в соотношении 80 к 20, где 80 процентов всех задач для аналитика или даже больше рождается от бизнеса.

Однако, как же бизнес генерит эти задачи, если он, бизнес, не разбирается в аналитике данных? Да, очень просто. В нашей компании мы потратили какое-то время на объяснение бизнесу возможностей аналитики данных и теперь разные подразделения заваливают нас заказами придумывая все новые применения этим инструментам.

С другой стороны, данные и их аналитика, когда-то бывшие прерогативой исключительно крупных компаний теперь проникают везде, и даже в стартапах сегодня нередко задумываются на тему, что же с этими данными делать.

Как применять данные для персонализации предложений и создания индивидуального продукта, как бороться с оттоком или минимизировать риски по невыплатам, как с помощью аналитики правильно выбирать место для расположения магазина, как сегментировать сотрудников компании для подбора мотивационных схем или предсказывать увольнения, как эффективно рекомендовать продукты, как профилировать клиентов, как работать с programmatic рекламой.

Все эти вопросы все чаще встают в разных направлениях бизнеса наряду с другими. Например, у компании есть много данных, например, потому-что она работает с данными телематических устройств: что с этими данными делать, как с их помощью заработать? Или как сделать компанию data-driven, чтобы все решения принимались на основе данных: с чего начать?

Раньше, все гонялись за кейсами: успешными применениями аналитики для решения бизнес-задач. Но, дело в том, что каждый бизнес достаточно уникален и то, что работает для одних может не работать для других, а с другой стороны — успешность любого кейса кроется в деталях, а эти самые детали вам никто не расскажет и, опять же, от бизнеса к бизнесу как раз эти детали могут существенно отличаться.

Поэтому, все успешные применения аналитики в вашем бизнесе Вам придется изобретать самим. А чтобы успешно это делать Вам нужно знать о возможностях и об ограничениях этой самой аналитики, причем и Вам, как владельцам бизнеса, и сотрудникам Ваших подразделений, так как большинство применений будут генерить именно они, как максимально приближенные к бизнес-задачам.

При этом, важно разбираться не только в применениях аналитики, но и в том, как работает эта самая аналитика, а также в постановке задачи. Сколько времени занимает построение модели, какие данные нужны, какая точность достижима, какая точность требуется с учетом бизнес-смысла?

Рассмотрим такой простой пример: вы прогнозируете звонок в колл-центр, или фрод, или другое редкое событие. Предположим, что Вам нужно получать список кандидатов на это событие раз в день, в случае со звонками для заблаговременного контакта с Вашими клиентами, а в случае с фродом для его пресечения.

Допустим, Ваши аналитики сделали Вам модель с вероятностью ложной положительной классификации звонка или фрода 10%. Это значит, что с вероятностью 10% клиент, который не собирался звонить в колл-центр будет классифицирован как собирающийся, а клиент, который не совершал фрод как фродер.

При этом, допустим, что вероятность правильной классификации тех, кто позвонит в колл-центр или совершит фрод 87%.

На первый взгляд, модель неплохая. Вы экономите много денег сокращая число звонков в колл-центр или фрода в 87% случаев. При этом, ложно вы классифицируете тех, кто не собирался звонить или совершать фрод только в 10% случаев.

Однако, можно вспомнить, что звонок в колл-центр в день это относительно всей клиентской базы все-же довольно редкое событие, впрочем, как и фрод, в нормальной ситуации. Допустим, что эти действия так или иначе касаются 1% от всех клиентов, что довольно близко к истине.

Между тем, нашу ошибку в 10% нужно наложить на 99% всей клиентской базы. Допустим, что у вас 1 млн клиентов. Тогда, получается, что вы в день сконтактируйте с целью предотвращения звонка в колл-центр или откажете в обслуживании на основании подозрения во фроде 1 млн * 99% * 10% = 99 000 клиентам. А если Ваша база 10 млн клиентов? А если 100?

Получается, что такая точность Вас совсем не устраивает и вы предпочтете пожертвовать точностью угадывания тех, кто действительно позвонит, с тем, чтобы как можно более занизить ошибки ложного включения в прогноз тех, кто не позвонил бы. Поскольку эти две величины взаимосвязаны.

Рассмотрим другой пример. Вы хотите, чтобы аналитики построили Вам модель оттока. Прежде всего, нужно будет договориться о том, что считать оттоком. В большинстве случаев клиенты явно не сообщают компании, что они ушли, они просто перестают пользоваться услугами. Соответственно, если они не пользовались Вашими услугами 2 недели это отток? А месяц? А два? Это необходимо обговорить заранее, ведь то, что вы определите как целевую переменную, то Ваша модель и будет предсказывать.

А на какой момент модель должна предсказывать уход в отток? На момент, когда клиент уже месяц не пользуется услугой? Или на начало этого периода, а может быть, заранее, чтобы у Вас было время сконтактировать с клиентом и постараться его удержать?

Эти и многие другие тонкости определяют успех или неуспех применения аналитики данных в каждом конкретном случае.

Есть еще и более глобальные вопросы: где в огструктуре компании разместить подразделение по работе с аналитикой, должно ли это быть подразделением или его можно разбросать по разным функциям, какой должна быть оргструктура подразделения, чтобы его работа была наиболее эффективной, какие процессы нужны, какие роли.

Для того, чтобы ответить Вам на все эти и другие подобные вопросы, мы сделали курс аналитики данных для менеджеров, Data-MBA.

В данном курсе мы рассказываем обо всех основных инструментах анализа данных, а также об их применении в разных областях бизнеса на примере конкретных кейсов, о тонкостях с этим связанных, о возможностях и об ограничениях, о процессах, о технологиях и о многом другом необходимом для успешного использования аналитики данных для решения бизнес-задач.

Первое занятие 16 февраля, запись до 12 февраля. Никакой особой предподготовки не требуется, мы все расскажем на занятиях. Записаться можно здесь.

Автор: ВымпелКом (Билайн)

Источник