Как заставить данные говорить

в 7:03, , рубрики: data mining, анализ данных, веб-аналитика

Как только Google Analytics или Яндекс.Метрика публикуют новость о новом отчёте, метрике или обновлении интерфейса и всё сообщество ликует, я испытываю лёгкое головокружение. Но не от радости. Для меня это сигнал о том, что в ближайшее время вместо того, чтобы работать над качеством продукта, мы начнем изучать системы аналитики. Погоня за количеством данных вытеснила стремление к качеству анализа на задворки потребностей. Точность стала важнее тренда, а на сайтах теперь стоят по 3-5 счётчиков от разных систем аналитики.

Как заставить данные говорить

Данных много не бывает? Ещё как бывает. Вспомните про парадокс данных, который отлично сформулировал Авинаш Кошик. Недостаток данных не позволяет принимать решения, но и изобилие не даёт представление о том, что происходит.

Так не пора ли приступить к поискам ответов? Я расскажу об универсальном методе, который помогает мне делать выводы, а еще приносит огромное удовольствие в работе с информацией. Чтобы далекие от интернет-маркетинга и веб-аналитики пользователи не заскучали, для примера я взяла тему из нашей с вами повседневной реальности.

Основные этапы работы с данными

Работа с данными состоит из нескольких этапов, но необходимости соблюдать строгую последовательность нет: приходится то и дело возвращаться к предыдущим этапам и забегать вперед.

1. Подготовка
– Формулировка вопросов.
– Выбор источника.
– Сбор данных.
– Изучение.
– Очистка данных и принятие допущений.

2. Анализ
– Поиск ответов на поставленные вопросы.
– Поиск закономерностей.
– Поиск зависимостей.

3. Демонстрация результата
– Визуализация данных.
– Демонстрация решений, ответов.

Поехали!

Подготовка

Формулировка вопросов

Данные – это ловушка для ума. Они заманивают в лес цифр и легко могут сбить с верного пути. Для того, чтобы не отклоняться от цели, задайте вопрос, на который хотите получить ответ. Сформулируйте его в свободной форме и запишите на бумаге. Пусть это будет простой вопрос «Хорошо или плохо продаёт мой сайт?» или «Куда исчезли покупатели с сайта?». Дальше разбейте общий вопрос на подвопросы и допишите их в список. Например, к вопросу о продажах на сайте будет уместен подвопрос: какие товары продаются хорошо, какие плохо. Не забудьте оставить на листе бумаги пустое место, вполне возможно, что на последующих этапах вам захочется дополнить список.

Мои вопросы:
Какова внешняя политика России в последние годы?
(Я предупреждала, что данные возьму из реальной жизни).

Подвопросы:

  • Какова активность России во внешней политике на протяжении последних лет?
  • С какими странами Россия наиболее активно взаимодействует?
  • Как изменялись предпочтения во взаимодействиях с другими странами?

Меня интересуют внешнеполитические процессы после Мюнхенской конференции с февраля 2007 по сентябрь 2014. Вопросы сформулировала, теперь отправляемся на поиск источника.

Выбор источника данных

Ключевое требование к источнику: составляющие его данные должны быть релевантными и однородными.

Релевантные означают то, что они содержат необходимый и достаточный минимум информации для ответа на поставленные вопросы, а также близки первоисточнику.

В исторической науке есть целая отрасль, которая называется источниковедением. Она занимается классификацией и анализом источников и оперирует понятиями первичного и вторичного источника. Для получения максимально достоверных результатов важно пользоваться первоисточниками – сообщениями «из первых рук», не обработанными кем-то извне. Так например данные из Википедии о событиях во внешней политике не являются первоисточником. Первоисточником могут быть протоколы встреч первых лиц с датами встреч и списком участников.

Второе требование к данным – это однородность. Наличие общих свойств, природа которых неизменна для всего множества объектов, – обязательное условие. Другими словами, данные должны быть качественно однородными по своему составу. Не корректно сравнивать и складывать метрики из Яндекс.Метрики и Google Analytics, так как способы их обработки могут быть разными. Хотя я довольно часто наблюдаю обратную картину.

Вернемся к внешней политике. За источник данных я взяла официальные сообщения о значимых внешнеполитических мероприятиях с участием России с сайта kremlin.ru. Несмотря на то, что официальные пресс-релизы не являются первичными источниками, мы можем их использовать в работе. Они максимально близки к первоисточнику. Публикации с одной стороны отражают качество работы контент-менеджера и PR-службы Кремля, с другой имеют прямое отношение к происходящим событиям.

1) Данные из архива в разделе Внешняя политика
2) Новости по тегу «внешняя политика» (с 08.05.2008 по 14.10.2014)

Забегу вперёд и скажу, что мне придётся отказаться от использования первого источника. C сентября 2009 года архив перестал пополняться новостями, к тому же в первом и во втором случаях использовались разные принципы описания новостей.

После того, как мы определились с источником, приступаем к самой сложной и важной части работ: сбору данных.

Сбор, изучение, очистка, допущения

Я попросила программиста спарсить разделы сайта в таблицу CSV, чтобы в дальнейшем было удобно работать с записями в Excel. Вы же вольны выбирать любые удобные для вас средства анализа данных.

Важная деталь: необходимо использовать реляционную модель организации данных.

Проще говоря, каждая новая запись должна располагаться в новой строке, атрибуты помещаться в столбцах и принадлежать одному типу данных (дата, текст, число и др.). Мы ведь стремимся к созданию однородной и качественной базы данных.

В моём примере записью в строке является уникальная публикация на тему внешнеполитических мероприятий. В Excel она выглядет как запись в строке с атрибутами: дата события, тип события, участник/участники события.

Парсинг двух разделов дался нам нелегко: сайт отдавал ошибку 402 Payment Required, 6 объектов куда-то потерялись, около 3 500 записей оказались в нашем распоряжении. Если потерю в 0,18% данных можно допустить, то факт, что на руках две таблицы из разных источников и с разными атрибутами, игнорировать было нельзя. При их объединении принцип однородности данных был бы нарушен, поэтому мне пришлось дополнительно сравнивать пересекающиеся периоды из обоих источников, и в конце концов я решила убрать первый источник. В конце концов мы получили 3293 записей о событиях за период с 08.05.2008 по 14.10.2014.

Теперь полученные данные необходимо изучить. Excel располагает простыми и удобными инструментами: группировками, фильтрами, сортировками, сводными таблицами, которых вполне достаточно для большинства задач. Я с интересом просмотрела содержание ячеек и обратила внимание на повторяющиеся названия мероприятий в заголовках новостей. С завидным постоянством встречались публикации о встречах, телефонных переговорах, подписании документов, церемониях. К записям напросился новый атрибут «тип события», я создала ещё один столбец и заполнила его соответствующими значениями.

Как заставить данные говорить

Важно отметить, что не все события трактовались однозначно. Например, сообщение о начале встречи и сообщение о переговорах на встрече я отнесла к одному типу мероприятия «Встреча», а значит об одном мероприятии в нашей базе могло быть несколько записей. Принятые допущения были зафиксированы и применены ко всем данным.

Исследуемый период с 08.05.2008 по 14.10.2014 захватывает президентства В.В. Путина и Д.А. Медведева. Напомню даты:

В.В. Путин – 07.05.2000 – 07.05.2008
Д.А. Медведев – 07.05.2008 – 07.05.2012
В.В. Путин – 07.05.2012 – н.в.

Этот этап работ оказался самым продолжительным и ответственным. Я не один раз прогоняла данные через фильтры, группировала записи, проверяла корректность значений, типов данных, в итоге добилась необходимой однородности и корректности.

Анализ данных

Сразу после подготовки данных важно сделать перерыв и вернуться в начало – к вопросам, которые мы сформулировали. Часто происходит так, что к этому моменту мысль уходит далеко за пределы текущего исследования, поэтому возврат в начало становится наилучшим способом не упустить важное.

Теперь мы близки к тому, чтобы строить выводы. На этапе анализа важно избегать предвзятости. Приступать к исследованию с желанием доказать готовую гипотезу можно, но не стоит забывать о возможном существовании альтернатив. Пытаясь доказать, что показатель отказов вырос из-за плохого трафика, мы никогда не обнаружим падение скорости загрузки сайта после недавнего релиза.

Еще одно предостережение касается поиска зависимостей и закономерностей. Нам очень хочется узнать, как одно значение влияет на другое, потому что в нашем обыденном представлении причина и следствие ходят парой. Но социальные явления, а поведение пользователей на сайте тоже к ним относится, характеризуются множественностью причин и следствий. Даже когда мы видим на графике две похожие по форме кривые, которые отражают разные признаки одного явления, между ними может не быть никакой взаимосвязи. Любые выводы о наличии корреляционной зависимости между значениями всегда носят вероятностный характер.

А теперь приступим к нашим ответам на вопросы о внешней политике.

Демонстрация результата

Какова активность России во внешней политике на протяжении последних лет.
Как заставить данные говорить
В 2010 году вышло максимальное количество новостей на внешнеполитическую тему.

Каков список стран, с которыми Россия взаимодействовала чаще всех. Я составила список топ-5 стран, о которых накоплено максимальное количество сообщений за исследуемый период. Будем держать прицел на ключевых участниках международных отношений. Если вдруг кто-то исчезнет из выборки на последующих этапах – это послужит сигналом проверить данные ещё раз или задать новый вопрос.

Как заставить данные говорить

Какие самые популярные типы событий упоминались в новостях и есть ли какие-то особенности или изменения на протяжении всего периода.
Как заставить данные говорить

Количество пресс-релизов о встречах в 2010 году максимальное. В 2014 году заметно резкое увеличение количества сообщений о состоявшихся телефонных переговорах.
Российские политики стали больше разговаривать и меньше встречаться. Оперативные и срочные задачи требуют меньше церемоний.

Интересно, с какими странами и организациям выросло количество телефонных переговоров в 2014 году. Я выбрала участников с максимальным количеством сообщений о телефонных разговорах за 2014 год.

Как заставить данные говорить
В 2014 году наблюдаем уникальные составы участников телефонных переговоров и рост прямых контактов с рядом стран. Из ключевых участников международных отношений в списке отсутствует Китай, позже выясним, с чем это может быть связано.

Построим график количества сообщений по странами с учётом многосторонних телефонных переговоров.
Как заставить данные говорить
Заметно увеличение телефонных разговоров с Германией, Францией и США.

Что же со встречами? Возьмем лидирующие по встречам страны и посмотрим на общую картину.
Как заставить данные говорить
График не самый показательный, но из таблицы с данными видно, что на 14.10.2014 нет ни одного сообщения о встречах России с США и Израилем.

Интересен характер взаимодействий России с конкретными странами. Продолжим рассматривать два ключевых мероприятия встречи и телефонные разговоры по странам.
Как заставить данные говорить
Наш восточный сосед не любит болтовню по телефону.

Как заставить данные говорить
Телефонные звонки за текущий год побили все рекорды.

Как заставить данные говорить
Уже конец года и никаких встреч.

Как заставить данные говорить
Скачкообразные изменения.

Как заставить данные говорить
В 2009-ом году полный штиль. Отсутствие сообщений вероятно связано с газовым конфликтом между Россией и Украиной в 2008-2009.

Вы, возможно, обратили внимание на то, что в столбце «участники» у нас несколько типов значений: с указанием одной и нескольких стран через запятую или стран и организаций.

Встречи между политиками бывают двусторонними и многосторонними. Интересно взглянуть на то, с какими странами Россия встречается чаще на двусторонних переговорах, с какими на многосторонних.

Для этого я дополнила данные ещё одним атрибутом: коэффициентом, равным отношению общего количества встреч к количеству двусторонних. Те страны, которые окажутся ниже среднего, по большей части ведут переговоры на двусторонних встречах; те, что выше среднего, участвуют активно в многосторонних.

Как заставить данные говорить

Нет ничего удивительного в том, что страны СНГ оказались ближе к точке пересечения и выше среднего – они принимают участие в совместных форумах и саммитах. Но вот что в их компании забыла Франция? Я сделала сводную таблицу по всем мероприятий с участием Франции за весь период, и оказалось, что Франция была третьей стороной в переговорах по разрешению Грузино-южноосетинского конфликта 2008 года.

***

Конечно, можно ещё массу интересных вещей вытащить из этих данных, но ответы на вопросы я получила, значит, цель достигнута. Даже больше: теперь у меня всегда под рукой информация для более глубокого понимания текущей ситуации во внешней политике. Как видите, если перестать коллекционировать цифры и начать задавать конкретные вопросы, данные отвечают на языке полезных и интересных выводов.

Напоследок расскажу мою любимую историю о первом месте работы Авинаша Кошика. Будущий мировой эксперт в области веб-аналитики пришёл в компанию, где были настроены 200 отчётов. Через месяц после своего прихода Авинаш Кошик отключил их все. Прошло две недели, а пропажи так никто и не заметил.

Автор: yoklm

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js