Изменение места жительства пользователей Facebook
Математик и программист Стивен Вольфрам известен как автор программы Mathematica и научного поисковика Wolfram Alpha. Несмотря на большой объём текущей работы, Стивена всегда интересовал вопрос: можно ли математическими методами проанализировать траекторию жизни человека. В прошлом году он сделал первую попытку и опубликовал результаты анализа своих личных цифровых данных: визуализация 300 тыс. отправленных электронных писем с 1989 года, 100 миллионов нажатий клавиш с 2002 года, телефонные звонки, встречи, время редактирования файлов разного типа с 1980 года и т.д. Подобный личностный анализ доступен для всех подписчиков на платную версию Wolfram Alpha Pro.
Теперь пришло время перейти расширить концепцию личностного анализа на обработку данных с социальных сетей. Недавно на поисковике Wolfram Alpha был открыт раздел Personal Analytics for Facebook (персональная аналитика для Facebook), а в программный пакет Mathematica добавили функцию SocialMediaData. Уже есть первые результаты.
Для начала, Стивен Вольфрам провёл основные статистические расчёты: проанализировал возраст пользователей Personal Analytics for Facebook, среднее количество френдов. На графике показана зависимость количества френдов от возраста.
Зависимость количества френдов от возраста
Зависимость количества френдов от семейного статуса и возраста
Более подробный анализ позволяет понять, в каком возрасте человек завязывает знакомства. На следующем графике показана положительная корреляция возраста пользователя и среднего возраста его друзей: почти всегда на протяжении жизни человека у него больше всего знакомых точно такого же возраста, как он сам. Этот закон нарушается только в 15 лет (когда большинство знакомых — старше 15-ти) и после 55 лет (большинство друзей — младше 30-ти).
Корреляция возраста пользователя и среднего возраста его друзей
Друзья человека обычно распределяются по нескольким чётко сформированным кластерам. Например, вот кластеры 15-летней дочки Стивена Вольфрама.
Интересно, что каждый кластер отражает какое-то событие в жизни. Обычно у человека 3-4 таких кластера, которые имеют разную форму, в зависимости от специфики события, личных качеств человека и других уникальных обстоятельств. Так что запустив функцию FindGraphCommunities можно составить уникальный «отпечаток» пользователя, который довольно точно будет коррелировать с событиями в его жизни и с его личностью. На иллюстрации ниже показаны социальные графы некоторых пользователей.
Траектория жизни пользователей прослеживается на графике с изменением семейного положения.
Изменение семейного положения с возрастом
Информация довольно точно совпадает с данными официальной переписи населения, если не считать типичных погрешностей, когда тинейджеры по ошибке указывают в профиле женатый/замужний статус.
Но вот что касается распределения по возрасту — аудитория социальных сетей кардинально отличается от данных переписи населения.
Интересно также проследить, как меняются жизненные интересы людей с возрастом. В частности, резко растёт интерес к погоде, политике и здоровью, и стабильно снижается интерес к моде и видеоиграм.
Ещё один аспект персональной аналитики — миграционные потоки. Разные города в графе «Место рождения» и «Место жительства» помогают составить картину актуальных миграционных процессов. Например, можно легко увидеть, что США — самая привлекательная страна для российских эмигрантов.
Автор: alizar