Пролог
Последние год-полтора я чувствовал себя в ЖЖ как этот таксист. Впервые я зарегистрировался в LiveJournal уже больше 10 лет назад. Про фейсбук тогда наверно и Дуров не слыхивал, а тут можно было объединяться по интересам, обмениваться мнениями, писать корифеям типа Лебедева. У меня сформировалась френдлента и я стал замечать, что русский сегмент не так уж велик и в общем-то все друг друга знают. Года с 2011 примерно ЖЖ стал чахнуть, движуха стала перемещаться в твиттер и фейсбук, а я стал замечать что контингент комментирующих меняется. Сначала это было незаметно, но с прошлого года я поймал себя на мысли, что открывая комментарии к посту, я задаюсь вопросом того самого бородатого отшельника. Да и в прессе стали проскакивать статейки интересного содержания.
Но особой веры журналистам у меня нет, поэтому вооружившись Python, BeautifulSoup, psycopg2, matplotlib и PostgreSQL я решил провести собственное мини-расследование и заодно освежить/приобрести кое-какие навыки.
Внешний вид и поведение
Что таить, я и сам любил иногда потроллить, за многое до сих пор стыдно, но бесценный (ха-ха) опыт позволил мне сформулировать основные признаки тролля:
- Мало постов. Тролль ничего не пишет, он
сркормится в чужих журналах и как следствие у него… - Мало полученных комментариев.
- Много написанных в чужие журналы комментариев
- Мало «зафрендивших» друзей. Тролль заводит журнал не для общения, зачастую ради одного единственного наброса.
Но те, кого я искал были не совсем троллями.
Они явно не были одиночками, похоже что они действовали сообща и у них было больше возможностей по маскировке.
Они могли писать осмысленные посты и иметь много друзей, поэтому пока мой уродливый скриптик дергал странички мобильной версии ЖЖ выделенных мной топовых блоггеров, я ломал голову как потом обработать полученные данные.
- Предполагалось, что большое количество мурзилок должно было появиться в короткий срок, поэтому для каждого юзера извлекалась дата регистрации.
- Начиная с какого-то времени в ЖЖ ввели возможность комментировать через аккаунты твиттера, фейсбука и прочих сервисов. Видя как орды ботов в твиттере тащат в тренды все что угодно, я полагал это подмножество юзеров перспективным.
- Был придуман «коэффициент мурзилкоподобия», который являлся отношением написанных комментариев к полученным. Этот коэффициент для идеального тролля должен был стремиться к бесконечности, а для сферического интроверта ожидался равным единице. Но все оказалось немного страннее.
Улов
Скрипт работал все новогодние праздники, в консоли иногда оказывались юзернеймы знакомых людей, иногда даже уже ушедших. Все-таки 10 лет это немалый срок…
За пару недель, словив три бана, удалось распарсить примерно 11 тысяч постов, 2.3 миллиона комментариев, которые оставили около 90 тысяч юзеров к не всем записям 7 топовых блоггеров. Негусто, и наверно около 5% от того, что я хотел напарсить изначально. Дамп этой базы данных можно скачать здесь.
Пришло время анализировать данные. Первым делом я решил вывести зависимость «мурзилкоподобности» от времени регистрации.
Нормировка, попытки расчета с влиянием количества собственных постов, подбор весовых коэффициентов, все это не показывало никаких аномалий и более напоминало попытку подгона решения под ответ. Глянем для внешних юзеров.
Ну, этот скачок вполне объясним. Например добавили новые сервисы с которых можно авторизоваться.
Почти смирившись с тем, что намека на доказательства нет, я решил напоследок построить график простого соответствия даты регистрации пользователя его нынешнему количеству друзей.
Да, я собрал мало данных. Да, это не совсем моя предметная область, многие вещи я делал впервые и мог ошибиться. Да, я уже подзабыл что такое коэффициент Стьюдента. Да и в общем-то это ничего не доказывает.
Возможно ли, что юзеры, регистрировавшиеся в один день отличаются большей популярностью в блогосфере? Вряд ли. Предлагаю подумать вместе.
Вместо эпилога
Аномалия 2004 года крупнее.
Ссылка на репозиторий. Не судите код строго, очень спешил.
Особую благодарность за консультации в расследовании хочется выразить моему другу a11aud.
Автор: MrPeterLink