Почти неделя прошла с исполнения хабрахабру 6 лет. Было бы очень интересно посмотреть на графики роста показателей сайта. Т.к. стандартная статистика малоинформативная, решено было собрать всю информацию своими руками и проанализировать. И так, почти неделя парсинга и сбора информации и получены следующие интересные данные(скрытые/удаленные посты/пользователи и их комментарии не учтены):
- Больше всего постов написал alizar — 4298, рекорд 12 постов в день поставлен 18 октября 2006
- Больше всего комментариев написал VolCh — 19323, установив личный рекорд 27 июля 2011 года в количестве 140 комментариев.
- Больше всех опубликовал постов в день freetonik —21 топик 26 августа 2007
- Максимальная активность хабры в день — опубликовано 105 топиков: 18 февраля 2010 и 22 июня 2008 года.
- Максимальная активность хабры в месяц — опубликовано 2055 топиков в марте 2010
- Среднее значение кармы: +7,83
- Средний рейтинг топика: +24,75
- Всего комментариев: 3 703 022.
- Средний рейтинг комментария: +0,98
- Максимальное количество оставленных комментариев — 1 июля 2011 в количестве 4936 штук.
- 25% из всех опубликованных топиков были перенесены в черновики
- Самый комментируемый топик habrahabr.ru/post/123157/ собрал 2252 комментария
Красивые графики, методы измерения, база с полученными данными, «хаброаномалии» — все это под катом.
y — количество публикуемых топиков в месяц; x — временная шкала, 1 деление — месяц
y — количество публикуемых комментариев в месяц; x — временная шкала, 1 деление — месяц
y — количество регистраций пользователей в месяц; x — временная шкала, 1 деление — месяц
Ответ на вопрос, чем обусловлен такой провал по количеству регистраций начавшийся в августе 2008 и достигший минимума в сентябре (1 регистрация за месяц), я не нашел. Возможно пользователей, зарегистрированных в этот период массово забанили/перевели в read-only.
y — усредненное количество публикуемых в данное время топиков; x — временная шкала, 1 деление — час
Данный график был получен путем подсчета количества опубликованных топиков в данный час за 6 лет. Если брать меньшие рамки, возможно сдвижения графика.
y — усредненное количество публикуемых в данное время топиков; x — временная шкала, 1 деление — сутки
y — средняя итоговая оценка топиков за все время; x — временная шкала, 1 деление — сутки
Как оказалось, больше плюсов набирают топики опубликованные на выходных. Возможно это связано с тем, что на выходных их публикуют в два раза меньше.
y — количество пользователей с количеством топиков, указанных в х шкале; x — количество топиков пользователя
Как ни грустно, но чуть больше половины пользователей не опубликовало ни одного топика.
y — количество пользователей с количеством комментариев, указанных в х шкале; x — количество комментариев пользователя
Как видно из графика, около 15% пользователей постят 1-5 комментария и прекращают свою активность.
y — количество пользователей с количеством кармы, указанной в х шкале; x — количество кармы пользователя
20% пользователей имеют нулевую карму. Радует перевес количества пользователей в положительной части.
Как считалось
Т.к. прямого доступа к БД хабры нет, то пришлось искать обходные пути. Если вы замечали, то у каждого топика есть его номер в адресной строке, т.е. мы можем просмотреть самую первую запись на хабре habrahabr.ru/post/1/. Решение пришло быстро, надо перебрать все опубликованные топики, начиная с 1 и заканчивая 144 400 номером(на тот момент последний топик, у которого уже истек срок голосования). Из них существуют 121 641 топика, из которых 25 949 перемещены в черновики и еще несколько сотен оказались пустыми, наподобие этого: habrahabr.ru/company/muk/blog/119653/. Все топики были сохранены в файлы для дальнейшего парсинга, заняли почти 10Гб. Далее каждый топик парсился следующим образом: брался автор топика, рейтинг, дата публикации, после этого парсились комментарии, из них брался автор, рейтинг комментария и дата. У нас получилось три таблицы. После получения всех пользователей необходимо было получить для каждого значение его кармы и рейтинг. При таком подходе посчитались все, кто хотя бы раз запостил пост или оставил комментарий.
Структура БД:
Скачать дамп базы (MSSQL) можно здесь (132Мб):
- torrent: tinyurl.com/bqy5g7c
- narod.ru: narod.ru/disk/51378386001.7a6c403f0422f2ca2edbaba1275c3ffd/backup.sql.html
Хаброаномалии
Во время парсинга обнаружилась целая куча аномалий:
- Топики опубликованные за полгода до основания хабра: habrahabr.ru/post/1453/ habrahabr.ru/post/1455/
- Пользователи, зарегистрировавшиеся в далеком 1970 году: Nks PeterParker
- Пользователи, которые вроде бы и есть habrahabr.ru/post/100012/#comment_3089391, но и в тоже время их нет netrider (при попытке запросить профиль пользователя 404 ошибка)
P.S. Принимаю предложения по построению интересных графиков на основе полученной информации.
Автор: vyacheslav_ka