Сначала была идея собрать частотный словарь слов Хабрахабр и Geektimes, но потом нашла прекрасное: Детальный анализ Хабрахабра с помощью языка Wolfram Language (Mathematica) (перед просмотром данной статьи рекомендую пройти по ссылке), увидела разницу в результатах и решила сделать подобное для статей с Хабрахабр и Geektimes. В обзор не попали статьи с подкастами и нестандартным оформлением (habrahabr.ru/article). Получился анализ 170000 статей. Все изображения кликабельны. Код Wolfram Notebook на github. Датасет на Яндекс.Диске.
Результаты обработки данных
Анализ хабов
Распределение количества хабов, в которых размещена статья:
Самые большие хабы по количеству статей:
Если рассмотреть только уникальные статьи (относящиеся только к одному хабу):
Граф связей не делала, т.к. не собирала список хабов отдельно.
Количество статей в зависимости от времени
В подписи к картинкам упомянут только Хабрахабр, но подразумеваем и Geektimes тоже.
Количество постов за месяц:
За год:
Хаб «Космонавтика»:
Хаб «Хабрахабр»:
Количество изображений (видео), используемых в постах в зависимости от времени
И в отдельных хабах:
Облака ключевых слов и отдельных хабов
Вот тут функция WordCloud какое значение ни передавай атрибуту WordOrientation (Random,{-Pi/4,Pi/4}) рисовала все по-умолчанию:
Хаб «Математика»:
Хаб «Программирование»:
Хаб «Java»:
Хаб «Open source»:
Хаб «Машинное обучение»:
Сайты, на которые ссылаются в статьях
Убираем Хабрахабр как источник ссылок:
В хабе «Математика» (без Хабрахабра как источника ссылок):
Хаб «Разработка под iOS»:
Хаб ".NET":
Коды, которые приводят в статьях
Без SomeCode (если не указан язык программирования):
В хабе «Алгоритмы»:
В хабе «Программирование»:
В хабе «Настройка Linux»:
В хабе «Машинное обучение»:
Частота встречаемости слов
В хабе «Разработка под iOS»
В хабе «Разработка под Android»:
Частота употребления названий операционных систем в хабе «Open source»:
И на Хабрахабре/Geektimes:
Рейтинг и числа просмотров постов, а также вероятность достижения их определенных значений
Средний рейтинг поста на Хабрахабре/Geektimes равен 25.6067, а среднее количество просмотров 13487.2.
Математическое ожидание: {25.6067, 13487.2}
Среднеквадратическое отклонение: {35.9361, 28783.9}
Вероятность, того, что пост наберет определенный рейтинг:
Вероятность, того, что пост наберет определенное число просмотров:
Зависимость рейтинга и числа просмотров поста от времени публикации
Зависимость рейтинга поста от его объема
Средний объем поста на Хабрахабре/Geektimes равен 5199 символов.
Вероятность того, что пост с объемом не превышающим заданное количество символов наберет рейтинг не менее заданного:
Кстати по поводу частот слов. До использования Wolfram в Jupyter Notebook с помощью библиотек pymorphy2, nltk построила облака слов по годам, но для меньшего количества статей. Брала 50 самых часто встречающихся слов в статье (исключив стоп-слова), а затем объединяла словари по всем статьям за определенный год. Облака построены в Tagul. КДПВ — это облако слов для 2006 года. Для 2016-го:
Посты с максимальным количеством
Изображений: "Обзор почтовых клиентов под Android, или как я почтовик выбирал"
Комментариев: "Как раздавать инвайты на Google+"
Рейтингом: "Делаем приватный монитор из старого LCD монитора"
Количеством тегов: "Информационно-технологические средства практического выживания социальных сообществ в условиях отключения Интернета в 2014 году"
Просмотрами: "Взломать Wi-Fi за… 3 секунды"
Количеством видео: "DUMP-2016: видео всех докладов в одном посте. Бесплатно. Без СМС"
Количеством ссылок: "Лженаука и аферисты. Фальшивые научные журналы"
Текста: "Создаем клон Flappy Bird — Zombie Bird"
Автор: urticazoku