Анализ статей Хабрахабр и Geektimes

в 19:18, , рубрики: wolfram language, wolfram mathematica, Алгоритмы, визуализация, визуализация данных, обработка данных, парсинг, поиск закономерностей, Программирование, статистика, хабрахабр

Анализ статей Хабрахабр и Geektimes - 1

Сначала была идея собрать частотный словарь слов Хабрахабр и Geektimes, но потом нашла прекрасное: Детальный анализ Хабрахабра с помощью языка Wolfram Language (Mathematica) (перед просмотром данной статьи рекомендую пройти по ссылке), увидела разницу в результатах и решила сделать подобное для статей с Хабрахабр и Geektimes. В обзор не попали статьи с подкастами и нестандартным оформлением (habrahabr.ru/article). Получился анализ 170000 статей. Все изображения кликабельны. Код Wolfram Notebook на github. Датасет на Яндекс.Диске.

Результаты обработки данных

Анализ хабов

Распределение количества хабов, в которых размещена статья:

Анализ статей Хабрахабр и Geektimes - 2


Самые большие хабы по количеству статей:

Анализ статей Хабрахабр и Geektimes - 3


Если рассмотреть только уникальные статьи (относящиеся только к одному хабу):

Анализ статей Хабрахабр и Geektimes - 4


Граф связей не делала, т.к. не собирала список хабов отдельно.

Количество статей в зависимости от времени

В подписи к картинкам упомянут только Хабрахабр, но подразумеваем и Geektimes тоже.

Количество постов за месяц:

Анализ статей Хабрахабр и Geektimes - 5


За год:

Анализ статей Хабрахабр и Geektimes - 6


В хабе «Математика»:

Анализ статей Хабрахабр и Geektimes - 7


Анализ статей Хабрахабр и Geektimes - 8


Хаб «Космонавтика»:

Анализ статей Хабрахабр и Geektimes - 9


Анализ статей Хабрахабр и Geektimes - 10


Хаб «Хабрахабр»:

Анализ статей Хабрахабр и Geektimes - 11


Анализ статей Хабрахабр и Geektimes - 12

Количество изображений (видео), используемых в постах в зависимости от времени

Анализ статей Хабрахабр и Geektimes - 13


Анализ статей Хабрахабр и Geektimes - 14


Анализ статей Хабрахабр и Geektimes - 15


Анализ статей Хабрахабр и Geektimes - 16


Анализ статей Хабрахабр и Geektimes - 17


Анализ статей Хабрахабр и Geektimes - 18


Анализ статей Хабрахабр и Geektimes - 19


Анализ статей Хабрахабр и Geektimes - 20


И в отдельных хабах:

Анализ статей Хабрахабр и Geektimes - 21


Анализ статей Хабрахабр и Geektimes - 22


Анализ статей Хабрахабр и Geektimes - 23


Анализ статей Хабрахабр и Geektimes - 24


Анализ статей Хабрахабр и Geektimes - 25


Анализ статей Хабрахабр и Geektimes - 26

Облака ключевых слов и отдельных хабов

Вот тут функция WordCloud какое значение ни передавай атрибуту WordOrientation (Random,{-Pi/4,Pi/4}) рисовала все по-умолчанию:

Анализ статей Хабрахабр и Geektimes - 27


Анализ статей Хабрахабр и Geektimes - 28


Хаб «Математика»:

Анализ статей Хабрахабр и Geektimes - 29


Хаб «Программирование»:

Анализ статей Хабрахабр и Geektimes - 30


Хаб «Java»:

Анализ статей Хабрахабр и Geektimes - 31


Хаб «Open source»:

Анализ статей Хабрахабр и Geektimes - 32


Хаб «Машинное обучение»:

Анализ статей Хабрахабр и Geektimes - 33

Сайты, на которые ссылаются в статьях

Анализ статей Хабрахабр и Geektimes - 34


Убираем Хабрахабр как источник ссылок:

Анализ статей Хабрахабр и Geektimes - 35


В хабе «Математика» (без Хабрахабра как источника ссылок):

Анализ статей Хабрахабр и Geektimes - 36


Хаб «Разработка под iOS»:

Анализ статей Хабрахабр и Geektimes - 37


Хаб ".NET":

Анализ статей Хабрахабр и Geektimes - 38

Коды, которые приводят в статьях

Без SomeCode (если не указан язык программирования):

Анализ статей Хабрахабр и Geektimes - 39


В хабе «Алгоритмы»:

Анализ статей Хабрахабр и Geektimes - 40


В хабе «Программирование»:

Анализ статей Хабрахабр и Geektimes - 41


В хабе «Настройка Linux»:

Анализ статей Хабрахабр и Geektimes - 42


В хабе «Машинное обучение»:

Анализ статей Хабрахабр и Geektimes - 43

Частота встречаемости слов

Анализ статей Хабрахабр и Geektimes - 44


Анализ статей Хабрахабр и Geektimes - 45


Анализ статей Хабрахабр и Geektimes - 46


Анализ статей Хабрахабр и Geektimes - 47


Анализ статей Хабрахабр и Geektimes - 48


Анализ статей Хабрахабр и Geektimes - 49


В хабе «Разработка под iOS»

Анализ статей Хабрахабр и Geektimes - 50


В хабе «Разработка под Android»:

Анализ статей Хабрахабр и Geektimes - 51


Частота употребления названий операционных систем в хабе «Open source»:

Анализ статей Хабрахабр и Geektimes - 52


И на Хабрахабре/Geektimes:

Анализ статей Хабрахабр и Geektimes - 53

Рейтинг и числа просмотров постов, а также вероятность достижения их определенных значений

Анализ статей Хабрахабр и Geektimes - 54 Анализ статей Хабрахабр и Geektimes - 55
Анализ статей Хабрахабр и Geektimes - 56 Анализ статей Хабрахабр и Geektimes - 57

Средний рейтинг поста на Хабрахабре/Geektimes равен 25.6067, а среднее количество просмотров 13487.2.

Математическое ожидание: {25.6067, 13487.2}
Среднеквадратическое отклонение: {35.9361, 28783.9}

Вероятность, того, что пост наберет определенный рейтинг:

Анализ статей Хабрахабр и Geektimes - 58


Вероятность, того, что пост наберет определенное число просмотров:

Анализ статей Хабрахабр и Geektimes - 59

Зависимость рейтинга и числа просмотров поста от времени публикации

Анализ статей Хабрахабр и Geektimes - 60


Анализ статей Хабрахабр и Geektimes - 61


Анализ статей Хабрахабр и Geektimes - 62


Анализ статей Хабрахабр и Geektimes - 63


Анализ статей Хабрахабр и Geektimes - 64


Анализ статей Хабрахабр и Geektimes - 65


Анализ статей Хабрахабр и Geektimes - 66


Анализ статей Хабрахабр и Geektimes - 67


Анализ статей Хабрахабр и Geektimes - 68


Анализ статей Хабрахабр и Geektimes - 69


Анализ статей Хабрахабр и Geektimes - 70


Анализ статей Хабрахабр и Geektimes - 71


Анализ статей Хабрахабр и Geektimes - 72


Анализ статей Хабрахабр и Geektimes - 73


Анализ статей Хабрахабр и Geektimes - 74


Анализ статей Хабрахабр и Geektimes - 75

Зависимость рейтинга поста от его объема

Анализ статей Хабрахабр и Geektimes - 76 Анализ статей Хабрахабр и Geektimes - 77
Анализ статей Хабрахабр и Geektimes - 78 Анализ статей Хабрахабр и Geektimes - 79

Средний объем поста на Хабрахабре/Geektimes равен 5199 символов.

Вероятность того, что пост с объемом не превышающим заданное количество символов наберет рейтинг не менее заданного:

Анализ статей Хабрахабр и Geektimes - 80


Кстати по поводу частот слов. До использования Wolfram в Jupyter Notebook с помощью библиотек pymorphy2, nltk построила облака слов по годам, но для меньшего количества статей. Брала 50 самых часто встречающихся слов в статье (исключив стоп-слова), а затем объединяла словари по всем статьям за определенный год. Облака построены в Tagul. КДПВ — это облако слов для 2006 года. Для 2016-го:

Анализ статей Хабрахабр и Geektimes - 81

Посты с максимальным количеством

Изображений: "Обзор почтовых клиентов под Android, или как я почтовик выбирал"
Комментариев: "Как раздавать инвайты на Google+"
Рейтингом: "Делаем приватный монитор из старого LCD монитора"
Количеством тегов: "Информационно-технологические средства практического выживания социальных сообществ в условиях отключения Интернета в 2014 году"
Просмотрами: "Взломать Wi-Fi за… 3 секунды"
Количеством видео: "DUMP-2016: видео всех докладов в одном посте. Бесплатно. Без СМС"
Количеством ссылок: "Лженаука и аферисты. Фальшивые научные журналы"
Текста: "Создаем клон Flappy Bird — Zombie Bird"

Автор: urticazoku

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js