Данный пост является продолжением вот этого исследования читателя Muxto о наиболее часто встречающихся словах в статьях и комментариях Хабра. Как, впрочем, заметили многие, топ-10 и даже топ-50, полученный Muxto, не изобилует собственно ИТ-терминами, их там вообще нет: «в» (107 735), «и» (106 420), «на» (103 084), «с» (93 453), «не» (91 591), «что» (88 488) и т.д.
Следующим очевидным шагом было выявить термины, наиболее значимо отклоняющиеся от среднестатистических в русском языке. Получив «добро» у автора первой части исследования и обсудив некоторые математические вопросы с хабрапользователем Trept, я приступил к следующим мероприятиям.
С сайта Национального Корпуса Русского Языка (НКРЯ) была скачана база частот словоформ «среднеобщеупотребительного» русского языка, составленная на основе анализа текстов общим объемом 192 689 044 единиц (слов). В базе 1 054 211 уникальных case-sensitive словоформ. Так как анализ лексики Хабра, представленный Muxto, является регистронезависимым, да и в принципе это больше соответствует итоговой цели, первой задачей оказалось привести все словоформы к нижнему регистру. Уникальных case-insensitive словоформ в базе НКРЯ осталось — 888 397 (значения частот у объединяемых форм, естественно, суммировались).
Вторым вопросом стало собственно выявление значимо выделяющихся слов. Как выяснилось, задача это давно решенная в современной лингвистике, активно пользующейся и статистикой и вычислительной техникой. Одна из статистик степени «неоднородности» частоты появления слова в одном корпусе по отношению к общему набору корпусов, особо приглянувшаяся филологам — это G-тест, являющийся частным случаем теста отношения правдоподобия. Сама статистика для отдельного слова вычисляется как
Здесь ai — фактически наблюдаемая частота появления i-ой словоформы в исследуемом корпусе,
а Ei — ожидаемая частота этой же словоформы в объединении корпусов, то есть
где ai и bi — частоты появления i-ой словоформы в корпусах (Хабра и НКРЯ),
а c и d — общий объем этих корпусов (33 732 229 и 192 689 044 единиц соответственно).
Итак, все расчеты произведены, слова отсортированы по убыванию статистики Gi, топ-30:
405587,703 пользователь
197850,057 сайт
139330,707 разработчик
135705,259 файл
124132,397 приложение
121233,522 веб
116809,907 данные
113262,075 компания
109463,742 код
94468,080 версия
92093,985 проект
79257,370 com
77786,398 информация
74006,346 сеть
71844,136 ru
66674,626 работает
64946,067 помощью
63195,334 сервер
60807,287 можно
60433,187 google
55160,380 ссылка
55147,137 интернет
53984,795 например
52609,986 windows
50998,105 позволяет
50177,316 возможность
48421,264 http
48372,913 работы
48328,683 видео
48158,301 сделать
Подозрительно? Да, каюсь, частоты нескольких форм одного и того же слова в топ-150 я всё таки после первого прогона объединил вручную, выбрав начальную форму слова, т.к. обидно было видеть в топе словоформы «пользователя/пользователю/пользователей» или, например, «версия/версии/версию» с очень высокими показателями, но не в лидерах только из-за того, что русский язык богат на окончания падежа и числа.
Как топ-30, так и топ-150 Хабрахабра конечно заслуживают рефлексии. Лично я остался доволен результатом — на мой взгляд, сущность этого уникального ИТ-ресурса оказалась высвечена весьма точно. Ну а лидер — «ПОЛЬЗОВАТЕЛЬ» — это та обобщенная цель, ради которой, мы и тратим часы, дни и годы нашей жизни.