Статистика Хабрахабр для статей различной тематики

в 3:40, , рубрики: браузеры, британские ученые, операционные системы, статистика, Статистика в IT, статистика сайта, хабрахабр, метки: , , ,

Британские учёные недавно установили примечательный факт, что, несмотря на низкую популярность браузера Опера в последние дни, статьи с помощью него читают, и тем чаще, чем больше упоминается фактов про Оперу в этих статьях. Учёные пока затрудняются с объяснением сего феномена, упоминая лишь существование пословицы «Беда не приходит одна». Аналогично и здесь, родственные слова притягиваются, и браузер Опера появляется чаще всего там, где про него говорят.

Оставив в стороне напряжённую работу учёных умов над недавно открытой загадкой природы, займёмся задачей более простой и приземлённой — посмотрим, какими инструментами получены эти поразительные результатыСтатистика Хабрахабр для статей различной тематики. Возможно, посмотрев на их работу, нас тоже впереди ждут удивительные открытия.

Учёные воспользовались сервисом Яндекс-метрики, подставив картинку из него в один из многочисленных комментариев страницы со статьёй и сравнив с аналогичными комментариями обычных, не Оперных статей. Далее, зайдя на страницы публичного доступа к статистике браузеров «Опера — не-Опера»,
Статистика Хабрахабр для статей различной тематики
… они сделали это открытие.

Немного более серьёзно

После новости для привлечения внимания посмотрим, что в действительности произошло.

Читателей сайта Хабра интересует статистика о других читателях. Нет-нет, да и появятся статьи, которые восполняют пробел нехватки информации по браузерам посетителей, из ОС, частоте посещаемости и прочим интересным характеристикам, о которых, глядя на поток статей, можно догадываться, но нельзя увидеть в графиках. Держатели сайта статистику ведут, но раскрывать её — это значит делиться конкурентным преимуществом в планировани потоков посетителей. Не случайно данные по посещениям у всех есть, но не все владельцы сайтов склонны ими делиться. Сайт показывает свою статистику на специальной странице, но она — очень общего плана. В то же время, хотелось бы знать то, что можно бы получить из логов типичных страниц, не претендуя на коммерческие данные.

Для этого было проведено исследование десятка-другого статей с помощью открытых и бесплатных счётчиков Яндекс-метрики. Организовывать собственные счётчики и расчёты — задача явно другого уровня технической сложности, не соответствующая лёгкому интересу к юзер-агентам пользователей, а Яндекс-метрика довольно хорошо решает большинство праздных вопросов, выдавая красивые картинки графиков.

Главные ответы, даваемые графиками, получились такие.

  • Чем отличается состав браузеров и операционных систем (ОС) читателей Хабра от статистики счётчиков в среднем по интернету;
  • как ведёт себя поминутный график просмотров статей в течение первых суток-двух после их публикации;
  • чем отличается состав браузеров в статьях разных категорий, таких как технические или публицистические;
  • как падает посещаемость статьи после первых суток публикации;
  • половозрастной состав читателей (специфика аналитики Яндекс-метрики);
  • много ли людей читают, используя экспериментальные версии браузеров (а также устаревшие);
  • доля мобильных браузеров.

Интересно это всё узнать? Поехали.

Чтобы сравнить получаемые диаграммы со статистикой браузеров в среднем по России и по миру, посмотрим на публикации, сделанные в различных статьях. Глядя на кардинальные различия состава браузеров в разные годы и даже месяцы, постоянные читатели данной темы не удивляются — каждому фактору и числу есть своё обоснование и причина. Просто приведём список ссылок, чтобы не искать их по теме.

* статистика Яндекс-метрики за январь 2013 — www.pcbee.ru/browsers/top-browsers-2013.html;
Статистика Хабрахабр для статей различной тематики

* webrowser.ru/rynok/statistika-internet-brauzerov-v-aprele-2013-goda.html — Статистика Statcounter и Net Application по миру и Liveinternet по России за апрель 2013; немного комментариев;
Статистика Хабрахабр для статей различной тематики

* Статистика использования браузеров в RUнете за июнь 2013 года — OpenStat, LiveInternet, HotLog: alexvaleev.ru/browserstat/index.php?type=month&year=2013&month=6

Статистика Хабрахабр для статей различной тематики

Что нас будет интересовать?

Определимся, статистику каких типичных статей мы хотели бы увидеть, чтобы сравнить её различия. Выделяем условные категории статей:

Тематические по программированию и вебтехнологиям,

  • Про космонавтику,
  • про браузеры,
  • про законы о блокировках сайтов,
  • про безопасность персональных данных,
  • про что-нибудь, что нравится постоянным читателям и сильно комментируется.


Найдутся много других тем, по которым хотелось бы увидеть статистику, но нельзя объять необъятное.

В качестве шутки можно определить корреляцию между тематикой статей и составом браузеров читателей. Это очень технологично — на основании выбора читателей определить, к какой категории относится статья, сделав предварительно тысячи замеров посещений страницы. Есть и более простые способы — проверка статьи по ключевым словам. Но разница в том, что браузерами голосуют люди, а распознаванием слов занимается парсер, ответ которого зависит от удачности реализации программы распознавания.

Поэтому, несмотря на всю абсурдность тысяч измерений против одного, были расставлены 6 (шесть) счётчиков по разным категориям статей. На 5 счётчиков подключено по 1 статье, характерной для выбранной категории, а на один — несколько (6) статей технического плана, чтобы получить усреднённую статистику.

Расставили — и ждём, с какими браузерами и ОС начнут приходить посетители. Кстати, Яндекс-метрика по данным собственной разведки может показывать заодно половую и возрастную принадлежность читателей, что тоже можно использовать в категоризации.

Разделить статьи на категории каким-то конструктивным образом — довольно базовая и настоятельная потребность читателей. Конечно, для этой цели созданы мощные классификаторы в виде хабов, тегов. Можно дополнительно дознаться, какие авторы на какие темы чаще всего пишут и анализировать ключевые слова. Но зависимость браузеров, ОС, пола и возраста читателей — тоже интересная тема, особенно, для британских учёных.

Поэтому, возможно, инициатива найдёт дальнейшую поддержку, и другие читатели продолжат традицию категоризации статей, и через месяц мы сможем посмотреть на новые результаты. Важно лишь одно — чтобы расстановка меток соответствовала задуманным категориям.

Собранная статистика будет работать для ещё одного полезного дела, поэтому является не совсем «пустой забавой» — по активности чтений мы сможем получить график интенсивности просмотров статей в зависимости от часа, дня недели и времени от начала публикации и нахождения статьи в захабренных, на главной и среди лучших. На самом деле, статистика собиралась именно для этих целей, а не для открытий британских учёных.

Но это другое дело будет обстоятельно вычислено в другой статье для того, чтобы узнать действительную цену оценкам в комментариях статей.

Для этого обзора была собрана статистика по статьям разных категорий (ссылки ведут на открытую статистику по указанным группам статей):

1.
Шесть статей разной популярности на темы скриптов и разработок
:
/post/186362/ — 28тыс. просмотров — «Прокачка debian/ubuntu сервера для маленьких. Часть 1»
/post/186410/ — 15тыс. просмотров — «Доказательное планирование» (перевод Дж.Спольски)
/post/186198/ — 12тыс. просмотров — «9 признаков того, что не стоит нанимать этого Веб-разработчика» (отхабрена)
/post/186202/ — 14тыс. просмотров — «Сжатие данных при передаче от браузера к серверу»
/post/186200/ — 9тыс. просмотров — «Не бойтесь велосипедов. Или еще один Grand Central Dispatch (GCD) на C++11»
/post/186218/ — 3тыс. просмотров — «Понимание Node.js»
— суммарно 95 тыс. просмотров по счётчику Метрики, 85 тысяч посетителей.

Статистика по ним показывает общую картину посетителей сайта с уклоном на статьи о программировании и технологиях. Из этой усреднённой статистики можно судить о браузерах и ОС среднего пользователя с такими интересами. В частности, можно использовать как эталон для сравнения с другими статистиками.

Если будем смотреть статистику с других статей — новостей, космонавтики, скандальных законов, то по ним будет несколько другой контингент посетителей. Вряд ли такое знание будет полезным или будет сильно выходить за пределы погрешностей. Но сравнить всё равно будет интересно — насколько различаются браузеры и системы читателя-разработчика от всех тех, кто технические статьи не откроет, включая тех же читателей-разработчиков в меньшей степени.

2.
Качественно о Марсе
:
/post/185846/ — 51тыс. просмотров — «Curiosity отправляется в путь длиною в год»
Чем отличаются любители качественной информации о Марсе от посетителей тематических статей? Статистика этого счётчика пытается дать ответ на этот вопрос.

3.
От компании-разработчика об Опере
:
/company/opera/blog/186210/ — 30тыс. просмотров — «Ctrl+Z для Ctrl+D» — о планах по Opera для компьютеров от менеджера проекта. Выразительный перекос в статистике браузеров, заинтересовавший британских учёных.

4.
Скандальные законы и интерес общественности
:
/post/185844/ — 64тыс. просмотров — «Скрипт блокировки, второй акт. Голосование на РОИ».
Это — не популярная первая статья на эту тему, но всё равно должна показать сбор именно такого контингента читателей, которые не пройдут мимо проблем Сети и при этом будут не обязательно разработчиками.

5.
Образец беллетристической новости
:
/post/186392/ — по безопасности данных («Ким Дотком (Mega, Megaupload) собирается запустить защищенный от прослушки мессенджер и электронную почту», 17000 просмотров, 52 комментария) — новость о безопасности данных, которая собирает читателей популярных сообщений.

6.
Образец разговоров об интересном
:
/post/186452/ — разговоры в комментариях («Чем бы вы стали заниматься, если…?», 31 тыс. просмотров, 400 комментариев). Мониторинг самых разных посетителей-разработчиков, склонных пообщаться в комментариях о своих интересах. Интересна тем, что сюда могут приходить больше людей повторно, чтобы почитать комментарии и поучаствовать в разговорах на приятные темы. Поэтому будет интересно соотношение «просмотры — посетители» по сравнению с другими статистиками.

Число просмотров здесь указано на момент написания статьи, в среднем через 3-4 дня после публикации исследованных статей. Это число в подписи к каждой статье со временем будет расти и не соответствовать указанным значениям.

Статистика Метрики по ссылкам — открытая для просмотров всеми. Но для фиксации описываемых данных на момент публикации статьи сделаны скриншоты некоторых графиков.

Особенности сайтовых просмотров

1. Статистика 6 тематических статей.

Что видим в общей статистике по тематическим статьям? Выборка из нескольких статей — в большой степени случайна и будет отличаться на процент-другой при более широкому усреднению, а по некоторой тематике будет отличаться сильно, как увидим в следующих категориях по браузеру Опере. С учётом этого замечания, посмотрим состав браузеров, которыми просматривали 95 тыс. раз 6 страниц типичных, в меру удачных и в меру неудачных шести статей примерно в таком соотношении:
Статистика Хабрахабр для статей различной тематики

Наблюдение длилось несколько дней. Примерно так же обстоит дело с остальными статьями. Поминутный мониторинг с 11 по 17 июля показывает характерные всплески просматриваемости 6 статей, 5 из которых было опубликовано в четверг-пятницу, одна — в понедельник.
Статистика Хабрахабр для статей различной тематики

В начале публикации, когда статья находится в верхах ленты или вышла на первую страницу ленты «захабренные» (набрала рейтинг +8 или выше), её просматриваемость достигает 60 хитов в секунду, и это ещё не самые высокие показатели. Это — просмотры полных страниц статей с не очень «горячими» темами, а с где-то даже скучными разработками. По прошествии часа-двух аннотация статьи уходит с первых страниц лент (на сайте существуют несколько видов лент с аннотациями по 10 статей), и её просматриваемость в 2-3 раза падает, что тоже видно на графиках. На них заметны провалы просмотров в ночные часы (1-7 часов по московскому времени), а 13-14 июля видны спады просмотров в выходные — тогда и посетителей меньше, и статьи уже 1-2-дневной давности. Тем не менее, они имеют 2-3 просмотра в минуту днём. (Учитываются все посетители, авторизованные и неавторизованные на сайте, зашедшие на полные страницы статей, не учитываются просмотры аннотаций.)

По одиночной статье, подключённой к счётчику утром в понедельник, видно, что статью смотрят и на второй день, но в несколько раз меньше. Более чистые графики просмотров отдельных статей мы сможем рассмотреть в 5 последующих скриншотах счётчиков, в которых зарегистририровано по 1 статье на счётчик.

А сейчас рассмотрим статистику браузеров и мобильных клиентов — то, в основном из-за чего мы начали сбор статистики. Она будет базовым отсчётом для сравнения таких же статистик по остальным 5 тематическим статьям, включая статью и про браузер Оперу, явившейся основой открытия британских учёных.

Так обстоят дела с браузерами для типичных посетителей тематических статей за тот же период в 6 дней.
Статистика Хабрахабр для статей различной тематики
Что характерно? Впечатляюще низкая доля MSIE (2.7% при 13% средней общероссийской; ну это нормально для сайта). Если посмотреть статистику на странице подробнее, то на ней можно увидеть детальную информацию по версиям и долям браузеров. В общем, ничего особенного, но отметим для себя процент использования будущих версий Хрома (26,29 — 2%) и Firefox (23, 25 — 1% от остального Fx). Промежуточные (27 и 24) версии использовать «не модно» — или альфы, или уверенные «беты».

Доля мобильных устройств — 11%.
Операционные системы:
Статистика Хабрахабр для статей различной тематики
Для сравнения, статистика ОС по России: gs.statcounter.com/#os-RU-monthly-201305-201306-bar
Статистика Хабрахабр для статей различной тематики

Количество Линукса в 15% на сайте говорит само за себя.

2. Качественно о Марсе.

Оговорка о качественности статей на космическую тему связана с тем, что в последние дни появились некачественные статьи не слишком умелых авторов, которые не являются целью выборки.

По единственной качественной статье за последние недели 2-3 посмотрим, какой контингент читателей её смотрит, разбавляется ли статистика браузеров нолвыми людьми. Ведь просмотров — значительно больше, и влияние новых людей будет заметно.

Падение просмотров хита после суток

Несомненно, данная статья относится к десятку лучших за неделю, она набрала 180 «плюсов» и была в первой позиции «лучших за день». Тем интереснее посмотреть, насколько сисльно падают просмотры, когда такая статья уходит с первой строчки информера «Лучших» в сайдбаре — фактически, исчезает с каждой страницы лент. Статистика 2 дней её существования очень наглядно показывает, сколь «каткстрофична граница первых суток для таких статей. Немного дальше мы увидим, что для не столь „топовых“ статей падение не столь „катастрофично“ — в кавычках, потому что большое число просмотров как раз объясняется первой позицией рейтинга за день. падение по площадям графика можно оценить в 10-12 раз. А по общей площади (интегралу) просмотров — первые сутки составляют 97% просмотров для этой статьи. Потрясающе много значат первые сутки. Впрочем, будет видно, что это так — для хитов и, возможно, для определённой тематики (для чтения, а не для разработок и использования) — статью прочитали один раз — и благодарны, но повторно не возвращаются. Немного не так — для тематических статей, где просмотров после первых суток наблюдается 5-8% от общего числа.
Статистика Хабрахабр для статей различной тематики

Смотрим на первые сутки жизни статьи. Да, ночью читают мало, как всегда. На следующий день читатели берут своё и восполняют недочитанное за вечер предыдущего дня (она опубликована в 13:50, но до 21 часа статистика не получена; примерно можно сказать, что в первый день прочитали примерно столько же людей, что и за второй, причём часть из них — это повторные заходы для чтения, например. комментариев; впрочем, их отмечено всего 5%, да и комментариев сравнительно немного).

Браузеры. Сюрпризов здесь не ожидается, но посмотрим.
Статистика Хабрахабр для статей различной тематики
Да, браузеры те же. Как дела с OS?
Статистика Хабрахабр для статей различной тематики
Здесь подвижка есть — процент пользователей с Линуксом не такой высокий, в 1.5 раза меньше, чем в тематических статьях. Для разнообразия, посмотрим, какой пол и возраст читает эту статью, по мнению Метрики.
Статистика Хабрахабр для статей различной тематики

3. От компании-разрабочика об Опере:

Добрались до основного интереса британских учёных. Ещё бы, разница в браузерах разительна.
Статистика Хабрахабр для статей различной тематики
Они немного приврали — не в 4, а всего лишь в 3.5 раза доля Оперы больше при чтении статьи об Опере. Но это, скорее всего, сделали газетчики, знающие, как сделать сенсацию.

Для мобильных устройств — 8%.
Доля Linux — 9%. Из чего можно сделать осторожное предположение, что не все разработчики (читатели тематических статей) читают через Оперу, но и достаточный процент остальных читателей Хабра.

Из других показателей Метрика может сказать о географическом распределении читателей; о посещаемости по времени суток.

4. Скандальные законы и интерес общественности

Немалый интерес вызывает вопрос, видна ли разница между скандальными и тематическими статьями через юзерагенты. Ведь первые обычно имеют в 5-10 раз больший траффик и просто вытесняют основное содержание ресурса на задворки. Если бы имелся способ сортировать эти 2 типа содержимого, мы бы имели 2 разных сайта, а то и больше — для разработок, для отдыха, для борьбы…

На посещаемости по минутам в течение недели — видим стабильную читаемость статьи последующие дни. Не столь резкое падение просмотров после 24 часов (в 3.5-4 раза). Скорее всего, это связано с тем, что статья не была абсолютным хитом за сутки, и её читал не каждый, видевший статью в списке лучших.
Статистика Хабрахабр для статей различной тематики
В ОС не видим значительного уменьшения Linux — те же 10%, что и для „космоса“ и статьи про Оперу.

5. Образец беллетристической новости

Пусть это не очень показательная статья, но посмотрим, чем её посетители отличаются от других.

Оказывается, такую статью читают с 15% мобильных устройств — в 1.5 раза больше, чем в среднем, и в 2 раза больше, чем про космос. Это заметная разница, и её можно использовать как фильтр (если бы у нас была статистика ко всем статьям). Вероятно, просмотру через мобильные помогает лёгкость содержания, просота восприятия и заметный вызывающий заголовок (со словами „Ким Дотком“).

Состав ОС не изменился, если не считать, что доля мобильных возросла. Linux — 12%, из чего делаем вывод, что доля гиков потребляет и жёлтые новости, поскольку они идут в одной ленте с другими. Если бы не так — доля Линукса бы сократилась до общеинтернетовской 1.5-2%. Ссылка — metrika.yandex.ru/stat/os/?counter_id=21769096&date1=20130711&date2=20130717&filter=month&goal_id=&group=day (не будем тратиться на скриншоты).

6. Образец разговоров об интересном

Эту статью трудно причислить к какой-либо группе. Она необычна. Автор попросил рассказать комментаторов, кем бы они стали, если бы случился запрет на занятие их основной профессией. 400 комментариев. Тем не менее, доля повторных визитов небольшая. Вообще, даже не знаю, есть ли где-то в статьях повторных визитов существенно больше обычных 10%. Сказывается специфичность чтения новостей в первые сутки… Ну что ж. Смотрели её так:
Статистика Хабрахабр для статей различной тематики
Типичное падение после первых суток и достаточно активное чтение в последующие дни (условно, 7-8%) — чтение комментариев, очевидно. Мобильных — 16%. Линукс — 12%. Подходит под признаки лёгкого чтения публицистики, что похоже по составу содержания.

Итак, мы рассмотрели зависимость юзерагентов от содержания и тематики статей. Рассмотрели важность первого дня жизни статьи. Обнаружилось, что некоторые темы с выбором юзерагентов „творят чудеса“. А некоторые закономерности статистики могут подсказать тематику статей. Особенно влиятельны — ОС Linux и мобильные агенты. Правила:

  1. 10% Linux на сайте — нормально для любой статьи;
  2. если больше (15%) читают через Linux, то это — статья о разработке;
  3. если читают через мобильные агенты (15%, а не 10 или меньше), то это лёгкая для чтения, простая статья или новость;

Мы не стали разбирать состав Windows и долю IE (она составляла 2.5-3.5% и не показала какого-либо выраженного перекоса). В частности, этому препятствует выбор графиков, доступный для лёгкого просмотра. Но у Метрики есть API, которое, возможно, помогло бы лучше обработать статистику. Во всяком случае, она, Метрика, оказалась хорошим подспорьем для анализа состава юзерагентов высоконагрузенного сайта, выдавая статистику с буквально минутной точностью и скоростью (иногда обработка задерживается до получаса, но не теряется). Может быть рекомендована как лёгкий и нормально оформленный инструмент.

Прочие статьи по статистике Хабра

* Если бы аннотация была серьёзной и название соответствовало содержанию этой статьи, она выглядела бы примерно так: habrahabr.ru/post/145045/ (июнь 2012)
* или так: (февраль 2007)
* О Хабре, статистике и тортах (январь 2010) — долговременная статистика и тренды тематики статей;
* Прочие результаты поиска по „статистика хабрахабр“

Автор: spmbt

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js