Считаем порносайты, оцениваем эффективность Роскомнадзора

в 17:05, , рубрики: блокировка сайтов, Исследования и прогнозы в IT, открытые данные, порно, Роскомнадзор, статистика интернета

Считаем порносайты, оцениваем эффективность Роскомнадзора - 1

Вся история началась с достаточно бурного обсуждения процентного соотношения порно vs. всё остальное. Дискуссия плавно переросла в тотализатор. Кто называет цифру ближе всего к «реальной», тот и в дамках. Ставки сделаны, ставок больше нет.

Как и где?

Оставалось выяснить «реальный» показатель. Заранее были определены критерии и выборка, в рамках которой требовалось провести исследование. Достаточным критерием, по мнению большинства участников специальной олимпиады, явилась простая регулярка на слово porn в контенте + несколько едких словечек (все мы их знаем). Выборкой взяли топ 1,000,000. Несмотря на то, что сайтов в интернете ~400кк, Алекса довольно чётко выделяет тех, у кого есть хоть какой-нибудь трафик.

Зарядили краулер, понеслась. Замечу, что участники тотализатора гуглить не пытались, основания не доверять кому-либо нет, тема деликатная, да и, правда, интересно же, сколько? А может оно того, его всё меньше и пора качать?

Всех уделал сишник

Он со ставкой в 2,9% оказался ближе всех к полученным значениям. Мы нашли 26044 порника (2,6%) из миллиона топовых доменов (на 04.07.2016). Признаться, цифра многих удивила, разбег в значениях был не малый, верхнюю планку давали на уровне 35%. Полезли гуглить, нашли статью с исследованием от Forbes за 2011 год, с цифрой в ~4%, кто косвенно подтвердило адекватность полученных значений. Но, неужели падает?

Динамика

Подошли ответственно, держали регулярку почти 3 месяца, следили за динамикой. Пока следили, спалили падение крупной сетки (кто-то жёстко заабузил хостера). Падение вы можете заметить на графике 4 августа, ~2000 сайтов ушло в даун, но уже 5 числа ребята восстановились и продолжают доставлять контент по сей день, без единого разрыва. Порносайты стабильно отжирают свою долю: за 3 месяца с 2,6% по 3,3% (33147)

Что там Роскомнадзор?

Как раз под завершение нашего исследования поднялся хайп вокруг адалт контента, заводилой которого явился всеми любимый Роскомнадзор, поблокировавший особенно популярные сайты.

Джойним базу заблокированных сайтов (спасибо Роскомсвободе) на полученный нами список порников, получаем 626 доменов. Это 1,88% от всех сайтов, которые мы определили как грязные, развратные.

Хочется понять, какую долю контента блочит государство не по количеству доменов, а по их значимости. Вдруг все эти 626 доменов агрегируют 90% трафика и пользователи вынуждены искать замену среди менее качественных продуктов. Данных по трафику у нас нет, но есть рейтинг Алексы, где:

1. Google


999999. Qoranona.com (цитирую: «Сладкая жизнь слушаться Бога», всё на арабском, выручил гугл-переводчик).

Забавное совпадение, топ 1, никак не связанный с религией, помогает доносить информацию религиозному сайту с последнего места в массы. Если что, я не пытаюсь оскорбить чувства верующих, я о технологиях фактами. Является ли этот сайт экстремистским определить возможности не имею, так что заходить на него никому не советую (на всякий случай).

Так вот, о рейтинге

Чтобы приблизительно оценить долю трафика сайтов, которые поблочил Роскомнадзор, раздадим им веса. Для простоты подсчета отнимем у всего списка от значения рейтинга 1,000,000 и возьмем по модулю, т.е.:

Google, как самый посещаемый сайт нам даёт 999999 очков на барабане, а Qoranona.com — всего 1.

Общую сумму весов для списка считаем как сумму натурального ряда, она у нас = 500000500000

Сумма весов сайтов (33147 домена на последний день скана), которые мы определили как порники = 18096750838 (3,6% от суммы всего списка, при 3,3% по количеству занимаемых доменов)

Сумма весов 626 доменов, которые были заблокированы = 460251373, что составляет 2,54% от общей суммы весов порносайтов. Думаем, что можно считать эту цифру за показатель эффективности истребления государством контента для взрослых на данный момент.

Автор: daocrawler

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js