Сегодня закончился «первый» хакатон по дата журналистике. Мы заняли на нём первое место. Проделали огромный объём работы за одни сутки. Я хотел бы рассказать как всё было.
Темой хакатона были финансы российских СМИ. Ежегодно государство поддерживает СМИ, поднимающие в своих материалах социально важные темы. Для этого проводится специальный конкурс. Главным критерием отбора получателей субсидий является «социальная значимость» проекта. Мы решили понять, что скрывается за формулировкой «социальная значимость» и какие темы оказались самыми популярными и «дорогими» в 2015 году.
Забегая вперёд, скажу, что ответ такой:
- По опросам очень много россиян считают себя патриотами, но государство всё равно даёт больше всего денег на проекты про патриотизм.
- 2015 год был годом литературы и на него пришлось 70 лет победы, поэтому «год литературы» и «историческая память в топе».
- Субсидии, по идее, должны даваться на социально значимые проекты, «развитие Крыма», например, не очень в тему.
- В целом складывается ощущение, что чаще пишут и читают об исторической памяти, чаще вспоминают достижения прошлых лет, в то время как на материалы об инновациях и новых технологиях государство выделяет меньше.
А теперь как мы пришли к этим выводам.
Роспечать публикует каждый год у себя на сайте списки субсидий для электронных СМИ и список субсидий для печатных СМИ. Первый список выглядит так:
У нас есть название организации, название и описание проекта. Для каждой строчки нужно определить группу, к которой относится субсидия и её объём в рублях. С классификацией всё просто: берём список тематик, которые публикует Роспечать и вручную размечаем ориентируясь на описания. Субсидий всего 2-3 сотни, поэтому разметку можно сделать за разумное время. С ценами сложнее: выделяем название издательства, например, «Радиовещательная Компания „Бурятия“», забиваем его в реестр субсидий, скачиваем для найденные записи и в каждой ищем название проекта, например, "Бессмертный полк. Мы помним" и выписываем цену. Для 75% проектов процедура отрабатывает автоматически. С остальными нужно разбираться вручную.
Со списком субсидий для печатных СМИ сложнее. Список выглядит так:
Записей уже около тысячи, поэтому ручная разметка происходит не так бодро. В списке нет названий организаций, а значит просто найти субсидии в реестре не получится. Выход есть: берём реестр СМИ, который публикует Роскомнадзор, он выглядит так:
По названию издания находим ИНН издательства. Искать можно по точному совпадению, покрытие получается хорошее. Дальше вбиваем все эти ИННы в реестр субсидий и скачиваем все результаты. Теперь самое сложное: среди всех записей нужно найти только те, которые соответствуют проектам, фигурирующим в списке Роспечати. Названия проектов есть только в договорах, договоры это пдфы со сканами, автоматически с ними ничего не сделаешь:
Поэтому скачиваем все пдфы просматриваем их вручную и записываем цены в соответствующие ячейки. За 4-5 часов удалось провернуть операцию для 50% записей. В итоге получается две таблицы для электронных и печатных СМИ, в каждой строчке цены и категория. Если что эти таблицы можно скачать их нашего репозитория github.com/alexanderkuk/media-hack/tree/master/data
Дальше получаем график, который я показывал вначале:
И смотрим детализацию для некоторых интересных категорий:
В ходе ручной разметки неизбежно находятся странные проекты, на которые была потрачена куча денег:
Всего вышеописанного нам конечно показалось недостаточно и мы собрали ещё инфу по госконтрактам. На clearspending.ru мы нашли все контракты, в которых есть подстроки «пропаганда», «популяризация», «воспитание» или «имидж». Посмотрели, какие коды ОКПД чаще всего встречаются и немного их обобщили их с помощью реестра кодов:
Затем опять взяли реестр СМИ Роскомнадзора, собрали из него ИННы всех издательств, получилось примерно 32 000 штук, скачали для каждого из них выдачу clearspending.ru и оставили только контракты за 2015 год с одним из отобранных кодов ОКПД. Получилось примерно 3000 контрактов. Дальше их нужно было классифицировать. Мы составили набор простых правил вида:
u'Инвалидность': [
u'доступной среды для инвалидов и маломабильных групп',
u'безбарьерной среды для инвалидов и маломабильных групп',
u'социальной интеграции'
],
u'Рабочие профессии': [
u'рабочие профессии',
u'популяризации рабочих профессий',
],
u'Предпринимательство': [
u'предпринимательство',
u'молодой предприниматель',
u'малое и среднее предпринимательство'
],
u'ДТП': [
u'участников дорожного движения',
u'дорожно-транспортный травматизм',
u'о состоянии проезда',
],
Прогнали их по всему списку и увидели интересное: в контрактах встречаются заказы на пропаганду толерантности, здорового образа жизни, достижений в сельском хозяйстве, однако большая часть заказных статей СМИ направлена на самопиар государственных органов:
Все наблюдения оформили в виде сайта zina.tilda.ws, код и данные выложили на github.com/alexanderkuk/media-hack
Автор: alexkuku