- PVSM.RU - https://www.pvsm.ru -
Сегодня закончился «первый» хакатон по дата журналистике [1]. Мы заняли на нём первое место. Проделали огромный объём работы за одни сутки. Я хотел бы рассказать как всё было.
Темой хакатона были финансы российских СМИ. Ежегодно государство поддерживает СМИ, поднимающие в своих материалах социально важные темы. Для этого проводится специальный конкурс. Главным критерием отбора получателей субсидий является «социальная значимость» проекта. Мы решили понять, что скрывается за формулировкой «социальная значимость» и какие темы оказались самыми популярными и «дорогими» в 2015 году.
Забегая вперёд, скажу, что ответ такой:

А теперь как мы пришли к этим выводам.
Роспечать публикует каждый год у себя на сайте списки субсидий для электронных СМИ [2] и список субсидий для печатных СМИ [3]. Первый список выглядит так:

У нас есть название организации, название и описание проекта. Для каждой строчки нужно определить группу, к которой относится субсидия и её объём в рублях. С классификацией всё просто: берём список тематик, которые публикует Роспечать [4] и вручную размечаем ориентируясь на описания. Субсидий всего 2-3 сотни, поэтому разметку можно сделать за разумное время. С ценами сложнее: выделяем название издательства, например, «Радиовещательная Компания „Бурятия“», забиваем его в реестр субсидий [5], скачиваем для найденные записи и в каждой ищем название проекта, например, "Бессмертный полк. Мы помним [6]" и выписываем цену. Для 75% проектов процедура отрабатывает автоматически. С остальными нужно разбираться вручную.

Со списком субсидий для печатных СМИ сложнее. Список выглядит так:

Записей уже около тысячи, поэтому ручная разметка происходит не так бодро. В списке нет названий организаций, а значит просто найти субсидии в реестре не получится. Выход есть: берём реестр СМИ, который публикует Роскомнадзор [7], он выглядит так:

По названию издания находим ИНН издательства. Искать можно по точному совпадению, покрытие получается хорошее. Дальше вбиваем все эти ИННы в реестр субсидий и скачиваем все результаты. Теперь самое сложное: среди всех записей нужно найти только те, которые соответствуют проектам, фигурирующим в списке Роспечати. Названия проектов есть только в договорах, договоры это пдфы со сканами, автоматически с ними ничего не сделаешь:

Поэтому скачиваем все пдфы просматриваем их вручную и записываем цены в соответствующие ячейки. За 4-5 часов удалось провернуть операцию для 50% записей. В итоге получается две таблицы для электронных и печатных СМИ, в каждой строчке цены и категория. Если что эти таблицы можно скачать их нашего репозитория github.com/alexanderkuk/media-hack/tree/master/data [8]
Дальше получаем график, который я показывал вначале:

И смотрим детализацию для некоторых интересных категорий:

В ходе ручной разметки неизбежно находятся странные проекты, на которые была потрачена куча денег:


Всего вышеописанного нам конечно показалось недостаточно и мы собрали ещё инфу по госконтрактам. На clearspending.ru [9] мы нашли все контракты, в которых есть подстроки «пропаганда», «популяризация», «воспитание» или «имидж». Посмотрели, какие коды ОКПД чаще всего встречаются и немного их обобщили их с помощью реестра кодов [10]:

Затем опять взяли реестр СМИ Роскомнадзора, собрали из него ИННы всех издательств, получилось примерно 32 000 штук, скачали для каждого из них выдачу clearspending.ru и оставили только контракты за 2015 год с одним из отобранных кодов ОКПД. Получилось примерно 3000 контрактов. Дальше их нужно было классифицировать. Мы составили набор простых правил вида:
u'Инвалидность': [
u'доступной среды для инвалидов и маломабильных групп',
u'безбарьерной среды для инвалидов и маломабильных групп',
u'социальной интеграции'
],
u'Рабочие профессии': [
u'рабочие профессии',
u'популяризации рабочих профессий',
],
u'Предпринимательство': [
u'предпринимательство',
u'молодой предприниматель',
u'малое и среднее предпринимательство'
],
u'ДТП': [
u'участников дорожного движения',
u'дорожно-транспортный травматизм',
u'о состоянии проезда',
],
Прогнали их по всему списку и увидели интересное: в контрактах встречаются заказы на пропаганду толерантности, здорового образа жизни, достижений в сельском хозяйстве, однако большая часть заказных статей СМИ направлена на самопиар государственных органов:

Все наблюдения оформили в виде сайта zina.tilda.ws [11], код и данные выложили на github.com/alexanderkuk/media-hack [12]
Автор: alexkuku
Источник [13]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/data-mining/113554
Ссылки в тексте:
[1] «первый» хакатон по дата журналистике: https://data.sdh.sexy/ru/
[2] субсидий для электронных СМИ: http://fapmc.ru/slabovid/statements/support/recipientsofstate/item48.html
[3] печатных СМИ: http://fapmc.ru/slabovid/statements/support/recipientsofstate/item49.html
[4] список тематик, которые публикует Роспечать: http://www.fapmc.ru/rospechat/statements/support/grantingofstatesupport/item41/main/custom/00/02/file.pdf
[5] в реестр субсидий: http://budget.gov.ru/epbs/faces/p/%D0%91%D1%8E%D0%B4%D0%B6%D0%B5%D1%82/%D0%A0%D0%B0%D1%81%D1%85%D0%BE%D0%B4%D1%8B/%D0%A0%D0%B5%D0%B5%D1%81%D1%82%D1%80%20%D1%81%D0%BE%D0%B3%D0%BB%D0%B0%D1%88%D0%B5%D0%BD%D0%B8%D0%B9/%D0%A0%D0%B5%D0%B5%D1%81%D1%82%D1%80%20%D1%81%D1%83%D0%B1%D1%81%D0%B8%D0%B4%D0%B8%D0%B9?_adf.ctrl-state=wkynmtu3_100&_afrLoop=29397542337953404&_afrWindowMode=0&_afrWindowId=null#!%40%40%3F_afrWindowId%3Dnull%26_afrLoop%3D29397542337953404%26_afrWindowMode%3D0%26_adf.ctrl-state%3Dv1okeu5r0_4
[6] Бессмертный полк. Мы помним: http://budget.gov.ru/epbs/faces/p/%D0%91%D1%8E%D0%B4%D0%B6%D0%B5%D1%82/%D0%A0%D0%B0%D1%81%D1%85%D0%BE%D0%B4%D1%8B/%D0%A0%D0%B5%D0%B5%D1%81%D1%82%D1%80%20%D1%81%D0%BE%D0%B3%D0%BB%D0%B0%D1%88%D0%B5%D0%BD%D0%B8%D0%B9/%D0%A0%D0%B5%D0%B5%D1%81%D1%82%D1%80%20%D1%81%D1%83%D0%B1%D1%81%D0%B8%D0%B4%D0%B8%D0%B9?_adf.ctrl-state=v1okeu5r0_4&_afrLoop=29741026235073732&_afrWindowMode=0&_afrWindowId=null#!%40%40%3F_afrWindowId%3Dnull%26_afrLoop%3D29741026235073732%26_afrWindowMode%3D0%26_adf.ctrl-state%3Dtsv0mwicb_4
[7] реестр СМИ, который публикует Роскомнадзор: http://rkn.gov.ru/opendata/7705846236-ResolutionSMI/
[8] github.com/alexanderkuk/media-hack/tree/master/data: https://github.com/alexanderkuk/media-hack/tree/master/data
[9] clearspending.ru: http://clearspending.ru/
[10] реестра кодов: http://www.gov-zakupki.ru/cody/okpd/92.20.1
[11] zina.tilda.ws: http://zina.tilda.ws/
[12] github.com/alexanderkuk/media-hack: https://github.com/alexanderkuk/media-hack
[13] Источник: https://habrahabr.ru/post/278155/
Нажмите здесь для печати.