- PVSM.RU - https://www.pvsm.ru -

Как мы участвовали в хакатоне по дата журналистике. Социально значимое: Государству виднее

Сегодня закончился «первый» хакатон по дата журналистике [1]. Мы заняли на нём первое место. Проделали огромный объём работы за одни сутки. Я хотел бы рассказать как всё было.

Темой хакатона были финансы российских СМИ. Ежегодно государство поддерживает СМИ, поднимающие в своих материалах социально важные темы. Для этого проводится специальный конкурс. Главным критерием отбора получателей субсидий является «социальная значимость» проекта. Мы решили понять, что скрывается за формулировкой «социальная значимость» и какие темы оказались самыми популярными и «дорогими» в 2015 году.

Забегая вперёд, скажу, что ответ такой:

  • По опросам очень много россиян считают себя патриотами, но государство всё равно даёт больше всего денег на проекты про патриотизм.
  • 2015 год был годом литературы и на него пришлось 70 лет победы, поэтому «год литературы» и «историческая память в топе».
  • Субсидии, по идее, должны даваться на социально значимые проекты, «развитие Крыма», например, не очень в тему.
  • В целом складывается ощущение, что чаще пишут и читают об исторической памяти, чаще вспоминают достижения прошлых лет, в то время как на материалы об инновациях и новых технологиях государство выделяет меньше.

Как мы участвовали в хакатоне по дата журналистике. Социально значимое: Государству виднее - 1

А теперь как мы пришли к этим выводам.

Роспечать публикует каждый год у себя на сайте списки субсидий для электронных СМИ [2] и список субсидий для печатных СМИ [3]. Первый список выглядит так:
Как мы участвовали в хакатоне по дата журналистике. Социально значимое: Государству виднее - 2

У нас есть название организации, название и описание проекта. Для каждой строчки нужно определить группу, к которой относится субсидия и её объём в рублях. С классификацией всё просто: берём список тематик, которые публикует Роспечать [4] и вручную размечаем ориентируясь на описания. Субсидий всего 2-3 сотни, поэтому разметку можно сделать за разумное время. С ценами сложнее: выделяем название издательства, например, «Радиовещательная Компания „Бурятия“», забиваем его в реестр субсидий [5], скачиваем для найденные записи и в каждой ищем название проекта, например, "Бессмертный полк. Мы помним [6]" и выписываем цену. Для 75% проектов процедура отрабатывает автоматически. С остальными нужно разбираться вручную.
Как мы участвовали в хакатоне по дата журналистике. Социально значимое: Государству виднее - 3

Со списком субсидий для печатных СМИ сложнее. Список выглядит так:
Как мы участвовали в хакатоне по дата журналистике. Социально значимое: Государству виднее - 4

Записей уже около тысячи, поэтому ручная разметка происходит не так бодро. В списке нет названий организаций, а значит просто найти субсидии в реестре не получится. Выход есть: берём реестр СМИ, который публикует Роскомнадзор [7], он выглядит так:
Как мы участвовали в хакатоне по дата журналистике. Социально значимое: Государству виднее - 5

По названию издания находим ИНН издательства. Искать можно по точному совпадению, покрытие получается хорошее. Дальше вбиваем все эти ИННы в реестр субсидий и скачиваем все результаты. Теперь самое сложное: среди всех записей нужно найти только те, которые соответствуют проектам, фигурирующим в списке Роспечати. Названия проектов есть только в договорах, договоры это пдфы со сканами, автоматически с ними ничего не сделаешь:
Как мы участвовали в хакатоне по дата журналистике. Социально значимое: Государству виднее - 6

Поэтому скачиваем все пдфы просматриваем их вручную и записываем цены в соответствующие ячейки. За 4-5 часов удалось провернуть операцию для 50% записей. В итоге получается две таблицы для электронных и печатных СМИ, в каждой строчке цены и категория. Если что эти таблицы можно скачать их нашего репозитория github.com/alexanderkuk/media-hack/tree/master/data [8]

Дальше получаем график, который я показывал вначале:
Как мы участвовали в хакатоне по дата журналистике. Социально значимое: Государству виднее - 7

И смотрим детализацию для некоторых интересных категорий:
Как мы участвовали в хакатоне по дата журналистике. Социально значимое: Государству виднее - 8

В ходе ручной разметки неизбежно находятся странные проекты, на которые была потрачена куча денег:
Как мы участвовали в хакатоне по дата журналистике. Социально значимое: Государству виднее - 9
Как мы участвовали в хакатоне по дата журналистике. Социально значимое: Государству виднее - 10

Всего вышеописанного нам конечно показалось недостаточно и мы собрали ещё инфу по госконтрактам. На clearspending.ru [9] мы нашли все контракты, в которых есть подстроки «пропаганда», «популяризация», «воспитание» или «имидж». Посмотрели, какие коды ОКПД чаще всего встречаются и немного их обобщили их с помощью реестра кодов [10]:
Как мы участвовали в хакатоне по дата журналистике. Социально значимое: Государству виднее - 11

Затем опять взяли реестр СМИ Роскомнадзора, собрали из него ИННы всех издательств, получилось примерно 32 000 штук, скачали для каждого из них выдачу clearspending.ru и оставили только контракты за 2015 год с одним из отобранных кодов ОКПД. Получилось примерно 3000 контрактов. Дальше их нужно было классифицировать. Мы составили набор простых правил вида:

    u'Инвалидность': [
        u'доступной среды для инвалидов и маломабильных групп',
        u'безбарьерной среды для инвалидов и маломабильных групп',
        u'социальной интеграции'
        ],
    u'Рабочие профессии': [
        u'рабочие профессии',
        
        u'популяризации рабочих профессий',
        ],
    u'Предпринимательство': [
        u'предпринимательство',
        u'молодой предприниматель',
        u'малое и среднее предпринимательство'
    ],
    u'ДТП': [
        u'участников дорожного движения',
        u'дорожно-транспортный травматизм',
        u'о состоянии проезда',
    ],

Прогнали их по всему списку и увидели интересное: в контрактах встречаются заказы на пропаганду толерантности, здорового образа жизни, достижений в сельском хозяйстве, однако большая часть заказных статей СМИ направлена на самопиар государственных органов:
Как мы участвовали в хакатоне по дата журналистике. Социально значимое: Государству виднее - 12

Все наблюдения оформили в виде сайта zina.tilda.ws [11], код и данные выложили на github.com/alexanderkuk/media-hack [12]

Автор: alexkuku

Источник [13]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/data-mining/113554

Ссылки в тексте:

[1] «первый» хакатон по дата журналистике: https://data.sdh.sexy/ru/

[2] субсидий для электронных СМИ: http://fapmc.ru/slabovid/statements/support/recipientsofstate/item48.html

[3] печатных СМИ: http://fapmc.ru/slabovid/statements/support/recipientsofstate/item49.html

[4] список тематик, которые публикует Роспечать: http://www.fapmc.ru/rospechat/statements/support/grantingofstatesupport/item41/main/custom/00/02/file.pdf

[5] в реестр субсидий: http://budget.gov.ru/epbs/faces/p/%D0%91%D1%8E%D0%B4%D0%B6%D0%B5%D1%82/%D0%A0%D0%B0%D1%81%D1%85%D0%BE%D0%B4%D1%8B/%D0%A0%D0%B5%D0%B5%D1%81%D1%82%D1%80%20%D1%81%D0%BE%D0%B3%D0%BB%D0%B0%D1%88%D0%B5%D0%BD%D0%B8%D0%B9/%D0%A0%D0%B5%D0%B5%D1%81%D1%82%D1%80%20%D1%81%D1%83%D0%B1%D1%81%D0%B8%D0%B4%D0%B8%D0%B9?_adf.ctrl-state=wkynmtu3_100&_afrLoop=29397542337953404&_afrWindowMode=0&_afrWindowId=null#!%40%40%3F_afrWindowId%3Dnull%26_afrLoop%3D29397542337953404%26_afrWindowMode%3D0%26_adf.ctrl-state%3Dv1okeu5r0_4

[6] Бессмертный полк. Мы помним: http://budget.gov.ru/epbs/faces/p/%D0%91%D1%8E%D0%B4%D0%B6%D0%B5%D1%82/%D0%A0%D0%B0%D1%81%D1%85%D0%BE%D0%B4%D1%8B/%D0%A0%D0%B5%D0%B5%D1%81%D1%82%D1%80%20%D1%81%D0%BE%D0%B3%D0%BB%D0%B0%D1%88%D0%B5%D0%BD%D0%B8%D0%B9/%D0%A0%D0%B5%D0%B5%D1%81%D1%82%D1%80%20%D1%81%D1%83%D0%B1%D1%81%D0%B8%D0%B4%D0%B8%D0%B9?_adf.ctrl-state=v1okeu5r0_4&_afrLoop=29741026235073732&_afrWindowMode=0&_afrWindowId=null#!%40%40%3F_afrWindowId%3Dnull%26_afrLoop%3D29741026235073732%26_afrWindowMode%3D0%26_adf.ctrl-state%3Dtsv0mwicb_4

[7] реестр СМИ, который публикует Роскомнадзор: http://rkn.gov.ru/opendata/7705846236-ResolutionSMI/

[8] github.com/alexanderkuk/media-hack/tree/master/data: https://github.com/alexanderkuk/media-hack/tree/master/data

[9] clearspending.ru: http://clearspending.ru/

[10] реестра кодов: http://www.gov-zakupki.ru/cody/okpd/92.20.1

[11] zina.tilda.ws: http://zina.tilda.ws/

[12] github.com/alexanderkuk/media-hack: https://github.com/alexanderkuk/media-hack

[13] Источник: https://habrahabr.ru/post/278155/