О том почему «открытые данные Сбербанка» это не открытые данные и что нам с этим делать

в 10:14, , рубрики: big data, Блог компании «Информационная культура», открытые данные, Сбербанк

image
На днях произошло, в какой-то степени, знаменательное событие и одна из крупнейших компаний России заявила о том что теперь публикует открытые данные на своем сайте. Этой компанией является Сбербанк и соответствующий раздел на их сайте. Открытие раздела удостоилось пресс-релиза на их сайте и о нем как о важном событии написали десятки финансовых и не финансовых СМИ.

Действительно ли Сбербанк совершил нечто невероятное? Рядовое ли это явление и является ли то что сделал Сбербанк сейчас открытыми данными? Вот о чем далее пойдет речь.

В качестве вступления

Прежде чем продолжить о Сбербанке, давайте вернемся к термину открытые данные.

1-е официальное определение из закона 112-ФЗ (это поправки к 8-ФЗ)

Информация, размещаемая ее обладателями в сети "Интернет" в формате, допускающем автоматизированную обработку без предварительных изменений человеком в целях повторного ее использования, является общедоступной информацией, размещаемой в форме открытых данных.

2-е определение из Википедии
Открытые данные (англ. open data) — концепция, отражающая идею о том, что определённые данные должны быть свободно доступны для машиночитаемого использования и дальнейшей републикации без ограничений авторского права, патентов и других механизмов контроля. Освободить данные от ограничений авторского права можно с помощью свободных лицензий, таких как лицензий Creative Commons. Если какой-либо набор данных не является общественным достоянием, либо не связан лицензией, дающей права на свободное повторное использование, то такой набор данных не считается открытым, даже если он выложен в машиночитаемом виде в Интернет.

3-е из хартии открытых данных
Open data is digital data that is made available with the technical and legal characteristics necessary for it to be freely used, reused, and redistributed by anyone, anytime, anywhere.
или на сумбурном русском
Открытые данные — это цифровые данные сделанные общедоступными с техническими и юридическими характеристиками обязательными для того чтобы они свободно использовались, использовались повторно и распространялись кем угодно, когда угодно и где угодно

Также у открытых данных есть четко сформулированные принципы их публикации, отраженные как раз в хартии открытых данных.
Эти принципы:

  1. Открытость по умолчанию
  2. Своевременно и полно
  3. Доступно и удобно
  4. Сравнимо и интегрируемо
  5. Для улучшения управления и вовлечения граждан
  6. Для развития и инноваций

За те 7 лет что я лично занимаюсь темой открытых данных в России я слышал и видел как открытыми данными называли очень и очень многое что ими не является. Самый выдающийся по глупости вопрос был в том когда определение дается через описание "свободно доступных машиночитаемых данных", то вопрос "А машиночитаемые данные — это те которые я могу в машине прочитать?".

Но во всех определениях важно помнить одно — открытые данные ориентированны на технологически квалифицированного потребителя. Государство не производит само новых информационных продуктов, оно дает возможность это делать стартапам, ИТ компаниями и общественникам.

Почему публикуют открытые данные?

Чтобы разобрать этот конкретный случай важно знать зачем вообще владельцы данных их публикуют? Особенно компании и госорганы — иногда это может показаться совершенно странным.

Пиар. Обязательства или Выгода

Это три главный причины почему кто-либо данные публикует (вопросы фана и тщеславия я сознательно оставляю за скобками).

И если Вы видите активность какой-либо организации в открытых данных, да и в вообще в вопросах открытости и прозрачности, то ищите ответ в одной из этих трех причин.

Пиар

Например, как устроен пиар на открытых данных. Главная его отличительная способность ориентация на массового потребителя, массового избирателя, массового гражданина.

Вопросы технологий и данных остаются в стороне. Вопросы посещаемости, медийного охвата, число статей с упоминанием — выходят на первое место.

Живой пример — это портал открытых данных Москвы — власти города распространяют новости о публикациях даже если там размещен какой-нибудь бессмысленный набор данных из 28 строк.

Обязательства

Обязательства или принуждение — это когда открытые данные публикуются потому что закон требует их публикации. Владелец данных не всегда может быть заинтересован в открытости, но он соблюдает требования закона и их публикует.

Например, Центробанк собирает с банков формы отчетности и раскрывает в специальном разделе на сайте — это нормативно закрепленные обязательство банков и ЦБ.

Другой пример — упоминавшийся выше 112-ФЗ и 8-ФЗ. Органы власти обязаны раскрывать базовые наборы данных и публикуют их именно как их обязательства за неисполнение которых они несут ответственность перед законом.

Обязательство — это фундамент открытости. Именно по этой причине многие из тех кто обязаны раскрывать данные не предпринимают дополнительные действия по их доступности. Они только соблюдают обязательные требования, но не пишет об этом рекламных пресс-релизов.

Например, если Правительство Москвы публикует набор данных с адресами 28 военторгов и распространяет это по новостным сайтам, то совершенно не факт что, например, декларации о доходах чиновников города они опубликуют как открытые данные и также распространят по СМИ.

Иначе говоря — обязательство исполняются тихо и незаметно, настолько, насколько это возможно

Выгода

Зачем кому-то может быть выгодна публикация собственных данных? Казалось бы — владей и молчи, кому-то еще знать совершенно необязательно.

Тем не менее есть причины почему открытые данные публикуются государственными и коммерческими структурами. Например, раздел Datasets в Kaggle заполняется в поисках новых находок, решений и инсайтов для которых нужны тысячи data scientist'ов.

Или почему Федеральное Казначейство распространяет вот уже много лет данные с портала госзакупок через FTP сервер (еще до историй с открытыми данными) — потому что это проще и дешевле при распространении базы данных необходимой сотням контрагентов в субъектах федерации.

Какие-то компании организуют хакатоны и ищут себе сотрудников. Другие публикуют открытые данные для поддержания репутации в сообществе, как это делает Google в их Transparency Report

Так что же Сбербанк?

Если Вы снова посмотрите на раздел открытых данных Сбербанка, то обнаружите следующие особенности:

Нет свободных лицензий

Вместо свободы использования и распространения там только отказ от ответственности звучащий как

Представленная информация — результат анализа данных ПАО Сбербанк, 4 квартал, 2016 год. Данные не являются управленческой, бухгалтерской, финансовой отчетностью. При использовании ссылок на указанную информацию упоминание ПАО Сбербанк обязательно. Не является рекламой.

Что не имеет даже близкого отношения к свободным лицензиям

Нет наборов данных

Чтобы скачать данные нужно на графике найти специальную кнопку и там в меню еще найти раздел выгрузки в XLSX, CSV или JSON. Особенность в том что все эти выгрузки — это выгрузки из Javascript файлов выполняемые на стороне клиентов.

Все данные, по факту, хранятся в 13 Javascript файлах начиная с http://www.rdatascience.ru/opendata/data1.js и до http://www.rdatascience.ru/opendata/data13.js

А выгрузка в CSV и тд делается с помощью Javascript кода. И выкачать какой либо набор данных напрямую невозможно. Акцент сделан на визуализацию, а не на работу с данными аналитиками.

Отсутствует описание наборов

Несмотря на то что на сайте даже используют термин "Паспорт датасета" который активно используется в реальных паспортах наборов данных на государственных порталах, конечно же ничего такого там нет. Ни информации об ответственных, ни описания структуры наборов — ничего нет

Продажа услуг и смешение с большими данными

Раздел заканчивается продажей исследований Сбербанка и тем что все это сделано на больших данных. А сам формат подачи больше похож на лонгрид какого-то инфобизнеса, а не раздел открытых данных.

Выводы

Из всего этого можно сделать лишь один вывод — целью Сбербанк для этого раздела был только пиар и ничего более. Хочется только надеяться что когда-нибудь Сбербанк найдет форму работы с открытыми данными которая приносила бы выгоду и им и сообществу. Потому как пока это более похоже на попытку воспользоваться популярным термином для раскрутки своих коммерческих услуг

Автор: «Информационная культура»

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js