21 мая 2012 года Министром образования и науки Российской Федерации назначается Дмитрий Ливанов. В своем первом публичном выступлении он озвучивает намерение Министерства образования и науки (МОН РФ) провести всесторонний аудит сектора исследований и разработок, включая институты РАН, государственные научные организации и высшие учебные заведения. Это заявление можно назвать зарождением «Карты российской науки».
К сожалению, за событиями вокруг реформы РАН этот проект как-то потерялся и не получил, на наш взгляд, должного внимания со стороны IT-сообщества. Мы предлагаем вам небольшую ретроспективу: путь проекта от концепции до реализации.
Бесцельный путь синеет предо мной,
Далекий путь, потоками изрытый,
А дальше — мрак; и в этом мраке скрытый,
Парит судеб Вершитель роковой.Александр Блок, октябрь 1899
Часть 1: конкурс
Проект «Карта российской науки» (http://mapofscience.ru/) был официально анонсирован в декабре 2012 года. Накануне МОН РФ был проведен конкурс на выполнение НИР по теме «Формирование системы оценки и мониторинга результатов научно-исследовательской деятельности организаций и ученых для регулярной оценки состояния сферы науки». Начальная (максимальная цена) контракта — 100 млн руб. Финансирование проекта обеспечивалось в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2013 годы» (Конкурс за 2012 год, Мероприятие 2.1, Очередь 11, Лот 1).
В конкурсе приняли участие следующие организации:
- Институт системного анализа Российской академии наук;
- ПрайсвотерхаусКуперс Раша Б. В. (далее — PwC);
- Научно-исследовательский институт автоматической аппаратуры им. академика В. С. Семенихина;
- Московский государственный университет приборостроения и информатики;
- Московский государственный технический университет имени Н. Э. Баумана;
- Московский государственный университет имени М. В. Ломоносова;
- ИНЭК-Информационные Технологии.
Бауманку не допустили по формальной причине: устаревшая выписка из ЕРГЮЛ. Являлось это халатностью при подготовке документов, или сыграл какой-то другой фактор, — уже вряд ли удастся узнать.
Победу в конкурсе одержала частная консалтинговая компания «ПрайсвотерхаусКуперс Раша Б.В.», предложив стоимость контракта 90 млн руб. и срок его выполнения — 90 дней.
Необходимо отметить, что МГУ предложил разработать «Карту науки» примерно вдвое дешевле — за 50 млн руб., однако получил от конкурсной комиссии невысокие баллы за качество и квалификацию, заняв второе место. Выглядит это странно, если учесть, что в Университете существуют полезные наработки в этой области: недавно запущена информационно-аналитическая система «Наука-МГУ», с помощью которой осуществляется сбор и анализ публикационной активности сотрудников.
В официальной прессе решение по выбору PwC в качестве исполнителя объяснили желанием заказчика в лице МОН РФ провести «аудит российской науки» силами внешней организации, никак не связанной с научной средой.
PwC потратило 40 млн на покупку данных из базы Web of Science (далее — WoS) у Thomson Reuters и 15 млн — на развертывание технической инфраструктуры. Плюс к этому система требует, по оценкам исполнителей, 10-15 млн руб. в год на поддержку.
К сожалению, мы не смогли найти в публичном доступе государственный контракт с победителем конкурса, а также техническое задание. (Внимание, вопрос: это не противоречит конкурсному законодательству?) Очень хотелось бы посмотреть на тот объем работ, который был заявлен на бумаге. Хотя с формальной точки зрения это уже не столь важно, так как проект оформлен как НИР: его результатом может являться просто отчет, реализация хотя бы прототипа совсем необязательна.
Часть 2: что хотели сделать?
«Наша цель — определить поименно тех ученых и те малые научные коллективы (то есть лаборатории, научные группы), которые уже сегодня в России работают на высоком международном уровне. Мы будем делать этот проект с одной простой целью — понять, где сегодня Россия сохраняет конкурентоспособность, какие области науки сегодня для нас являются перспективными, где у нас есть шанс в будущем совершить рывок. И, что самое важно, поддержать — адресно — именно тех людей, тех ученых, те лаборатории, которые этой поддержки заслуживают»,— говорил Дмитрий Ливанов в своем интервью телеканалу «Просвещение».
В документе, подготовленном PwC, сам проект описывается следующим тезисом: «Карта российской науки» должна стать основой для принятия информированных управленческих решений в сфере научно-исследовательской деятельности ученых и организаций»; также поставлены конкретные цели:
- «инвентаризация» текущего состояния российской науки;
- быстрый доступ по требованию к актуальным и корректным показателям российской науки;
- аналитический инструментарий для принятия обоснованных управленческих решений;
- выявление наиболее авторитетных экспертов и научных коллективов для их адресной поддержки;
- сравнение уровня развития науки в России с другими странами и выявления точек роста;
- обеспечение прозрачности принимаемых управленческих решений.
В этом же документе заявлены три основных столпа проекта: охват данных, качество данных и фунционал.
Охват данных планировалось обеспечить через:
- международные источники: публикации, доклады на международных конференциях, патенты, издания;
- российские источники: публикации, патенты, гранты, НИОКР, издания;
- показатели как фундаментальной, так и прикладной науки.
В итоге должна была получиться «уникальная по охвату база, обеспечивающая наиболее полное возможное покрытие результатов научно-исследовательской деятельности российских ученых».
Под качеством данных подразумевалось:
- очистка исходных данных для исключения разнонаписаний имен собственных;
- использование механизма корректировки данных самими учеными и организациями;
- использование уникальных идентификаторов ученых и организаций.
В результате этого ожидалось достижение «беспрецедентного уровня точности данных, который поможет обеспечить видимость российской науки для международного сообщества».
И, наконец, фунционал включал:
- инструментарий для сравнения и выявления точек роста в науке;
- построение отчетов по заданным параметрам для ученых, организаций, научных направлений;
- гибкий поиск и фильтрация данных;
- выявление неформальных коллективов ученых.
Это «усовершенствованный набор аналитических инструментов и их гибкость, обеспечивающие решение управленческих задач».
А теперь непрофессионалам, наверное, станет не очень интересно, но так как Хабр — технологичный блог, мы посчитали необходимым показать план работ и архитектуру выстраиваемой системы. Всего три слайда.
Часть 3: что получилось?
Прежде всего, мы предлагаем читателям Хабра самим оценить, соответствует ли заявленный функционал тому, что было реализовано. «Карта российской науки» доступна по данной ссылке http://mapofscience.ru/. Можно ли считать это образцом для подражания? Является ли этот проект уникальным не только в России, но и в мире? Попробуйте сами ответить на эти вопросы.
Не так давно главная страница «Карты» была обновлена. Был добавлен красный мигающий блок, говорящий нам: «Внимание! Система находится в опытной эксплуатации». Вероятно, это произошло из-за большого количества негативных отзывов о проекте. Если взглянуть на приложение к конкурсу, можно заметить, что deadline данного проекта — конец 2013 года. Таким образом, что-либо кардинально исправить в этой версии для «опытной эксплуатации» представляется уже маловероятным, и мы можем перейти к оценке всего проекта.
Целью проекта (если кто не запомнил) являлось «определить поименно тех ученых и те малые научные коллективы (то есть лаборатории, научные группы), которые уже сегодня в России работают на высоком международном уровне». На наш взгляд, сделать это с помощью предложенных инструментов невозможно.
Далее обратимся к столпам «Карты науки».
Охват данных
Скорее не получилось, чем получилось. Две основные базы — Российский индекс научного цитирования (РИНЦ) и Web of Science (WoS) — представлены в диапазоне 2007–2012 гг., да еще и с оговоркой в отношении WoS. Данные попросту неактуальны (верхняя планка года) и некорректны (нижняя планка года) для заявленной основной цели. И это при том, что доступ к базе WoS (её части, относящаяся к российским ученым) обошелся государству в 40 млн руб (практически без права передачи данных в МОН).
По остальным заявленным в проекте источникам данным также наблюдается, мягко говоря, некоторая неполнота. После длительного поиска по ведущим российским ученым не удалось обнаружить их книг, монографий, а также информации об участии в НИОКР и грантах. Можно предположить, что эти данные либо просто не предоставлены в карту науки, либо их не смогли подготовить.
Качество данных
По нашему мнению, эта задача являлась ключевой в реализации «Карты российской науки», это была именно та технологическая часть, которая составляла основную сложность и должна была отнять основные силы и время. Проще говоря, задача всей «Карты» состояла в том чтобы свести, очистить и грамотно перелинковать данные. Или, как следует из стенограммы установочного заседания экспертных групп по вопросам реализации проекта «Карта российской науки», ключевым блоком работ являлась «вычистка и интеграция данных из различных источников». И, к сожалению, эта часть совсем не получилась. Данные вообще не были сведены: нам предлагается или РИНЦ, или WoS. По сути, нам представлен просто интерфейс к этим двум базам, с не очень внятным функционалом. Так получилось, что именно к качеству данных возникло большинство претензий у научного сообщества. Мы попробовали собрать их воедино (но наверняка что-нибудь да упустили, — нареканий очень много):
- использование классификатора (рубрикатора) научных направлений, не применимого к действующим направлениям в российской науке;
- произвольный отбор (группировка) научных учреждений по рубрикам;
- отсутствие контроля уровня случайных совпадений;
- несоответствие числовых показателей реальным значениям (по численности состава научных учреждений, по количеству публикаций в WoS и РИНЦ, по числу патентов, по индексу цитирования), ошибки при переносе операторами данных из одной базы в другую;
- некорректный отбор «ведущих» учреждений или исследователей (топ-5), построенный на использовании произвольных признаков, не имеющих друг с другом связи (либо данные по WoS, либо по РИНЦ, либо алфавитный порядок, либо рубрикатор, и т.д.);
- неверное (некорректное) написание Ф.И.О. исследователя как в русской, так и в английской системе написания;
- неверная (некорректная) аффилиация исследователя;
- отсутствие разделения однофамильцев и их корректного соотношения с научным направлением и научным учреждением;
- отсутствие сведений о подразделениях организаций (в том числе, о факультетах крупных университетов, таких, как МГУ и СПбГУ).
Функционал
С функционалом тоже не все хорошо. Например, вот как реализован механизм корректировки данных: «Исправление технических ошибок, замеченных пользователями, происходит через предоставление бумажной версии замечаний, заверенной печатью организации, в которой работает пользователь». Между тем, в вышеупомянутой стенограмме говорится: «Основной принцип реализации проекта — минимизация усилий со стороны ученых. Предполагается, что большая часть информации в личных кабинетах будет заполняться в автоматическом режиме».
До сих пор не найден ни один человек, который может внятно объяснить, какую информацию несет в себе так называемая «тепловая карта». Единственная, на наш взгляд, интересная фича — это ссылка «свернуть карту» справа внизу, ее функционал, по крайней мере, неординарен и содержит львиную долю самоиронии.
Мы попробовали зарегистрироваться в системе, чтобы посмотреть, как она выглядит изнутри. Нам посчастливилось завести аккаунт примерно за месяц до написания настоящего обзора, потому что в настоящее время регистрация новых пользователей по каким-то причинами уже не работает (похоже были утеряны все полимеры).
Для регистрации ученому необходимо предоставить Ф.И.О., год рождения и email, после чего пройти процедуру «верификации». Это можно сделать двумя способами: по почте или через так называемый SPIN-код.
Верификация по почте осуществляется через «ручной контур». Чтобы этого избежать, мы решили освоить инновационный SPIN-код. Скорее всего, не каждый читатель знаком с этим понятием (среди нас тоже нашлись такие), поэтому расшифруем.
SPIN-код — это персональный идентификационный код автора в SCIENCE INDEX, информационно-аналитической системе, построенной на основе данных Российского индекса научного цитирования (РИНЦ).
Мы отправили заявку на получение SPIN-кода, заполнив для этого на сайте РИНЦ огромную форму с несколькими десятками полей и классификаторов (всего за какие-то 20 минут), и успешно получили код через две недели ожидания. Радуясь своим достижениям, мы ввели SPIN-код в профиле ученого, после чего «Карта» нам сообщила, что эта информация требует проверки (not again!). С момента ввода прошло уже две недели, а аккаунт до сих пор не верифицирован.
Если у вас хватило терпения, то вы добрались до личного кабинета.
Редактировать в личном кабинете особо нечего, так как в нем присутствуют только те данные, которые вы ввели при регистрации. Авторы системы подразумевают, что все остальное ученый расскажет о себе сам, заполнив немалое количество полей. Заметим, что в западных системах (ResearchGate, Academia.edu, Google Scholar) пользователь после регистрации получает практически готовый профиль, который система подготовила для него, автоматически собрав данные из различных источников. Ему остается только подтвердить их и при необходимости дополнить.
Сомнительно, что ученые по доброй воле станут пользоваться системой, в которой только на регистрацию уходит более 4 недель. Очевидно одно — «минимизации усилий со стороны ученых» не получилось.
Официальная неудовлетворительная оценка проекта также соответствует нашим выводам. «Это макет, это даже не пилотный проект», — отметила замминистра образования и науки РФ Людмила Огородова (макет за 90 миллионов).
Часть 4: реакция научного сообщества
Это будет самая лаконичная часть нашего повествования. Реакция научного сообщества была резко отрицательной.
Часть 5: причины провала
Как следует из официальной позиции МОН РФ и многочисленных отзывов экспертного научного сообщества, «Карта науки» получилось неудовлетворительной. Соответствует ли она целям выполненного государственного контракта, мы рассуждать не станем ввиду недостаточности информации о нем. Важно другое — как можно было бы избежать подобной ситуации? На наш взгляд, ключевым моментом в данной истории является то, что все данные, на которых строилась эта публичная информационная система, не являются открытыми.
И здесь мы хотели бы затронуть очень актуальную проблему открытых данных в науке. Их попросту нет. А ведь были бы они открыты, возможно, и необходимости в подобном госзаказе не было. «Карту науки» смог бы реализовать любой профессиональный разработчик, интересующийся тематикой открытых данных и наукой. Более того, таких «карт» при соответствующем спросе со стороны государства и научного сообщества было бы несколько.
Посмотрим на список предполагаемых российских источников для «Карты науки»:
- статьи в российских и зарубежных журналах (НЭБ);
- российские и зарубежные патенты (ФИПС);
- гранты (ФГБНУ НИИ РИНКЦЭ, РФФИ, РГНФ);
- отчеты по НИР и НИОКР (ЦИТиС);
- диссертации и авторефераты (ЦИТиС);
- издания книг (Российская книжная палата);
- сведения о научных организациях и их подразделениях (в том числе о вузах и их факультетах).
Подавляющее большинство вышеперечисленных источников были сформированы за счет государственного бюджета и непонятно, почему эти данные не являются публичными.
Часть 6: как исправить ситуацию?
Как заявила Е.Г. Шапочка, член Правительственной комиссии по координации деятельности Открытого правительства и, по совместительству, управляющий директор компании «ПрайсвотерхаусКуперс Раша Б.В.», «открытие массивов научных данных, создание электронных научных справочников, создание специализированных научных сетей и сервисов для совместной работы исследователей — это общемировые тенденции. В этой связи создание ИС «Карты российской науки» имеет особое значение для интеграции российской науки в мировую науку».
Судя по всему, доработать «Карту» до более или менее рабочего состояния текущему исполнителю вряд ли удастся. Но он может, во-первых, обеспечить полноту данных в соответствии с государственным контрактом (а не за период 2007–2012 годов). А во-вторых, — разместить результаты проведенной работы по «Карте российской науки» в качестве открытых данных (open data).
Это был бы достойный выход из сложившейся ситуации, учитывая тот факт, что львиная доля тех 90 млн руб. должна была быть потрачена на работу именно с данными. Необходимо реализовать API, по которому любой желающий сможет получить доступ результатам проекта и тем самым создать конкурентную среду для дальнейшей доработки «Карты».
Автор: fatprowler