Мы рады рассказать вам о том, что наши коллеги из подразделения Microsoft Research опубликовали данные, полученные в результате многолетних трудов по курированию и изучению информации из научных работ. В частности, стали доступны данные по инженерии, компьютерным наукам, информатике, математике, физике, биологии, социальным и естественным наукам. Подробнее под катом!
Последние несколько лет команда Microsoft Research Outreach активно сотрудничала с научным сообществом, помогая исследователям в проведении научно-исследовательских работ на базе облачной инфраструктуры. Все это время мы повсеместно наблюдали актуальность четвертой парадигмы научных открытий, предложенной Джимом Греем, которая основана на изучении больших объемов данных и предполагает использование практически во всех научно-исследовательских программах компонентов данных каждой из них. Мы четко видели, что для обработки столь безбрежного потока информации нужны курируемые и анализируемые наборы данных в масштабе научно-исследовательского сообщества, причем нецелесообразно ограничиваться только областью вычислительных систем — нужно охватывать междисциплинарные и предметные науки.
Сегодня мы рады представить Microsoft Research Open Data — новый облачный репозиторий с открытыми данными, призванный облегчить взаимодействие исследователей по всему миру. Единый облачный репозиторий Microsoft Research Open Data обеспечивает удобный доступ к наборам данных, полученных в результате многолетних трудов Microsoft по курированию и изучению информации из опубликованных научных работ.
Почему мы инвестируем в этот проект
Цель проекта — предоставить в распоряжение исследователей и сотрудников Microsoft удобную платформу для совместного использования наборов данных, оснащенную необходимыми технологиями и инструментами. Репозиторий Microsoft Research Open Data призван упростить доступ к данным, способствовать взаимодействию исследователей, использующих облачные ресурсы, и обеспечивать воспроизводимость экспериментов. Мы будем продолжать работу по формированию и развитию нашего репозитория и дополнять его новыми функциями, руководствуясь отзывами сообщества.
Мы знаем, что исследователям сегодня доступны десятки репозиториев данных, и рассчитываем, что возможности Microsoft Research Open Data дополнят функциональность существующих хранилищ.
Рис. 1. Набор данных в открытом репозитории Microsoft Research Open Data
«Настал переломный момент в мире больших данных. Инициативы, подобные Microsoft Research Open Data, позволяют снижать барьеры, препятствующие совместному доступу к информации, и поддерживать воспроизводимость экспериментов благодаря использованию облачных платформ»,
— отмечает Сэм Мэдден (Sam Madden), профессор Массачусетского технологического института.
В условиях экспоненциального роста данных ожидается, что к 2025 году их объем составит 150 ЗБ. Это значит, что сегодня мы должны уделять особое внимание вопросам обработки данных, а не проблемам их передачи по интернет-каналам, которые развиваются гораздо медленнее. Мы верим, что возможность обработки данных принесет реальную пользу. Поэтому пользователи могут не только скачивать наборы данных, но и копировать их напрямую на виртуальную машину Data Science на базе Azure (см. рис. 2).
Рис. 2. Данные скопированы из microsoftopendata.com на виртуальную машину Linux в облаке Azure
На виртуальной машине Data Science предустановлены популярные у исследователей и специалистов-практиков инструменты разработки (см. рис. 3).
Рис. 3. Виртуальная машина Data Science на Linux
«Меня часто просят поделиться экспериментальными данными, поэтому раньше я предоставлял общий доступ к ним. Это был самый популярный способ. Координация и каталогизация наборов данных в одном месте с помощью Azure будет полезна и внутренним, и внешним исследователям. Они получат возможности легкого доступа, взаимодействия и удобного использования обширных открытых данных в облаке Microsoft Research»,
— комментирует Джон Крамм (John Krumm), главный исследователь Microsoft Research AI.
Наборы данных в Microsoft Research Open Data классифицируются по основной области исследований (см. рис. 4). С помощью наборов данных можно искать ссылки на исследовательские проекты и публикации. Доступные наборы данных можно просматривать, скачивать и копировать напрямую в подписку Azure с помощью автоматизированного рабочего процесса. Репозиторий отвечает самым высоким стандартам совместного использования информации и гарантирует доступность наборов данных, их совместимость и возможность многократного использования; информация личного характера в корпусе отсутствует. Сайт продолжит свою работу и будет помогать в сборе отзывов пользователей.
Рис. 4. Категории наборов данных
Репозиторий Microsoft Research Open Data появился в результате реализации исследовательской программы Microsoft Research Outreach Data. Это стало возможным благодаря тесному сотрудничеству многих подразделений и исследователей Microsoft, наших отраслевых партнеров, а также консультантов из образовательной сферы.
Будем рады получить ваши комментарии и отзывы! Отправьте нам сообщение с помощью формы обратной связи на сайте и поделитесь своими мыслями.
Автор: Александр Гуреев