Для машинного обучения и научных исследований требуется много данных. В помощь разработчикам и исследователям, Наташа Ной с коллегами из исследовательского подразделения Google Research в сентябре 2018 года выпустили специализированную поисковую систему Dataset Search. 23 января 2020 года поисковик вышел из беты, с новыми инструментами для лучшей фильтрации поиска и доступом почти к 25 миллионам наборов данных.
Датасеты публикуют в открытом доступе многие учреждения: университеты, государственные организации и лаборатории. Но зачастую их трудно найти с помощью традиционного поиска. Поисковик Dataset Search обрабатывает теги метаданных в формате Schema, тут наборы данных самой разной тематики: от лыжных травм до популяции пингвинов.
Специализированный инструмент предназначен для научного сообщества, Google не получит на нём особой прибыли. Компания говорит, что за год с момента запуска поступили поисковые запросы от «сотен тысяч пользователей».
Очень важно, чтобы наборы данных были доступны для поиска. В самом деле, какой смысл в научных исследованиях или государственной статистике, если данные недоступны или их трудно найти?
Чтобы датасет появился в поисковом индексе, нужно добавить к нему метаданные. Многие научные организации оперативно отреагировали на это требование. Например, престижный научный журнал Nature в январе 2020 года изменил свою политику, и теперь требует от авторов статей предоставлять датасеты обязательно с надлежащими метаданными.
С выходом из бета-версии в поисковик добавлены новые функции, в том числе фильтрация данных по типу (таблицы, изображения, текст и т. д.), по свободной лицензии и по географическому охвату. Движок теперь также доступен с мобильных устройств и имеет расширенные описания датасетов.
Google говорит, что поисковик охватывает почти 25 миллионов наборов данных — это только «часть датасетов в интернете», но всё равно «значительный объём информации». Лучше всего проиндексированы исследования, связанные с науками о земле, биологией и сельским хозяйством, а самые распространённые поисковые запросы — [образование], [погода], [рак], [преступность], [футбол] и [собаки], сообщает Google по итогам бета-тестирования. По открытию государственных датасетов лидируют США с более чем двумя миллионами датасетов онлайн.
Наташа Ной говорит, что команда сейчас думает о новых функциям, которые могут быть полезны, включая «понимание того, как наборы данных цитируются и повторно используются» и «помощь пользователям в изучении наборов данных в поиске наборов данных, когда точно не знают, что ищут… И, конечно, продолжать расширять корпус».
Наташа Ной — известный в узких кругах программист российского происхождения. Выпускница МГУ им. Ломоносова уже двадцать лет специализируется на разработке семантических поисковых инструментов. Её руководство Ontology 101 Tutorial является одним из самых самым цитируемых документов по семантическому вебу. В 2014 году после пятнадцати лет исследований в Стэнфордском университете Наташа согласилась перейти в Google Research на позицию Research Scientist. Поисковик по датасетам — её проект.
Кроме поисковика от Google, есть и другие места, где можно найти датасеты. Вот большая подборка ссылок на датасеты по компьютерному зрению, анализу тональности текста, обработке естественного языка, автопилотам, медицинским данным.
В России на датасетах для машинного обучения специализируется «Яндекс». Например, в июле 2019 года компания начала выкладывать в открытый доступ наборы данных «Яндекс Толоки» — крупнейшего источника размеченных людьми данных для задач машинного обучения. Здесь есть данные для обучения чат-ботов на русском языке, мнения носителей русского языка о родо-видовых отношениях между словами и другие наборы данных.
Автор: ITSumma