Исследователи, работающие в Microsoft над проблемой распознавания объектов на фотографиях и видеозаписях, сообщили о существенном достижении: созданная ими система по точности не уступает человеку, а порой и превосходит его.
Новый подход позволил разработке Microsoft победить в конкурсе ImageNet (соответствующий набор из огромного количества изображений традиционно используется для глубокого обучения систем распознавания и оценки их возможностей).
В состязании ImageNet команда Microsoft заняла первые места в трех категориях: классификация, локализация и обнаружение. Причем система обошла конкурентов с большим отрывом.
В другом состязании — Microsoft Common Objects in Context (MS COCO) — разработка стала первой по сегментации изображений и обнаружению объектов.
Система, построенная на идее нейронных сетей, отличается от похожих более глубоким устройством. Ее высокая эффективность объясняется наличием связей, по сложности существенно превосходящих связи в других подобных сетях. Нейронные сети образуют слои, увеличение количества которых, теоретически, должно сопровождаться улучшением результатов работы. Однако увеличению числа слоев препятствует размытие данных при прохождении через каждый следующий слой, что затрудняет обучение сети. Несколько лет назад хорошим результатом считалось наличие восьми слоев, а в прошлом году число слоев удалось увеличить до 20-30. Подход, который сами участники проекта называют «глубокой остаточной сетью», позволил довести число слоев до 152. В таких сетях меняется как направление потока информации, так и процедура обучения. Разработчики признают, что успех был в определенной степени неожиданностью для них самих, поскольку до практической проверки было неясно, сработает ли выбранный подход.
По словам участников проекта, их наработки уже используются в других направлениях, включая распознавание речи.
Источник: Microsoft