Фото: news.mit.edu
Исследователи из Массачусетского технологического института создали компьютерную модель, которая отражает способность зрительной системы человека быстро генерировать подробное описание сцены из изображения и дает некоторое представление о том, как работает
«В этой работе мы пытались объяснить, как восприятие может быть намного богаче, чем просто прикрепить семантические метки к частям изображения, и исследовать вопрос о том, как мы видим весь физический мир», — говорит Джош Тененбаум, профессор вычислительной когнитивной науки и член Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) и Центра
Новая модель демонстрирует, что, когда
Понимание того, что световой поток, который попадает на сетчатку, превращается в картинку, помогло разработать компьютерные модели, которые могут воспроизводить аспекты этой системы. Однако, как отмечают исследователи, даже эти сложные системы искусственного интеллекта не могут приблизиться к тому, что может сделать человеческая зрительная система.
Теорию о том, что
Тогда команда МТИ решила создать особый тип модели глубокой нейронной сети. В отличие от стандартных глубоких нейронных сетей, используемых в компьютерном зрении, которые обучаются на основе помеченных данных, указывающих класс объекта на изображении, сеть исследователей обучается на основе модели, которая отражает внутренние представления
Таким образом, их модель учится обращать вспять шаги, выполняемые компьютерной программой для генерации лиц. Процесс начинается с трехмерного представления отдельного лица, а затем преобразования его в двухмерное изображение, как его видно с определенной точки зрения. Эти изображения могут быть размещены на произвольном фоне. Исследователи предполагают, что зрительная система
Ученые обучили свою глубокую нейронную сеть выполнять эти шаги в обратном порядке, то есть процесс начинается с 2D-изображения, а затем добавляются такие функции, как текстура, кривизна и освещение, чтобы создать то, что исследователи называют «2.5D» представлением. Эти 2.5D изображения определяют форму и цвет лица с определенной точки. Затем они преобразуются в трехмерные представления, которые уже не зависят от точки обзора.
Исследователи обнаружили, что их модель работает в соответствии с данными, полученными при изучении определенных областей в
Исследователи также сравнили производительность модели с характеристиками людей в задаче, которая включает в себя распознавание лиц с разных точек. Задачу усложняли, меняя лицо, удаляя его текстуру или искажая форму. Производительность новой модели была намного больше, чем у людей и у компьютерных моделей, используемых в современном программном обеспечении для распознавания лиц.
«Их подход объединяет классическую идею о том, что зрение инвертирует модель того, как изображение было сгенерировано, с современными глубокими сетями прямой связи. Очень интересно, что эта модель лучше объясняет нейронные репрезентации и поведенческие реакции», — говорит Николаус Кригескорте, профессор психологии и неврологии в Колумбийском университете.
Теперь исследователи планируют продолжить тестирование подхода к моделированию на дополнительных изображениях, включая объекты, которые не являются лицами, чтобы выяснить, может ли обратная графика также объяснить, как
См. также:
Автор: maybe_elf