Американский артист продемонстрировал возможности нейросети NeuroTalk, описывающей сцены видео в режиме реального времени. Система делала ошибки, исправляла себя, но иногда правильно рассказывала о происходящем. «Мужчина держит сосиску в булочке с горчицей и кетчупом», «ножницы сидят на столе рядом с кошельком» и «вид поезда из окна поезда» — на видео под катом.
В последние несколько лет компьютеры неплохо научились распознавать объекты на изображениях, будь то лица, животные или мебель. Нейросети, способные со временем обучаться, могут описывать сложные сцены. Из видео, снятого американским артистом и программистом Кайлом Макдоналдом, понятно, что системы далеки от стопроцентной точности. Макдоналд модифицировал нейросеть, разработанную исследователями из Стэнфорда и Google, чтобы анализировать видео, снятое на веб-камеру на улицах Амстердама.
Артист использовал открытое программное обеспечение NeuralTalk. Оно способно описывать сцены в режиме реального времени. Программа делает ошибки, иногда поправляет себя. Иногда подобные системы относят к искусственному интеллекту, но делают это с натяжкой: описывая изображения и видео, ПО не понимает, что на картинке — оно просто ищет связи между объектами.
Над похожей системой работает Facebook. Компания разрабатывает систему, которая распознаёт объекты и людей на фотографиях, в том числе — чтобы сделать социальную сеть доступнее для людей с ограниченными возможностями. Об анализе видео Facebook пока не вела речь, но можно предположить, что компания рассматривает эту идею для интеллектуальной настройки ленты новостей.
С помощью таких фотографий разработчики Facebook обучают систему распознавать породу собак
Автор: ivansychev