До появления в продаже беспилотных автомобилей осталось не так много времени. Google доводит до ума технологии машинного зрения и один из самых важных элементов — распознавание пешеходов в реальном времени.
Исследователи из Google Research Алекс Крижевский (Alex Krizhevsky), Анелия Ангелова (Anelia Angelova) с коллегами представили новый метод детектирования пешеходов с помощью нейросетей. Метод показал обнадёживающий результат: пешехода удаётся заметить с высокой точностью 73,8% случаев по тесту Caltech Pedestrian, который содержит базу данных с 50 000 помеченных пешеходов в городских и сельских условиях. Такой результат сравним с самыми лучшими альтернативными разработками.
Специалисты говорят, что одним из перспективных направлений в последнее время стало использование GPU-ускорителей в нейросетях для исполнения почти в реальном времени сложных алгоритмов распознавания образов, NLP и беглого анализа видеопотока.
На недавней конференции Nvidia GPU Technology Conference было представлено несколько таких решений. Лучше всего технологический прогресс в данной области прослеживается на результатах теста ImageNet Large Scale Visual Recognition Challenge, который проводится с 2010 года. С тех пор кардинально снизился уровень ошибок в классификации изображений алгоритмами машинного зрения.
Распознавание пешеходов — одна из практических задач, где используется новая технология. В будущем нейросети с GPU-ускорением наверняка найдут применение в камерах наблюдения, системах контроля за движением транспортных средств и др.
Возвращаясь к разработке Google, распознавание пешеходов — очень сложная задача, потому что её нужно решать в постоянно изменяющихся условиях внешней среды почти в реальном времени. Объекты вокруг автомобиля находятся в движении. Существующие технологии относительно успешно решают эту задачу. Например, один из методов показывает точность 58% в тесте Caltech Pedestrian, Другой метод под названием VeryFast предусматривает видеосъёмку на 100 кадрах/с (для сравнения, у Google съёмка идёт на 15 кадрах/с), но там точность ниже. Есть методы с более высокой точностью, но они работают гораздо медленнее, снижение скорости до 195 раз.
В Google Research поставили цель улучшить точность распознавания без ущерба для скорости работы. На 15 кадрах/с они показали кардинальное повышение точности до 73,8%.
Фраза “26,2% average miss rate” из научной работы не должна вводить в заблуждение: речь не идёт о том, что автомобиль промахнулся по пешеходу и не заработал очки как в Carmageddon. Наоборот, фраза означает, что это алгоритм «промахнулся» и не распознал человека, чтобы затормозить перед ним.
В Google Research систему машинного зрения запускали на графическом ускорителе старого поколения Nvidia K20 Tesla GPU. Сейчас выпущены новые версии K40 и K80, которые используются в некоторых суперкомпьютерах из рейтинга Top500.
Группа исследователей Google Research намерена улучшить результат, увеличивая глубину каскада нейросетей и оптимизируя соотношение производительности и точности.
Так или иначе, но с появлением на улицах роботизированных автомобилей лучше одеваться поярче, а не в камуфляж, чтобы машинное зрение автомобиля не спутало вас с фоном. С другой стороны, такой совет можно дать и сейчас, когда машинами часто управляют полуслепые, полупьяные и отвлекающиеся водители.
Автор: alizar