В последние годы возрос интерес к моделям машинного обучения, в том числе для распознавания зрительных образов и лиц. Хотя технология далека от совершенства, она уже позволяет вычислять преступников, находить профили в социальных сетях, отслеживать изменения и многое другое. Simen Thys и Wiebe Van Ranst доказали, что, внеся лишь незначительные изменения во входную информацию свёрточной нейронной сети, можно подменить конечный результат. В этой статье мы рассмотрим визуальные патчи для проведения атак на распознавание.
Первые атаки на системы распознавания представляли собой небольшие изменения пикселей входного изображения для обмана классификатора и выведения неправильного класса.
Цель состояла в том, чтобы создать патч, способный успешно скрыть человека от детектора. В результате получалась схема атаки, которую можно было использовать, например, для обхода систем наблюдения. Злоумышленники могут незаметно красться, держа перед собой небольшую картонную табличку с «патчем», направленную к камере наблюдения.
Развитие cвёрточных нейронных сетей (СНС) привело к огромным успехам в области компьютерного зрения. Управляемый данными сквозной конвейер, в котором СНС обучаются на изображениях, показал наилучшие результаты в широком спектре задач компьютерного зрения. Из-за глубины этих архитектур нейронные сети способны изучать самые базовые фильтры в нижней части сети (где поступают данные) для достижения абстрактных высокоуровневых функций наверху. Для этого типичная СНС содержит миллионы изученных параметров. И хотя такой подход приводит к очень точным моделям, интерпретируемость резко снижается.
В исследованиях для обмана систем наблюдения использовались самые разные изображения, включая абстрактный «шум» и размытие.
Для создания патча использовалось исходное изображение, которое претерпевало следующие преобразования:
- поворот на 20 градусов;
- наложение шума;
- размытие;
- модификация яркости;
- модификация контраста.
Исследователи провели множество Inria-тестов для выявления наилучшего «сокрытия» человека.
Для достижения нужного эффекта изображение 40х40 сантиметров (которое в докладе экспертов обозначено словом patch) должно располагаться посередине detection box камеры и находиться в ее поле зрения постоянно. Конечно, этот способ не поможет человеку скрыть лицо, однако алгоритм обнаружения людей в принципе не сумеет обнаружить в кадре человека, а значит, последующее распознавание черт лица также не будет запущено.
В качестве демонстрации исследователи опубликовали видеодемонстрацию возможностей визуальных патчей:
Код проекта на GitHub.
Исследование.
Автор: LukaSafonov