Иллюстрация слева показывает 14 ключевых точек на человеческом теле, которые распознаёт система машинного зрения: голова, шея, плечи, локти, запястья, бёдра, колени, лодыжки. Справа вверху беспилотник Parrot AR с системой распознавания насилия. Справа внизу отдельные элементы фотографии из обучающего набора данных с ключевыми точками
В наше время БПЛА всё более активно используются правоохранительными органами и спецслужбами. Обычно для шпионажа, разведки, пограничного контроля и т. д. Полиция пока не очень активно применяет дроны для патрулирования городских улиц. А ведь здесь кроется огромный потенциал. Патрульные беспилотники позволяют значительно сэкономить на зарплате персонала. Они покрывают большие территории и отлично видят в темноте.
В связи с ростом преступности и угрозой терроризма во многих странах власти заинтересованы в усилении контроля над гражданским населением. Беспилотники с автоматическим распознаванием насилия — это системы нового поколения, которые открывают двери для ещё более автономных и систем интеллектуального реагирования на уличные беспорядки и хулиганство.
Раньше БПЛА использовались преимущественно в «ручном» режиме. Так они находятся под управлением оператора, который одновременно и отслеживает картинку с видеокамеры. Но такой режим сильно ограничивает массовое использование беспилотников, поскольку каждому БПЛА нужен отдельный оператор.
Системы машинного зрения снимают такое ограничение. Они позволяют отправлять сотни и тысячи дронов по указанным маршрутам, а оператор обращает внимание только на сигналы тревоги, которые срабатывают при распознавании определённых признаков. Уже разработаны такие системы автоматического патрулирования объектов для обнаружения пожаров, повреждений трубопровода и др. В 2010 году для правоохранительных органов разработана система с идентификацией «заброшенных объектов», то есть сумок и пакетов, оставленных в общественных местах. Система автоматического распознавания насилия — следующий логичный шаг, позволяющий использовать БПЛА для патрулирования скоплений людей и общественных мест.
В 2009 году опубликована научная работа с описанием системы машинного зрения для автоматического распознавания преступлений в общественных местах с помощью анализа движений. Она с точностью около 85% определяет такие действия как выхват кошелька у прохожего, похищение ребёнка и др.
Такие системы очень успешны в выявлении различных преступных действий. Несмотря на впечатляющую точность (в некоторых случаях более 90% точности) у них весьма ограниченная сфера действия.
В 2014 году исследователи предложили первую систему для БПЛА для автоматического распознавания насилия в общественных местах, первую в своём роде систему, которая использовала модель деформируемых частей для оценки позы человека с дальнейшей идентификацией подозрительных лиц по их позам. Это чрезвычайно сложная задача машинного зрения, потому что фотографии и видео с дрона могут страдать от изменения освещения, теней, низкой детализации и размытия. Кроме того, люди появляются в разных местах кадра и в разных положениях. Система определяла насилие с точностью около 76%, что гораздо ниже, чем у узкоспециализированных систем, описанных выше.
Новая разработка учёных из Кембриджского университета (Великобритания), Национального технологического института (Индия) и Индийского института наук в Бангалоре представляет улучшенную систему автономного распознавания насилия в реальном времени с применением признаковой пирамиды (feature pyramid network, FPN), гибридной сети глубокого обучения ScatterNet (ScatterNet Hybrid Deep Learning, SHDL) и расчётом ориентации между конечностями расчётной позы с помощью во вспомогательной векторной машине (support vector machine, SVM). Детально работа конвейера распознавания показана на иллюстрации.
Конвейер предсказания позы человека, который можно использовать для предсказания насилия в скоплениях людей и общественных местах. Фреймворк сначала распознаёт людей на кадрах, снятых камерой беспилотника. Фрагменты фотографий с изображениями людей поступают в качестве входных данных для сети SHDL, где на фронтенде работает ScatterNet для извлечения с входных изображений описанных вручную признаков. Извлечённые признаки с трёх слоёв объединяются и подаются на вход четырём свёрточным слоям регрессионной сети, которая работает на бэкенде.
Средняя точность распознавания насилия в новой системе составляет 88,8%, в том числе ударов рукой — 89%, ногой — 94%, стрельбы — 82%, удушения — 85%, а колющих ударов ножом — 92%. Это значительно выше, чем у предыдущей системы 2014 года.
Научная статья опубликована 3 июня 2018 года на сайте препринтов arXiv.org и будет представлена на конференции IEEE по компьютерному зрению и распознаванию образов IEEE Computer Vision and Pattern Recognition (CVPR) Workshops 2018.
Автор: alizar