Слева два человека жмут руки, причем один из них за стеной от камеры. Справа человек в темноте кидает предмет человеку, который звонит по телефону. Снизу — сгенерированная скелетная модель и предсказание действий.
Про радиозрение команды лаборатории CSAIL (Computer Science and Artificial Intelligence Lab) уже писали на Хабре (раз и два), сегодня немного свежих подробностей.
Алгоритм использует радиоволны, а не видимый свет, чтобы определить, что люди делают, не показывая, как они выглядят.
Машинное зрение имеет впечатляющий послужной список. Оно обладает сверхчеловеческой способностью распознавать людей, лица и предметы. Оно может даже распознавать различные виды действий, хотя и не так хорошо, как люди.
Но его производительность ограничена. Особенно трудно машинному зрению тогда, когда люди, лица или предметы частично закрыты. И когда уровень освещенности падает до 0, они, как и люди, практически слепы.
Но есть и другая часть электромагнитного спектра, которая не настолько ограничена. Радиоволны заполняют наш мир, будь то ночь или день. Они легко проходят сквозь стены, передаются и отражаются человеческими телами. Действительно, исследователи разработали различные способы использования радиосигналов Wi-Fi, чтобы видеть за закрытыми дверями.
Но у этих систем радиовидения есть некоторые недостатки. Их разрешение низкое, изображения шумные и заполнены отвлекающими переотражениями, что затрудняет понимание происходящего.
В этом смысле радиоизображения и изображения в видимом свете имеют свои дополнительные преимущества и недостатки. И это повышает вероятность использования сильных сторон одного для преодоления недостатков другого.
Познакомьтесь с Tianhong Li и его коллегами из MIT, которые нашли способ научить систему радиовидения распознавать действия людей, обучая ее с помощью изображений в видимом свете. Новая система радиовидения позволяет увидеть, чем занимаются люди в широком диапазоне ситуаций, когда визуализация в видимом свете невозможна. «Мы внедряем модель нейронной сети, которая может обнаруживать действия человека через стены и окклюзии, а также в условиях плохого освещения», — говорят Ли и Ко.
Радиочастотная тепловая карта и RGB изображение записанные параллельно.
Команда использует хитрый трюк. Основная идея заключается в записи видеоизображений одной и той же сцены с использованием видимого света и радиоволн. Системы машинного зрения уже способны распознавать действия человека по изображениям в видимом свете. Поэтому следующий шаг — соотнести эти изображения с радиоизображениями той же сцены.
Архитектура RF-Action. RF-Action определяет человеческие действия по беспроводному сигналу. Извлекает «3д-скелет» для каждого человека из raw-потока беспроводного сигнала (желтый прямоугольник). Затем обнаруживается и распознаются действия из извлеченных последовательностей «скелетов» (зеленое поле). Action Detection Framework также может принимать трехмерные скелеты, сгенерированные из визуальных данных, в качестве входных данных (синий прямоугольник), что позволяет тренироваться как на сгенерированных радиочастотами скелетами, так и на существующих базами данных с распознанными действиями.
Однако трудность заключается в обеспечении того, чтобы процесс обучения был сосредоточен на человеческом движении, а не на других вещах, таких как фон. Поэтому Ли и команда вводят промежуточный этап, на котором машина генерирует 3D модели фигурок, которые воспроизводят действия людей.
«Переводя данные на промежуточное представление на основе скелета, наша модель может учиться как на основе визуальных, так и на основе радиочастотных наборов данных, и позволяет обеим задачам помогать друг другу», — говорят Ли и команда.
Таким образом, система учится распознавать действия в видимом свете, а затем распознавать те же действия, происходящие в темноте или за стенами, с помощью радиоволн. «Мы показываем, что наша модель достигает точности сопоставимой с системами распознавания действий на основе зрения в видимых сценариях, и продолжает работать точно, когда людей не видно», — говорят исследователи.
Это интересная работа, которая имеет значительный потенциал. Очевидное применение — в сценариях, когда изображения в видимом свете невозможны — в условиях низкой освещенности и за закрытыми дверями.
Но есть и другие ситуации. Одна из проблем с изображениями в видимом свете заключается в том, что люди узнаваемы, что вызывает вопросы конфиденциальности.
Но радиосистема не имеет возможности распознавания лиц. Идентификация действий без распознавания лиц не вызывает таких же опасений в отношении конфиденциальности. «Это может принести технологию в дома людей и обеспечить ее интеграцию в системы умного дома», — говорят Ли и Ко. Это может быть использовано, например, для наблюдения за домом пожилого человека и оповещения соответствующих служб о падении. И это произошло бы без особого риска для конфиденциальности.
Это выходит за рамки возможностей современных систем, основанных на зрении.
Результаты
Результат работы в различных сценариях. Видимые сцены:
Частичное или полное перекрытие поля зрения и плохое освещение. Скелеты показаны в виде двухмерных проекций сгенерированной 3д-модели:
- Статья на arXiv.org: Making the Invisible Visible: Action Recognition Through Walls and Occlusions
Мы, пожалуй, самый сильный в России центр компетенций по разработке автомобильной электроники. Сейчас активно растем и открыли много вакансий (порядка 30, в том числе в регионах), таких как инженер-программист, инженер-конструктор, ведущий инженер-разработчик (DSP-программист) и др.
У нас много интересных задач от автопроизводителей и концернов, двигающих индустрию. Если хотите расти, как специалист, и учиться у лучших, будем рады видеть вас в нашей команде. Также мы готовы делиться экспертизой, самым важным что происходит в automotive. Задавайте нам любые вопросы, ответим, пообсуждаем.
Читать еще полезные статьи:
- McKinsey: переосмысляем софт и архитектуру электроники в automotive
- Очередная война операционок уже идет под капотом автомобилей
- Программный код в автомобиле
- В современном автомобиле строк кода больше чем…
Автор: Itelma