Представлем вашему вниманию перевод статьи «PIFR: Pose Invariant 3D Face Reconstruction».
Во многих реальных приложениях, включая обнаружение и распознавание лиц, генерацию 3D-смайликов и стикеров, геометрию лица необходимо восстанавить из плоских изображений. Однако эта задача остается трудной, особенно когда большая часть информации о лице непознаваема.
Цзян и Ву из Университета Цзяннань (Китай) и Киттлер из Университета Суррея (Великобритания) предлагают новый алгоритм 3D-реконструкции лица — PIFR, который значительно увеличивает точность воссоздания даже в сложных позах.
Но давайте сперва кратко рассмотрим предыдущие работы по 3D-маскам и реконструкции лица.
State-of-the-art исследования
Авторы упоминают четыре общедоступные метода морфирования 3D-маски:
- модель БМЛ, предложенная Базельским университетом;
- модели 3DMM, разработаны Брантон и другими;
- 3D модель лица с мульти-разрешением, предоставленная университетом Суррея (Великобритания);
- крупномасштабная модель лица (КММЛ), созданная Имперским колледжем.
В статье используется модель БМЛ, которая является наиболее популярной.
Есть несколько подходов к воссозданию 3D модели из плоского изображения, в том числе:
- метод каскадной регрессии;
- комбинирование обнаружения лэндмарок лица и 3D реконструкции лица, а также индексация признаков для построения древовидной регрессионной модели;
- метод нормализации выражения и положения лица;
- расширение 3DMM (E-3DMM), которое учитывает изменение выражения лица;
- взвешенная подгонка лэндмарок 3DMM на основе традиционного метода регрессии.
Предлагаемый метод — PIFR
В статье Цзян, Ву и Китлера предлагается новый алгоритм постановки инвариантного 3D-воссоздания лица — ПИВЛ (Pose-Invariant 3D Face Reconstruction — PIFR), основанный на методе 3DMM.
Во-первых, авторы предлагают генерировать фронтальное изображение, нормализуя одно входное изображение лица. Этот шаг позволяет восстановить дополнительную идентификационную информацию лица.
Следующим шагом является использование взвешенной суммы 3D-признаков двух изображений: фронтального и исходного. Это позволяет не только сохранить позу исходного изображения, но и расширить идентификационную информацию.
Схема предлагаемого подхода:
Эксперименты показывают, что алгоритм ПИВЛ значительно улучшил производительность 3D воссоздания лица по сравнению с предыдущими методами, особенно в сложных позах.
Рассмотрим предложенную модель подробнее.
Описание метода
Метод ПИВЛ в значительной степени опирается на процесс подгонки 3DMM, который можно выразить как минимизацию ошибки вычисления координат 3D-проекций ключевых точек. Однако лицо, созданное 3D-моделью, имеет около 50 000 вершин, и поэтому итерационные вычисления приводят к медленной и неэффективной сходимости.
Чтобы преодолеть эту проблему, исследователи предлагают использовать ключевые точки (например, центр глаза, угол рта и кончик носа) в качестве основной истины в процессе подгонки маски. В частности, используется взвешенный ориентир 3DMM подгонки.
Верхний ряд: исходное избражение и ориентир. Нижний ряд: 3D-модель лица и ее выравнивание на 2D-изображении
Следующая задача — воссоздать 3D-маску лица на крупном плане. Чтобы решить эту проблему, исследователи используют метод высокоточной нормализации позы и выражения (ВНПВ), но для нормализации только позы, а не выражения лица. К тому же, редактирование Пуассона применяется для восстановления области лица, закрытой из-за угла обзора.
Сравнение производительности с другими методами
Результативность метода ПИВЛ была оценена для воссоздания лица:
- в малых и средних позах;
- крупные планы;
- сложные позы (углы отклонения ±90).
Для этого исследователи использовали три общедоступных датасета:
- Набор данных AFW, созданный с помощью Flickr изображений, содержит 205 изображений с 468 отмеченными лицами, сложными фонами и позами лица.
- Набор данных LFPW, содержащий 224 изображения лиц в тестовом наборе и 811 изображений лиц в наборе обучения; каждое изображение помечено 68 характерными точками; 900 изображений из обоих наборов были выбраны для тестирования в этом исследовании.
- Набор данных AFLW-это крупномасштабная база данных лиц, которая содержит около 250 миллионов изображений, помеченных вручную, и каждое изображение помечено 21 точкой особенности. В этом исследовании для качественного анализа использовались только изображения в сложных положениях лица из этого набора данных.
Количественный анализ
Используя Среднюю Евклидову Метрику (СЕМ), в исследовании сравнивается производительность метода PIFR с E-3DMM и FW-3DMM в наборах данных AFW и lfpw. Кривые распределения накопленных ошибок (РНО) выглядят следующим образом:
Сравнение кривых распределения накопленных ошибок (РНО) в наборе данных AFW и LFPW
Как видно из этих графиков и таблиц ниже, метод ПИВЛ показывает превосходную эффективность по сравнению с двумя другими методами. Особенно хороша это эффективность воссоздания для крупных планов.
Качественный анализ
Метод также был оценен качественно на основе фотографий лица в разном положении из набора данных AFLW. Результаты показаны на рисунке ниже.
Сравнение 3D-воссоздания лица: (a) исходное изображение; (b) FW-3DMM; (с) E-3DMM; (d) предлагаемый подход
Даже если половина ориентиров не видны из-за нетривиальной позы, что приводит к большим ошибкам и провалам других методов, метод PIFR всё еще хорошо работает.
Ниже приведены дополнительные примеры эффективности метода ПИВЛ на основе изображений из набора данных AFW.
Верхний ряд: ввод 2D-изображения. Средний ряд: 3D-маска. Нижний ряд: выравнивание маски
Итог
Новый алгоритм реконструкции лица ПИВЛ дает хорошие результаты воссоздания даже в сложных позах. Принимая как исходные, так и фронтальные изображения для взвешенного слияния, метод позволяет восстановить достаточно информации о лицах для воссоздания 3D-маски.
В дальнейшем исследователи планируют восстановить еще больше информации о лице, чтобы повысить точность воссоздания маски.
Перевел — Фарид Гасратов
Автор: Neurohive