Обработать ночные снимки с телефона до уровня профессиональной камеры: челлендж в рамках воркшопа NTIRE 2025

в 10:43, , рубрики: обработка изображений, обработка фотографий, соревнования, фотография, челлендж

Ночная фотография — одна из самых трудных областей обработки изображений. Сложные условия освещения, повышенные шумы и нестандартные цветовые переходы создают серьезные преграды для алгоритмов, ориентированных на дневной сценарий. Однако совместными усилиями теоретиков и практиков возможно создать методы, позволяющие даже для ночных снимков со смартфона поднять качество до уровня профессиональной камеры.

Именно поэтому мы, команда исследователей из AIRI и ИППИ РАН, проводим в рамках воркшопа NTIRE при конференции CVPR 2025 «Night Photography Rendering Challenge 2025», в котором могут принять участие коллективы со всего мира, увлекающиеся наукой о данных и машинным обучением.

Подробности — в тексте ниже.

Обработать ночные снимки с телефона до уровня профессиональной камеры: челлендж в рамках воркшопа NTIRE 2025 - 1

Night Photography Rendering Challenge 2025: новые вызовы 

Фотографии, сделанные ночью, всегда были и остаются серьёзным вызовом, как для оборудования, так и для алгоритмов постобработки. Множественные нестандартные источники света, сложные цветовые переходы, высокий уровень шума — всё это требует тонкой адаптации или даже кардинально новых подходов. Добавьте к этому ограниченные ресурсы мобильных устройств, и становится понятно, что классические алгоритмы могут быть недостаточно эффективны. Именно этой проблемой мы и занимаемся в рамках очередного челленджа на NTIRE при CVPR 2025 — стимулируем развитие передовых методов обработки ночных изображений, совмещая строгость объективных метрик с ценностью человеческого восприятия.

Главные цели челленджа:

  1. Разработать алгоритмы, которые объективно (по таким метрикам, как SSIM, PSNR, LPIPS и др.) приближают «сырые» кадры со Huawei‑смартфона к эталонным Sony‑снимкам.

  2. Сохранить при этом высокий уровень субъективного качества — оценивать, как итоговые изображения воспринимаются реальными людьми (MOS).

  3. Исследовать взаимодействие объективных и субъективных оценок, выявляя, насколько результат «по цифрам» согласуется с тем, как его видит человеческий глаз.

Такой комплексный подход позволит повысить эффективность обработки ночных изображений и вывести на новый уровень качество мобильной съемки в условиях недостаточного освещения.

Метрики и данные

В прошлом году мы уже проводили челлендж, где основной задачей участников была высокохудожественная обработка фотографий в условиях ночной съёмки. Тогда ключевой метрикой выступали субъективные оценки (Mean Opinion Score, MOS): команды соревновались в создании максимально «приятной глазу» картинки, а эксперты и пользователи оценивали визуальную привлекательность итоговых изображений. В 2024 году мы остановились исключительно на MOS и эстетике (подробнее об этом читайте в предыдущей статье на Хабре), сейчас же перед нами стоит принципиально иная цель.

В 2025 году организаторы челленджа (то есть, мы) решили переосмыслить этот подход. Теперь нам важно не просто добиться «красивого» результата, но и достичь максимально возможного сходства с эталонными кадрами, сделанными профессиональной камерой Sony, используя при этом объективные метрики, по которым будут оцениваться результаты на платформе Codalab. Мы планируем использовать распространённые показатели точности реконструкции изображений, такие как SSIM, PSNR, LPIPS и другие, которые могут наилучшим образом отражать степень соответствия результата целевому изображению с камеры.

Участники получают пары сырых (raw) файлов, снятых смартфоном Huawei, и готовых изображений с высококлассной камеры Sony, сопоставленных благодаря оригинальному бим‑сплиттеру — об этом чуть ниже. Задача — разработать алгоритмы, которые преобразуют «сырые» Huawei‑снимки в максимально правдоподобные копии Sony‑фотографий, сохраняя при этом естественный вид и визуальную привлекательность.

Мы не отказываемся и от субъективных оценок: итоговые результаты всё так же будут проверяться с помощью MOS, чтобы убедиться, что обработанные снимки выглядят правдоподобно и действительно нравятся зрителям. Таким образом, в новом формате появляется возможность исследовать взаимосвязь между объективными и субъективными оценками. С одной стороны, мы стремимся к «идеальному» совпадению с Sony‑фотографиями, а с другой — проверяем, насколько такие решения соответствуют человеческим предпочтениям.

Установка

Хочется отдельно остановиться на том, как технически мы собирали фотографии для челленджа. Чтобы изображения каждой сцены, снятые на камеру и телефон, были максимально близки с пространственной точки зрения, мы использовали специальный стеклянно‑зеркальный кубик — «бим‑сплиттер‎» (от англ. beam — луч и split — разделять, то есть, «светоделитель»). Часть граней кубика полностью пропускает свет, а часть — отражает в перпендикулярном направлении. Это позволило нам собрать установку, с помощью которой можно снимать одну и ту же сцену одновременно на телефон и камеру. Детали для крепления конструкции на штативе были распечатаны на 3D‑принтере.

Установка для съемки
Установка для съемки
Собственно, бим-сплиттер

Собственно, бим-сплиттер

Особенности сбора данных

Съемка изображений проходила в ночное время суток, зимой, преимущественно в городской среде на улице (внимательные читатели могут заметить, что все кадры были отсняты в Москве или ближайшем Подмосковье). Наши фотографы придерживались следующих правил:

  • желательно наличие в кадре сложного освещения, множественных источников света: неоновых вывесок, гирлянд, электронных постеров и уличных фонарей;

  • в кадре не должно быть различимых номеров автомобилей и лиц людей;

  • сцены по возможности должны быть разнообразными с точки зрения объектов: парки, аллеи, детские площадки, памятники, арт‑объекты, внутренние дворы, здания различной архитектуры (театры, церкви, музеи, жилые дома); приветствуется разнообразие погодных условий (снег, лужи, лед, трава, асфальт в кадре) и техники съемки: ближний и дальний план, много и мало объектов.

Примеры сцен

Примеры сцен

Также в силу небольшого различия времени съемки у телефона и камеры мы старались избегать попадания в кадр движущихся объектов: прохожих, автомобилей, мигающих гирлянд и вывесок. Тем не менее, нам удалось сделать несколько достаточно близких по структуре кадров, где присутствовали рябь на поверхности реки и падающий снег.

Обработать ночные снимки с телефона до уровня профессиональной камеры: челлендж в рамках воркшопа NTIRE 2025 - 5

Кроме того, для разнообразия было добавлено небольшое количество сцен в помещении.

Обработать ночные снимки с телефона до уровня профессиональной камеры: челлендж в рамках воркшопа NTIRE 2025 - 6

Способ получения ground truth

Для того, чтобы сравнение изображений с двух разных камер было корректным, необходимо добиться наиболее точного сопоставления. Как уже говорилось ранее, установка для сбора данных нивелирует любые эффекты параллакса и окклюзии, оставляя только особенности самих камер, разные поля зрения камер и люфт камер в установке. Но давайте по порядку.

Разработанная установка by design предполагает, что от алгоритма требуется только найти на обоих изображениях пересекающуюся часть кадров и обрезать ее. Однако предварительно нужно привести оба снимка в одно пространственное разрешение, т. е. чтобы один и тот же объект в кадре занимал одинаковое количество пикселей в обоих снимках. Для этого был сначала вручную на калибровочном примере подобран параметр изменения разрешения, который впоследствии был уточнен путем максимизации качества сопоставления основного алгоритма.

Вот так видят калибровочный пример обе камеры

Вот так видят калибровочный пример обе камеры

После того, как мы получили возможность попиксельно сравнивать сходство между изображениями, мы провели следующую процедуру:

  1. Обе сцены перевели в серый цвет. Для сопоставления нас интересует именно структура изображения, а разница в цветопередаче камер может нам помешать

  2. Для кадра, снятого на смартфон, вырезали центральную часть изображения 𝔁, в 4 раза меньше оригинального размера. Тут мы исходили из предположения, что эта часть гарантированно лежит в изображении камеры Sony

  3. С помощью оконной функции для каждого возможного участка сцены Sony посчитали корреляцию Пирсона с выбранным 𝔁. Ту область, где этот коэффициент наибольший, считали областью пересечения.

  4. На данный момент мы получили лишь часть от всего пересечения, поэтому после сопоставления мы пропорционально расширяли координаты сопоставления до тех пор, пока при расширении в каждую сторону мы не упирались в один из концов изображения (см. рисунок ниже)

  5. По расширенным координатам обрезали каждое изображение.

Обработать ночные снимки с телефона до уровня профессиональной камеры: челлендж в рамках воркшопа NTIRE 2025 - 8

В идеальном мире на этом можно было бы остановиться, однако в реальности устройства могут немного вращаться вокруг оптической оси, что приводит к необходимости осуществить небольшое проективное преобразование, обеспечивающее поворот:

  1. Для обоих изображений вычисляются векторы фичей, по которым считается матрица преобразования (подробнее можете прочитать в статье про RANSAC). Тут стоит отметить, что мы ищем способ отображения именно Sony в камеру Huawei, чтобы минимально изменять сырые данные.

  2. Для улучшения стабильности мы для каждой съемочной сессии просчитываем и сохраняем все возможные варианты матриц, а для каждой сцены выбираем ту, которая максимизирует корреляцию.

  3. Чтобы избавиться от черных участков, появившихся после поворотов, и бликов установки, мы обрезаем итоговые изображения, оставляя 2000×2000 пикселей.

Далее для сцен, где произошло движение или возник эффект размытия, мы провели процедуру фильтрации, отсеяв все пары, где корреляция составила менее 0.85. Итоговая средняя точность сопоставления составила 0.93.

Так как наше соревнование посвящено обработке именно сырых изображений, главной сложностью становятся отличия обработки радиальной и тангенциальной дисторсии и наличие демозаикинга. Данные эффекты критически важны при попиксельном сопоставлении, т.е. для предоставления вышеописанного алгоритма необходимо предобрабатывать изображение.

Чтобы позволить участникам самим разработать эффективные методы для этих этапов обработки изображения, мы проводили сопоставления со снимками .jpg, полученными из телефона. Для них уже были скорректированы все вышеописанные эффекты, так что сопоставление ограничивается лишь сравнением коррекций дисторсий между камерами. Впоследствии по обработанным снимкам мы предоставляем алгоритм для сопоставления сырых изображений, для которых участники сами скорректируют эффект дисторсии.

Наглядные структурные отличия сырого и обработанного изображений

Наглядные структурные отличия сырого и обработанного изображений

Организационные вопросы

К участию в «Night Photography Rendering Challenge» допускаются студенты старших курсов бакалавриата, магистранты, аспиранты и в целом любые люди, интересующиеся DL. Мы запланировали две номинации:

  1. Лучшее восстановление по объективным метрикам.

  2. Лучшее восстановление по субъективным оценкам (выбор пользователей на Яндекс.Заданиях).

В каждой из них участников ожидают денежные призы:
1 место — 100 000 ₽
2 место — 65 000 ₽
3 место — 35 000 ₽

Важный момент: все участники станут соавторами отчёта на воркшоп NTIRE, проходящий в рамках конференции CVPR (напомним, она имеет рейтинг A*!). Также все команды могут рассчитывать на консультацию по интересующим их научно‑исследовательским проблемам. А с особо отличившимися исследователями мы будем рады продолжить дальнейшее сотрудничество.

Таймлайн челленджа

07.02.2025 — Публикация обучающего и первого валидационного набора данных

18.02.2025 — Публикация второго валидационного набора данных

21.02.2025 — Дедлайн по отправке решений для второй валидации

23.02.2025 — Публикация результатов по субъективной метрике MOS для второго валидационного набора данных

02.03.2025 — Публикация третьего валидационного набора данных

04.03.2025 — Дедлайн по отправке решений для третьего валидационного набора данных

06.03.2025 — Публикация результатов по субъективной метрике MOS для третьего валидационного набора данных

16.03.2025 — Публикация тестового набора данных

18.03.2025 — Дедлайн по отправке решений для тестового набора данных. Пожалуйста, обратите внимание, что на этом этапе к решению нужно также прикрепить текстовое описание в формате .tex

21.03.2025 — Публикация результатов по субъективной метрике MOS для тестового набора данных

17.06.2025 — Церемония награждения NTIRE workshop and challenges (CVPR 2025, онлайн)

Приглашаем всех желающих принять участие в челлендже и желаем всем удачи!

Автор: createcolor

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js