Рубрика «обработка изображений» - 87

display crrects instead of glasses Get Ready to Say Goodbye to Using Reading Glasses on Computers, Tablets, Smartphones

На днях в Сети появилась интересная информация о совместной разработке MIT и Университета Беркли. Объединенная команда разработчиков создала прототип дисплея, который будет автоматически подстраиваться под уровень зрения человека.

То есть в оптических очках нет нужды — изображение на дисплее будет автоматически подстраиваться таким образом, чтобы человек видел четкое изображение.

Алгоритм «понимает», каким путем определенное расстройство зрения у человека приводит к искажению обычной «картинки», и корректирует изображение соответствующим образом. В световом фильтре, размещаемом на дисплее, есть небольшие отверстия. И алгоритм, изменяя светимость каждого пикселя, позволяет подавать световые лучи на сетчатку глаза таким образом, чтобы на роговице глаза создавалось четкое изображение.

Читать полностью »

Вместо введения

Продолжаю вести серию отчетов по исследовательской работе, которую проводил на протяжении нескольких месяцев, обучаясь в университете и в первые месяцы после защиты диплома. За все время работы многие элементы системы, которую разрабатывал, прошли переоценку и вектор работы в целом серьезно изменился. Тем интереснее было взглянуть на свой предыдущий опыт и опубликовать нигде не изданные ранее материалы с новыми замечаниями В данном отчете публикую материалы, почти 2-х летней давности со свежими дополнениями, которые надеюсь еще не потеряли свою актуальность.

Содержание:

1. Поиск и анализ цветового пространства оптимального для построения выделяющихся объектов на заданном классе изображений
2. Определение доминирующих признаков классификации и разработка математической модели изображений мимики"
3. Синтез оптимального алгоритма распознавания мимики
4. Реализация и апробация алгоритма распознавания мимики
5. Создание тестовой базы данных изображений губ пользователей в различных состояниях для увеличения точности работы системы
6. Поиск оптимальной аудио-системы распознавания речи на базе открытого исходного кода
7. Поиск оптимальной системы аудио распознавания речи с закрытым исходным кодом, но имеющими открытые API, для возможности интеграции
8. Эксперимент интеграции видео расширения в систему аудио-распознавания речи с протоколом испытаний

Цели:

На основе накопленного опыта в предыдущих исследовательских работах, осуществить пробную интеграцию видео-расширения в систему аудио-распознавания речи, провести протоколы испытаний, сделать выводы.

Задачи:

Рассмотреть подробно как можно интегрировать видео-расширение с программы распознавания речи, исследовать сам принцип аудио-видео синхронизации, а также осуществить пробную интеграцию разрабатываемого видео расширения в систему аудио распознавания речи, оценить разрабатываемое решение.

Введение

В ходе проведения предыдущих исследовательских работ были сделаны выводы целесообразности использования аудио-систем распознавания речи на базе открытого и закрытого исходного кода под наши цели и задачи. Как было нами определено: реализация своей собственной системы распознавания речи является очень сложной, трудоемкой и ресурсозатратной задачей, которую сложно выполнить в рамках данной работы. Поэтому нами было решено интегрировать представленную технологию видео-идентификации в системы распознавания речи, которые имеют для этого специальные возможности. Так как системы распознавания речи с закрытым исходным кодом реализованы более качественно и точность распознавания речи в них выше за счет более емкого содержания словника, то поэтому интеграция нашей видео-разработки в их работу следует считать более перспективным направлением, по сравнению с аудио системами распознавания речи на базе открытого исходного кода. Однако же необходимо иметь в виду тот факт, что системы распознавания речи с закрытым исходным кодом часто имеют сложную документацию для возможности интеграции сторонних решений в их работу с серьезными ограничениями использования системы на основе лицензионного соглашения или же это направление является платным, то есть необходимо покупать специальную лицензию на использование речевых технологий, представленных лицензиантом.

Для начала в качестве эксперимента было принято решение попробовать улучшить качество распознавания речи системы распознавания речи Google Speech Recognition API за счет работы нашего разрабатываемого видео расширения. Замечу, что на время проведения испытаний у Google Speech API на базе браузера Chrome еще не было функции распознавания непрерывной речи Google, которая в то время уже встраивалась в технологию распознавания непрерывной речи Speech Input на базе ОС Android.

В качестве видео обработки за основу взято наше решение по анализу движения губ пользователя и алгоритмам фиксирования фазы движения точек в объекте интереса совместно с аудио обработкой. С тем, что в конечном итоге получилось можно ознакомиться ниже.
image
Читать полностью »

«Путевые» фотографии межпланетной станции Rosetta: с 2005 года по настоящее время
Это не фотография, а рисунок, фантазия художника. Фотографии — под хабракатом.

Межпланетная станция Rosetta с зондом Filae на борту находится уже примерно в 3 тысячах километров от своей цели, кометы Чурюмова-Герасименко. Напомню, именно на эту комету запланирована высадка зонда в начале августа. Как уже ранее писали на Хабре, Rosetta сделала наиболее подробные снимки кометы Чурюмова-Герасименко, и после анализа фотографий оказалось, что ядро у кометы — двойное.

Интересно еще и то, что кроме непосредственной свой задачи — изучения ядра кометы, подробного фотографирования кометы и всего прочего, станция Rosetta выполняла и побочные задания. Например, фотографировала многие интересные объекты, начиная с 2005 года (момент запуска станции), и заканчивая этим месяцем. В продолжении — галерея этих фотографий с описанием каждой.

Читать полностью »

В Псковской области много лесов, и, соответственно, в теплое время года много пожаров — горят и сами леса, и торфяники. Людей, чтобы отследить такие массивы, не хватает.

Что делают псковичи? Лезут на сотовые вышки и ставят там видеокамеры:
Мониторинг лесных пожаров
Читать полностью »

Проект McMoon: новые технологии дают второе рождение фотографиям Луны программы Lunar Orbiter 60 х годов
Исходная фотография 60-х и ее современная инкарнация

В 1960-х годах агентство NASA запустило программу Lunar Orbiter, цель которой — найти пригодные для посадки площадки на Луне, которые использовались экспедициями Apollo. В частности, данными программы Lunar Orbiter воспользовались и для планирования посадки модуля Apollo-11, с двумя людьми, которые и стали первыми представителями человечества на Луне.

Каждый из аппаратов Lunar Orbiter был оснащен особой двухобъективной камерой. Пока один объектив получал изображение поверхности большой площади, второй снимал мелкие детали поверхности. В проекте использовалась 70мм пленка, которая, в теории, позволяла получить очень качественные фотографии.

Тем не менее, пленка на Землю не попала — по плану, аппараты Lunar Orbiter, по завершению своей миссии, падали на Луну. Каждый аппарат был оснащен еще и модулем проявления пленки, и передачи данных на Землю. В итоге, как и следовало ожидать, качество фотографий, получаемых на Земле, было хуже, чем в случае непосредственной работы с пленкой. Помехи, наводки, огромное расстояние — все это приводило к ухудшению качества сигнала, и, соответственно, получаемых на Земле изображений.

Читать полностью »

Существует достаточно широкий круг задач, где требуется анализ, аудио-визуальных моделей реальности. Это относится и к статическим изображениям, и к видео.

image

Ниже приведен не большой обзор некоторых существующих методов поиска и идентификации нечетких дубликатов видео,
рассмотрены их преимущества и недостатки. На основе структурного представления видео построена комбинация методов.
Обзор совсем не большой, за подробностями, лучше обращаться к первоисточникам.

Читать полностью »

image

Mozilla выпустила новую версию кодера для JPEG-изображений mozjpeg, пишет TechCrunch. Новая версия уже тестируется на facebook.com, и Facebook пожертвовал Mozilla 60 000 долларов на продолжение работы над этим проектом.

Когда дело доходит до графических форматов в интернете, PNG и JPEG — в значительной степени единственные два варианта. На протяжении многих лет такие компании, как Microsoft и Google, разрабатывали свои собственные форматы, но ни один из них не прижился. Google использует свой формат WebP на собственных сайтах для пользователей Chrome, но он получил малое распространение за пределами Маунтин-Вью.

Mozilla обещает, что версия 2.0 её кодировщика уменьшает размер файла, как базовых (baseline), так и прогрессивных (progressive) JPEG-файлов в среднем на 5 %. В зависимости от изображения, процент может быть значительно выше (до 15 %) или чуть ниже. В отличие от первой версии, эффект которой был виден только на прогрессивных JPEG, новая версия также улучшает изображения, сохранённые в базовом формате.
Читать полностью »

Цели:

Увеличить точность нахождения области губ разрабатываемой системы для пользователей с различными типами лица, цвета кожи, особенностей строения губ, характеристикам окружающей среды, освещения и так далее.

Задачи:

Провести фотографирования вариаций губ пользователей в различных положениях для увеличения точности системы ручным способом. Реализовать библиотеку базы данных системы по различным типам губ в движении на основе свободной системы управления базами данных (СУБД).

Введение

В предыдущих отчетах мною были проанализированы различного рода цветовые пространства, оптимальные для выделения объектов на заданном классе изображениях. Были исследованы различные алгоритмы распознавания человеческого лица и его характеристик. Также рассмотрены разного рода математические модели, которые могут использоваться для обработки визуальных данных в режиме реального времени. На основе проведенного исследования был реализован свой собственный алгоритм нахождения области губ. Однако точность активной контурной модели интересуемого объекта в представленном решении не всегда соответствует действительности. Так как перед нами стоит задача реализовать пользовательский продукт, то для увеличения точности модульного визуального решения в данном научном исследовании перед нами стоит задача собрать библиотеку данных по различным типам губ пользователей.

1. Фотографирование вариаций губ с разными типами лиц.

Так как представленной системе по разным причинам не всегда удавалось правильно провести локализацию области губ самостоятельно, то для того чтобы технология стала более эффективной было решено исследовать разные типы губ пользователей вручную, чтобы занести исходные данные на следующем этапе в базу данных системы.

Для осуществления данной задачи тестирования было проанализировано движение губ 18 пользователей. Исходные данные были сфотографированы вручную. Рисунок 1 демонстрирует лица пользователей с местом локализации области губ во время произношения речи.

image
image
Читать полностью »

С технической точки зрения, книги – это самые плохие объекты для сканирования, и если бы они были изобретены в наши дни, то представляли бы собой бесконечно длинные свитки. Если бы так случилось, необходимости в планетарных сканерах не было бы вовсе.

Сегодня мы расскажем о характеристиках планетарных сканеров, — параметрах, определяющих и оправдывающих существование в этом мире данного типа оборудования. Планетарные сканеры созданы для бесконтактной высококачественной оцифровки самых разных оригиналов: сшитых и расшитых документов, документов с толстым корешком, ценных, ветхих; а также тканей, орденов, монет и т.п. Планетарный (проекционный) способ сканирования – это сканирование сверху вниз, так сказать, с головы.

Пристальный взгляд

Изнутри сканирующая «голова» выглядит так:

image

В ней находится один или несколько светочувствительных сенсоров, оптическая система с приводом настройки фокуса, контроллер управления. В отдельных моделях присутствует модуль лазерного дальномера и привод управления «следящей» системой освещения, а также «мозги». Однако, в сканере самое главное это все-таки не мозг, а «глаза».
Читать полностью »

Цели:

Определить наиболее оптимальный алгоритм под задачи распознавания мимики человеческого лица, рассмотреть способы его реализации.

Задачи:

Провести анализ существующих алгоритмов распознавания мимики, учитывая определённые нами доминирующие признаки классификации и математической модели. На основании полученных данных выбрать оптимальный вариант алгоритма для последующей его реализации и апробации.

Введение

В предыдущих научных отчётах была разработана математическая модель распознавания мимики, и был синтезирован алгоритм распознавания мимики. Существуют два подхода в распознавании мимики – использование деформируемой модели на области губ и выхватывание векторных признаков области губ с последующим их анализом с помощью алгоритмов на основе гауссовых смесей. Для реализации распознавания мимики необходимо выбрать оптимальный алгоритм.

1. Алгоритмы распознавания человеческого лица:

1.1 Алгоритмы, основанные на деформируемой модели.

Деформируемая модель (deformable template model) – это шаблон некоторой формы (для двумерного случая — открытая либо замкнутая кривая, для трехмерного — поверхность). Наложенный на изображение, шаблон деформируется под воздействием различных сил, внутренних (определенных для каждого конкретного шаблона) и внешних (определенных изображением, на которое наложен шаблон) — модель меняет свою форму, подстраиваясь под входные данные [1]. Исходная грубая модель губ деформируется под действием силовых полей, заданных входным изображением (Рис.1).
image
Основное преимущество над традиционными методами поиска, такими как преобразование Хафа (Hough transform [2]), в которых шаблон для поиска задается жестко, заключается в том, что деформируемые модели в процессе работы могут менять свою форму, позволяя более гибко осуществлять поиск объекта [3].

Основной недостаток деформируемых моделей [4] заключается в необходимости проведения большого числа итераций над большим количеством кадров, что значительно нагружает систему, но при вынесении основных вычислений в облако можно разгрузить систему.

Деформируемые модели можно классифицировать по типу ограничений, накладываемых на их форму, на два вида: деформируемые модели свободной формы и параметрические деформируемые модели.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js