Метка «Компьютерное зрение» - 2

Сегодня Яндекс запустил поиск картинки по загруженному изображению. В этом посте мы хотим рассказать о технологии, которая стоит за этим сервисом, и о том, как её делали.

Технология внутри Яндекса получила название «Сибирь». От CBIR — Content-Based Image Retrieval.

Конечно, сама по себе задача не нова, и ей посвящено множество исследований. Но сделать прототип, работающий на академической коллекции, и построить промышленную систему, которая работает с миллиардами изображений и большим потоком запросов — очень разные истории.

Яндекс, роботы и Сибирь — как мы сделали систему поиска по загруженному изображению

Для чего всё это нужно?

Есть три сценария, при которых нужен поиск по загруженной картинке и которые нам и нужно было научиться обрабатывать.
Читать полностью »

Фасеточные глаза, состоящие из множества узких светочувствительных конусов, называемых омматидиями, характерны для насекомых и ракообразных. Хотя они имеют меньшее разрешение, чем глаза позвоночных, у них есть ряд преимуществ — они менее инерционны (некоторые насекомые способны воспринимать мелькания с частотой до 300 Гц ), не требуют фокусировки и могут различать не только цвет но и направление поляризации света. Команда учёных из Федеральной политехнической школы Лозанны (EPFL) создала прототип искусственного фасеточного глаза, который использует преимущества такой конструкции.

Швейцарские учёные разработали искусственный фасеточный глаз
Читать полностью »

Учёные разрабатывают робота ищейку для пожарныхИсследователи из Калифорнийского университета в Сан-Диего разработали прототип двухколёсного робота для разведки и поиска людей во время пожара. Предполагается, что робот будет недорогим, быстрым и простым в использовании, кроме того, подобно своре опытных охотничьих собак, несколько роботов смогут совместно обследовать горящее здание, за считанные минуты составляя трёхмерную карту помещений и обнаруживая людей, заблокированных в здании пожаром.

Робот напоминает электросамокат Сигвей, но в отличие от него умеет преодолевать ступеньки и довольно высокие препятствия. Это достигается простым и элегантным инженерным решением: “туловище” робота представляет собой плоскую доску, которая может двигаться вверх и вниз относительно шасси. Выдвигаясь, нижний конец этой доски поднимает шасси робота в воздух, причём, чтобы удержать равновесие, робот балансирует колёсами, используя их как силовые гироскопы. Как только колёса поднимаются на нужную высоту, робот опирается ими о препятствие и подтягивает “туловище” вверх.
Читать полностью »

Качество систем распознавания лиц наконец-то достигло уровня, когда можно обойтись вообще без каких-либо дополнительных идентификаторов личности, уверены основатели Uniqul. С помощью их платёжной системы можно будет расплатиться за купленный товар или услугу, просто подойдя к терминалу и нажав кнопку «ОК», после того как система узнает вас в лицо. Весь процесс оплаты занимает меньше 5 секунд. Первые терминалы Uniqul скоро должны появиться в Хельсинки. По словам представителей Uniqul, их система распознавания уверенно различает даже идентичных близнецов.


Читать полностью »

Год назад в лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института разработали технологию, которая позволяет измерить пульс человека по видео. Алгоритм усиливает мельчайшие изменения цвета лица, связанные с притоком и оттоком крови во время каждого удара сердца. Теперь учёные продвинулись гораздо дальше — новый алгоритм позволяет измерять пульс, даже если видео сильно зашумлено, человек стоит спиной к камере или носит маску.

Компьютерное зрение позволяет увидеть пульс человека, даже если он носит маску
Читать полностью »

В Массачусетском технологическом институте разработали программу для тренировки навыков общения. Она работает на обычном компьютере с веб-камерой. Программа выводит на экран трёхмерный анимированный персонаж, который «общается» с человеком и задаёт ему вопросы. Программа использует компьютерное зрение и распознавание речи, чтобы поддерживать визуальный контакт с человеком. Но самое интересное начинается потом. Программа воспроизводит запись разговора, сопровождая её подробными данными о жестах, смене выражений лица, тембре и интонациях голоса, частоте использования слов-паразитов вроде «вобщем», «как-бы», «ну». Это позволяет не просто взглянуть на себя со стороны, но и вывести на сознательный уровень все те признаки, по которым люди составляют интуитивное впечатление о собеседнике.

Система компьютерного зрения, разработанная в MIT, позволяет успешнее проходить собеседования

Читать полностью »

В Fujitsu создали прототип естественного интерфейса, который распознаёт жесты и прикосновения с помощью обычной веб-камеры. Система компьютерного зрения отслеживает контуры пальцев и их высоту над рабочей поверхностью. Благодаря этому можно «выделять» фрагменты текста и изображений в бумажном документе пальцем точно так же, как это делается на устройствах с тачскрином. Выделенные фрагменты мгновенно сканируются и проецируются на рабочую поверхность, после чего их можно перемещать и масштабировать с помощью жестов и прикосновений. В отличие от Kinect или интерактивных досок здесь не требуются никакие специальные сенсоры, датчики или маркеры.


Читать полностью »

Регуляризация в ограниченной машине Больцмана, эксперимент Привет. В этом посте мы проведем эксперимент, в котором протестируем два типа регуляризации в ограниченной машине Больцмана. Как оказалось, RBM очень чувствительна к параметрам модели, таким как момент и локальное поле нейрона (более подробно обо всех параметрах можно прочитать в практическом руководстве в RBM Джеффри Хинтона). Но мне для полной картины и для получения шаблонов наподобие таких вот, не хватало еще одного параметра — регуляризации. К ограниченным машинам Больцмана можно относиться и как к разновидности сети Маркова, и как к очередной нейроной сети, но если копнуть глубже, то будет видна аналогия и со зрением. Подобно первичной зрительной коре, получающей информацию от сетчатки через зрительный нерв (да простят меня биологи за такое упрощение), RBM ищет простые шаблоны во входном изображении. На этом аналогия не заканчивается, если очень малые и нулевые веса интерпретировать как отсутствие веса, то мы получим, что каждый скрытый нейрон RBM формирует некоторое рецептивное поле, а сформированная из обученных RBM глубокая сеть формирует из простых образов более комплексные признаки; чем-то подобным, в принципе, и занимается зрительная кора головного мозга, правда, вероятно, как то посложнее =)

Читать полностью »

Удаление лишних людей из видеоролика

Специалисты из Института информатики общества Макса Планка разработали технологию качественного удаления лишних людей из видеоролика, снятого движущейся камерой. Подобные спецэффекты раньше применялись только в Голливуде, но в будущем соответствующий софт будет доступен для любого компьютера или смартфона.
Читать полностью »

В данной статье представлен алгоритм распознавания пола, обладающий точностью 93.1% [1]. Статья не требует каких-либо предварительных знаний в области обработки изображений или машинного обучения. После прочтения статьи читатель будет в состоянии выполнить рассмотренный алгоритм самостоятельно.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js