Год назад Google сваял платформу Cloud Vision API. Идея платформы — предоставить технологии Computer Vision, в которых Google является безусловным лидером, как сервис. Пару лет назад под каждую задачу существовала своя технология. Нельзя было взять что-то общее и добиться, чтобы алгоритм решал всё. Но Google замахнулся. Вот, прошёл уже год. А технология всё так же не на слуху. На хабре одна статья. Да и та ещё не про Cloud Vision api, а про Face api, которое было предшественником. Англоязычный интернет тоже не пестрит статьями. Разве что от самого Google. Это провал?
Мне было интересно посмотреть что это такое ещё весной. Но сил полноценно посидеть не хватало. Изредка что-то отдельное тестировал. Периодически приходили заказчики и спрашивали, почему нельзя применить Cloud Api. Приходилось отвечать. Или наоборот, отсылать с порога в этом направлении. И внезапно понял, что материала на статью уже достаточно. Поехали.
Читать полностью »
Рубрика «computer vision» - 11
Google Cloud Vision API. Будущее Computer Vision as a service настало?
2016-10-19 в 21:23, admin, рубрики: Clarifai, Cloud sight, cloud vision api, computer vision, dlib, face detection, Google API, google cloud, label detection, Landmark Detection, machine learning, Microsoft Azure, Microsoft recognition api, ocr, visual search, Алгоритмы, Анализ и проектирование систем, машинное обучение, обработка изображений, метки: cloud vision api, Google cloudО новых успехах противостояния (СР УВЧ!*)
2016-09-21 в 23:04, admin, рубрики: computer vision, deep learning, DOOM, DQN, LSTM, reinforcement learning, Алгоритмы, машинное обучение, обработка изображенийПару дней назад появилась статья которую почти никто не освещал. На мой взгляд она замечательная, поэтому я про неё расскажу в меру своих способностей. Статья о том, чего пока не было: машину научили играть в шутер, используя только картинку с экрана. Вместо тысячи слов:
Не идеально, но по мне — очень классно. 3D шутер, который играется в реальном времени — это впервые.
Читать полностью »
Использование камеры Microsoft Kinect 360 в ROS Indigo
2016-08-15 в 9:18, admin, рубрики: computer vision, depth, depth map, Kinect, openni, pcl, rgbd, ROS, робототехникаДобрый день, уважаемые хабрачитатели!
Последние наблюдения и собственный опыт показали, что с подключением камеры Microsoft Kinect Xbox 360 для ее использования в ROS Indigo из под Ubuntu 14.04 часто возникают проблемы. В частности, при запуске ROS пакета openni_launch не удается определить устройство и выдается ошибка «No device connected». В этой статье я опишу свой пошаговый метод настройки окружения для использования Microsoft Kinect из ROS Indigo. Кто заинтересован, прошу под кат!Читать полностью »
Стилизация изображений с помощью нейронных сетей: никакой мистики, просто матан
2016-08-09 в 12:59, admin, рубрики: artisto, computer vision, convolutional neural network, deconvolutional neural network, lasagne, math, neural networks, no magic, python, style transfer, theano, Алгоритмы, Блог компании Mail.Ru Group, математика, машинное обучение, обработка изображений, метки: neural networksПриветствую тебя! Наверняка вы заметили, что тема стилизации фотографий под различные художественные стили активно обсуждается в этих ваших интернетах. Читая все эти популярные статьи, вы можете подумать, что под капотом этих приложений творится магия, и нейронная сеть действительно фантазирует и перерисовывает изображение с нуля. Так уж получилось, что наша команда столкнулась с подобной задачей: в рамках внутрикорпоративного хакатона мы сделали стилизацию видео, т.к. приложение для фоточек уже было. В этом посте мы с вами разберемся, как это сеть "перерисовывает" изображения, и разберем статьи, благодаря которым это стало возможно. Рекомендую ознакомиться с прошлым постом перед прочтением этого материала и вообще с основами сверточных нейронных сетей. Вас ждет немного формул, немного кода (примеры я буду приводить на Theano и Lasagne), а также много картинок. Этот пост построен в хронологическом порядке появления статей и, соответственно, самих идей. Иногда я буду его разбавлять нашим недавним опытом. Вот вам мальчик из ада для привлечения внимания.
Команда Itseez снова работает в Intel
2016-05-31 в 8:09, admin, рубрики: computer vision, itseez, Блог компании Intel, дополненная реальность, Интернет вещей, робототехника
Корпорация Intel объявила о покупке ей нижегородской компании Itseez, занимающейся разработкой систем компьютерного зрения для самых различных применений и основанной в 2005 год бывшими сотрудниками Intel. В недавнем домашнем тестировании камеры RealSense мы упоминали один из продуктов компании (точнее, ее спин-офф) — программу для 3D-сканирования itSeez3D. В портфеле Itseez есть и другие разработки, например, система помощи водителю Читать полностью »
Structure from motion
2016-05-30 в 4:44, admin, рубрики: computer vision, essential matrix, fundamental matrix, Structure from motion, Алгоритмы, математика, обработка изображений
Если посмотреть на последовательность кадров, в которых движется камера, то мозг легко воспринимает геометрическую структуру содержимого. Однако, в компьютерном зрении это не тривиальная проблема. В этой статье я постараюсь описать возможное решение этой задачи.
Читать полностью »
Заметки с MBC Symposium: применение deep learning в моделировании мозга
2016-04-23 в 7:02, admin, рубрики: computer vision, deep learning, neuroscience, машинное обучение, обработка изображенийПосетил Стенфордский симпозиум, посвященный пересечению deep learning и neurosciencе, получил массу удовольствия.
Рассказываю про интересное — например, доклад Дэна Яминса о применении нейросетей для моделирования работы зрительной коры головного мозга.
Vision-based SLAM: стерео- и depth-SLAM
2016-03-11 в 10:16, admin, рубрики: computer vision, depth vision, Kinect, SLAM, stereo vision, Блог компании Singularis, обработка изображений, Разработка робототехникиПосле небольшого перерыва мы продолжаем серию статей-уроков по SLAM. В предыдущих выпусках мы подготовили программное окружение, а также поработали с монокулярным SLAM. Под катом – урок по использованию SLAM на основе стереокамеры и камеры глубины. Мы расскажем о настройке пакетов и оборудования и дадим советы по использованию двух ROS-пакетов: ставшего традиционным RTAB-Map и свежего вкусного ElasticFusion.
Vision-based SLAM: монокулярный SLAM
2016-02-19 в 8:53, admin, рубрики: computer vision, SLAM, Блог компании Singularis, обработка изображений, Разработка робототехники Продолжаем серию статей-уроков по визуальному SLAM уроком о работе с его монокулярными вариантами. Мы уже рассказывали об установке и настройке окружения, а также проводили общий обзор в статье о навигации квадрокоптера. Сегодня попробуем разобраться, как работают разные алгоритмы SLAM, использующие единственную камеру, рассмотрим их различия для пользователя и дадим рекомендации по применению.
Читать полностью »
Постановка задачи компьютерного зрения
2016-01-13 в 0:36, admin, рубрики: computer vision, image processing, image recognition, machine learning, opencv, Алгоритмы, Анализ и проектирование систем, Компьютерное зрение, машинное обучение, обработка изображений, разработка, распознавание образов, распознавание текста, метки: image recognition
Последние лет восемь я активно занимаюсь задачами, связанными с распознаванием образов, компьютерным зрением, машинным обучением. Получилось накопить достаточно большой багаж опыта и проектов (что-то своё, что-то в ранге штатного программиста, что-то под заказ). К тому же, с тех пор, как я написал пару статей на Хабре, со мной часто связываются читатели, просят помочь с их задачей, посоветовать что-то. Так что достаточно часто натыкаюсь на совершенно непредсказуемые применения CV алгоритмов.
Но, чёрт подери, в 90% случаев я вижу одну и ту же системную ошибку. Раз за разом. За последние лет 5 я её объяснял уже десяткам людей. Да что там, периодически и сам её совершаю…
В 99% задач компьютерного зрения то представление о задаче, которое вы сформулировали у себя в голове, а тем более тот путь решения, который вы наметили, не имеет с реальностью ничего общего. Всегда будут возникать ситуации, про которые вы даже не могли подумать. Единственный способ сформулировать задачу — набрать базу примеров и работать с ней, учитывая как идеальные, так и самые плохие ситуации. Чем шире база-тем точнее поставлена задача. Без базы говорить о задаче нельзя.
Тривиальная мысль. Но все ошибаются. Абсолютно все. В статье я приведу несколько примеров таких ситуаций. Когда задача поставлена плохо, когда хорошо. И какие подводные камни вас ждут в формировании ТЗ для систем компьютерного зрения.
Читать полностью »