Рубрика «распознавание объектов»

IDP и OCR в вопросах и ответах: Главное, что нужно знать - 1

Привет! Сегодня прогоним пару телег про то, что из себя представляют IDP и OCR, в чем их принципиальное различие и на чьей стороне правда (и Smart Engines). Без долгих вступлений - погнали!

Скрытый текст

OCR значительно превосходит IDP. И вот почему -

Создаём сортировщик деталей Lego Technic, распознающий объекты в реальном времени - 1


Когда я проходил стажировку в Nullspace Robotics, мне повезло участвовать в проекте, нацеленном на расширение возможностей компании. Мы совместили системы обнаружения объектов и распознавания изображений для создания модели, классифицирующей детали конструктора Lego Technic в реальном времени.

В этой статье я расскажу о том, с какими сложностями столкнулся наш проект, и как мы довели его до успешного завершения.Читать полностью »

Object Detection. Распознавай и властвуй. Часть 1 - 1

Технологии компьютерного зрения позволяют в сегодняшних реалиях сделать жизнь и бизнес проще, дешевле, безопаснее. По оценкам разных экспертов этот рынок будет двигаться в ближайшие годы только в сторону роста, что и позволяет развиваться соответствующим технологиям как в сторону производительности, так и качества. Одним из наиболее востребованных разделов является Object Detection (обнаружение объектов) – определение объекта на изображении или в видео потоке.

Времена, когда обнаружение объектов решалось исключительно путем классического машинного обучения (каскады, SVM...) уже прошли – сейчас в этой сфере царят подходы, основанные на Deep Learning. В 2014 году был предложен подход, существенно повлиявший на последующие исследования и разработки в этой области – R-CNN модель. Последующие его улучшения (в виде Fast R-CNN и Faster R-CNN) сделали его одним из самых точных, что и стало причиной его использования по сей день.

Помимо R-CNN есть еще много подходов реализующих поиск объектов: семейство Yolo, SSD, RetinaNet, CenterNet… Кто-то из них предлагает альтернативный подход, а кто-то развивает текущий в сторону увеличения показателя производительности. Обсуждение почти каждого из них можно вынести в отдельную статью, по причине обилия фишек и ухищрений :)

К изучению предлагаю набор статей с разбором двухступенчатых Object Detection моделей. Умение разбираться в их устройстве приносит понимание базовых идей, применяемых и в других реализациях. В этом посте рассмотрим самую базовую и, соответственно, первую из них – R-CNN.
Читать полностью »

Распознавание танков в видеопотоке методами машинного обучения (+2 видео на платформах Эльбрус и Байкал) - 1

В процессе своей деятельности мы ежедневно сталкиваемся с проблемой определения приоритетов развития. Учитывая высокую динамику развития IT индустрии, постоянно возрастающую востребованность со стороны бизнеса и государства к новым технологиям, каждый раз, определяя вектор развития и инвестируя собственные силы и средства в научный потенциал нашей компании, мы следим за тем, чтобы все наши исследования и проекты носили фундаментальный и междисциплинарный характер.

Читать полностью »

Привет, читатели. Сегодняшний пост будет о том, как не затеряться в дебрях многообразия вариантов использования TensorFlow для машинного обучения и достигнуть своей цели. Статья рассчитана на то, что читатель знает основы принципов работы машинного обучения, но пока еще не пробовал это делать своими руками. В итоге мы получим работающее демо на Андроиде, которое кое-что распознает с довольно высокой точностью. Но обо всем по порядку.

Как разобраться в Tensorflow и не умереть, а даже научить чему-то машину - 1

Читать полностью »

Google помогает Пентагону распознавать изображения с военных дронов - 1

Изданию Gizmodo стало известно от анонимных источников в Google, что среди рядовых сотрудников компании развернулось жаркое обсуждение одного совместного проекта, который Google запускает с Министерством обороны США. Речь идёт о проекте Maven, который Пентагон запустил в апреле 2017 года.

В рамках Project Maven до конца 2017 года планировалось «внедрить продвинутые компьютерные алгоритмы в правительственные платформы для распознавания объектов в большом количестве движущихся или неподвижных изображений».

Всем известно, что Google давно разрабатывает системы машинного зрения, и её нейросети неоднократно побеждали в соревнованиях на точность распознавания объектов. Есть подозрение, что сейчас этими передовыми разработками может воспользоваться американская армия.
Читать полностью »

Google представила облачное API для распознавания объектов на видео - 1
Пример работы Cloud Video Intelligence API
Животное (97,76%)
Дикое животное (92,16%)
Тигр (90,11%)
Сухопутное животное (68,17%)
Бенгальский тигр (64,77%)
Усы (63,30%)
Зоопарк (58,16%)
Ревущие кошки (56,41%)
Кошка (44,12%)

Компания Google объявила о выпуске нового облачного сервиса Cloud Video Intelligence API (сейчас в стадии закрытого бета-тестирования). Это первые на рынке API для обработки видео с распознаванием объектов.

Cloud Video Intelligence API предназначен для обработки видеоконтента. Видеоролики становятся индексируемыми, с поиском по содержимому. Можно отследить все появления искомого объекта, продолжительность этих появлений, оценить их важность. Например, автоматически находить все сцены секса в многолетнем архиве с камер наблюдения. Поиск по видео становится таким же простым, как поиск по текстовым документам.Читать полностью »

Машинный слух. Нейросеть SoundNet обучили распознавать объекты по звуку - 1
Слева: попытка распознать место действия и объекты только по звуку. Справа: реальный источник звука

В последнее время нейросети добились немалого прогресса в области распознавания объектов и сцен на видео. Такие достижения стали возможны благодаря обучению на массивных наборах данных с размеченными объектами (например, см. работу "Learning deep features for scene recognition using places database". NIPS, 2014). Глядя на фотографии или видеоролики, компьютер может практически безошибочно определить место действия, выбрав одно подходящее описание из 401 сцены, например, «захламлённая кухня», «стильная кухня», «спальня подростка» и т.д. А вот в области понимания звуков нейросети пока не демонстрировали такого прогресса. Специалисты из Лаборатории информатики и искусственного интеллекта (CSAIL) Массачусетского технологического института исправили этот недостаток, разработав систему машинного обучения SoundNet.
Читать полностью »

Нейросеть машинного зрения обучают на реалистичных компьютерных играх - 1
Кадры из компьютерной игры Grand Theft Auto V и семантическая разметка для обучения нейросети машинного зрения

Нейросети ставят новые рекорды почти на всех соревнованиях по компьютерному зрению, а также всё шире используются в других приложениях ИИ. Один из ключевых компонентов такой невероятной эффективности нейросетей — доступность больших наборов данных для их обучения и оценки. Например, для оценки современных нейросетей используется Imagenet Large Scale Visual Recognition Challenge (ILSVRC) с более чем 1 миллионом изображений. Но судя по последним результатам (ResNet показател результат всего лишь 3,57% ошибок), скоро исследователям придётся составлять более обширные наборы данных. А потом — ещё более обширные. Между прочим, аннотирование таких фотографий — немалая работа, часть которой приходится делать вручную.

Некоторые разработчики систем компьютерного зрения предлагают альтернативный способ обучения и проверки таких систем. Вместо ручного аннотирования тренировочных изображений они используют синтезированные кадры из реалистичных компьютерных игр.
Читать полностью »

Корпорация Apple выкупила стартап Perceptio – систему распознавания изображений на основе машинного обучения. В основе системы лежит технология глубинного обучения (deep learning). Она позволяет смартфонам самостоятельно распознавать и классифицировать изображения (или образы), не обращаясь к внешним базам данных.

Другие существующие на сегодняшний день технологии распознавания в подавляющем большинстве не обходятся без облачных вычислений и сторонних серверов. Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js