Рубрика «ocr» - 3

Отличаем символы от мусора: как построить устойчивые нейросетевые модели в задачах OCR

2019-06-06 в 12:30, admin, рубрики: ABBYY, ocr, Анализ и проектирование систем, Блог компании ABBYY, искусственный интеллект, машинное обучение, нейронные сети, обработка изображений, обучение, распознавание текста

В последнее время мы в группе распознавания компании ABBYY всё больше применяем нейронные сети в различных задачах. Очень хорошо они зарекомендовали себя в первую очередь для сложных видов письменности. В прошлых постах мы рассказывали о том, как мы используем нейронные сети для распознавания японской, китайской и корейской письменности.

Пост про распознавания японских и китайских иероглифов
Пост про распознавание корейских символов

В обоих случаях мы использовали нейронные сети с целью полной замены метода классификации отдельного символа. Во всех подходах фигурировало множество различных сетей, и в задачи некоторых из них входила необходимость адекватно работать на изображениях, которые не являются символами. Модель в этих ситуациях должна как-то сигнализировать о том, что перед нами не символ. Сегодня мы как раз расскажем о том, зачем это в принципе может быть нужно, и о подходах, с помощью которых можно добиться желаемого эффекта.

Мотивация

А в чём вообще проблема? Зачем нужно работать на изображениях, которые не являются отдельными символами? Казалось бы, можно разделить фрагмент строки на символы, классифицировать их все и собрать из этого результат, как, например, на картинке ниже.

Отличаем символы от мусора: как построить устойчивые нейросетевые модели в задачах OCR - 3

Да, конкретно в данном случае так действительно можно сделать. Но, увы, реальный мир устроен куда более сложно, и на практике при распознавании приходится иметь дело с геометрическими искажениями, смазом, пятнами кофе и прочими трудностями.
Читать полностью »

Умный парсер числа, записанного прописью

2019-05-27 в 9:18, admin, рубрики: .net, C#, CV, levenstein, ocr, parser, Алгоритмы, обработка изображений, Программирование

Умный парсер числа, записанного прописью - 1

Пролог

Добрый день, уважаемые читатели. В данной статье я расскажу о том, как распарсить число, записанное прописью на русском языке.

Умным данный парсер делает возможность извлечения чисел из текста с ошибками, допущенными в результате некорректного ввода или в результате оптического распознавания текста из изображения (OCR).

Для ленивых:
Ссылка на проект github: ссылка.

Читать полностью »

Распознавание танков в видеопотоке методами машинного обучения (+2 видео на платформах Эльбрус и Байкал)

2019-04-01 в 7:06, admin, рубрики: AstraLinux, c++, hieroglyph, ocr, smart idreader, smart tank reader, Атликс, байкал, Блог компании Smart Engines, искусственный интеллект, Комдив, М1А2 Абрамс, машинное обучение, Меркава III, обработка изображений, распознавание, распознавание изображений, распознавание объектов, распознавание танков, Т-14, Т-90, танки, Чулан, Эльбрус

Распознавание танков в видеопотоке методами машинного обучения (+2 видео на платформах Эльбрус и Байкал) - 1

В процессе своей деятельности мы ежедневно сталкиваемся с проблемой определения приоритетов развития. Учитывая высокую динамику развития IT индустрии, постоянно возрастающую востребованность со стороны бизнеса и государства к новым технологиям, каждый раз, определяя вектор развития и инвестируя собственные силы и средства в научный потенциал нашей компании, мы следим за тем, чтобы все наши исследования и проекты носили фундаментальный и междисциплинарный характер.

Читать полностью »

MWC: инструкция по применению

2019-03-29 в 14:35, admin, рубрики: ABBYY, MWC, ocr, Блог компании ABBYY, конференции, разработка мобильных приложений, Разработка под android

2019 год и новый Mobile World Congress. Все стремятся показать свои новинки, благодаря которым формируются главные IT-тренды на год. Мы тоже участвовали в MWC 2019 и в этом посте поделимся нашими впечатлениями от выставки, расскажем о наших новых разработках, сделаем обзор основных трендов MWC и дадим несколько советов, как подготовиться к участию в таком крупном событии.
Читать полностью »

Распознавание номеров. Как мы получили 97% точности для Украинских номеров. Часть 2

2019-03-07 в 12:50, admin, рубрики: cnn, keras, neural networks, ocr, python, RNN, TensorFlow, искусственный интеллект, Компьютерное зрение, машинное обучение

Nomeroff Net numberplate detection OCR example

Распознавание номеров. Практическое пособие. Часть 1

Продолжаем рассказ о том как распознавать номерные знаки для тех кто умеет писать приложение «hello world» на python-е! В этой части научимся тренировать модели, которые ищут регион заданного объекта, а также узнаем как написать простенькую RNN-сеть, которая будет справляться с чтением номера лучше чем некоторые коммерческие аналоги.
В этой части я расскажу как тренировать Nomeroff Net под Ваши данные, как получить высокое качество распознавания, как настроить поддержку GPU и ускорить все на порядок…
Читать полностью »

Как научить машину понимать инвойсы и извлекать из них данные

2019-02-19 в 12:44, admin, рубрики: ABBYY, data augmentation, LSTM, machine learning, ner, ocr, Блог компании ABBYY, высокая производительность, документы, извлечение данных, инвойсы, искусственный интеллект, машинное обучение, нейронные сети, технологии

Как научить машину понимать инвойсы и извлекать из них данные - 1 Привет! Меня зовут Станислав Семенов, я работаю над технологиями извлечения данных из документов в R&D ABBYY. В этой статье я расскажу об основных подходах к обработке полуструктурированных документов (инвойсы, кассовые чеки и т.д.), которые мы использовали совсем недавно и которые используем прямо сейчас. А еще мы поговорим о том, насколько для решения этой задачи применимы методы машинного обучения.
Читать полностью »

Зачем нужна низкоуровневая оптимизация на Эльбрусе или как ускорить распознающую систему в полтора раза

2019-02-06 в 4:06, admin, рубрики: ocr, OCR-технологии, Алгоритмы, Блог компании Smart Engines, машинное обучение, обработка изображений, программирование микроконтроллеров, распознавание образов, Эльбрус

Встретив 2019 год и немного отдохнув от разработки новых фич для Smart IDReader, мы вспомнили, что давно ничего не писали об отечественных процессорах. Поэтому мы решили срочно исправиться и показать еще одну распознающую систему на Эльбрусе.

В качестве распознающей системы была рассмотрена система распознавания объектов живописи “в неконтролируемых условиях методом с обучением по одному примеру” [1]. Эта система строит описание изображения на основе особых точек и их дескрипторов, по которому выполняет поиск в индексированной базе картин. Мы проанализировали производительность данной системы и выделили наиболее времязатратную низкоуровневую часть алгоритма, который затем оптимизировали с помощью инструментов платформы Эльбрус.

Читать полностью »

Распознаём тексты на Android Things с ABBYY RTR SDK и django

2018-12-13 в 15:43, admin, рубрики: ABBYY, android, Android Things, AWS, django, java, ocr, python, Raspberry Pi, recognition, SDK, text, Блог компании ABBYY, Интернет вещей, Разработка под android, распознавание текста

Привет! Меня зовут Азат Калмыков, я студент второго курса ОП “Прикладная математика и информатика” Факультета компьютерных наук НИУ ВШЭ и стажёр в отделе мобильной разработки компании ABBYY. В этом материале я расскажу про свой небольшой проект, выполненный в рамках летней стажировки.

Распознаём тексты на Android Things с ABBYY RTR SDK и django - 1

Представьте себе небольшой конвейер. По нему едут товары или какие-то детали, на которых важно распознавать текст (возможно, это некий уникальный идентификатор, а может, и что-то более интересное). Хорошим примером будут посылки. Работу конвейера дистанционно контролирует оператор, который отслеживает неполадки и в случае чего решает проблемы. Что может ему в этом помочь? Девайс на платформе Android Things может быть неплохим решением: он мобильный, легко настраивается и может работать через Wi-Fi. Мы решили попробовать использовать технологии ABBYY и узнать, насколько они подходят для таких ситуаций — распознавания текста в потоке на “нестандартных устройствах” из категории Internet of Things. Мы сознательно будем упрощать многие вещи, так как просто строим концепт. Если стало интересно, добро пожаловать под кат. Читать полностью »

Микрофильм будет существовать половину тысячелетия

2018-08-05 в 21:26, admin, рубрики: ocr, архивы, библиотека, библиотеки, будущее, двадцать первый век, книги, микрофильм, микрофиши, поисковые системы, старое железо, Читальный зал

Миллионы публикаций, не говоря уже о шпионских документах, можно прочитать на микрофильмах. Но люди по-прежнему считают эти устройства устаревшими и непривлекательными.
Читать полностью »

Человек машине помощник

2018-06-03 в 19:05, admin, рубрики: data mining, deeplearning, machine learning, ocr, Блог компании Recognitor, Компьютерное зрение, машинное обучение, распознавание текста

Этот блог обычно посвящен распознаванию автомобильных номеров. Но, работая над этой задачей, мы пришли к интересному решению, которое можно с легкостью применять для очень широкого круга задач компьютерного зрения. Об этом сейчас и расскажем: как делать систему распознавания, которая вас не подведет. А если подведет, то ей можно подсказать, где ошибка, переобучить и иметь уже чуть более надежное решение, чем прежде. Добро пожаловать под кат!

Человек машине помощник - 1
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «ocr» - 3

Отличаем символы от мусора: как построить устойчивые нейросетевые модели в задачах OCR

Мотивация

Умный парсер числа, записанного прописью

Пролог

Распознавание танков в видеопотоке методами машинного обучения (+2 видео на платформах Эльбрус и Байкал)

MWC: инструкция по применению

Распознавание номеров. Как мы получили 97% точности для Украинских номеров. Часть 2

Как научить машину понимать инвойсы и извлекать из них данные

Зачем нужна низкоуровневая оптимизация на Эльбрусе или как ускорить распознающую систему в полтора раза

Распознаём тексты на Android Things с ABBYY RTR SDK и django

Микрофильм будет существовать половину тысячелетия

Человек машине помощник

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «ocr» - 3

Мотивация

Пролог

Новости

Актуальные темы

Архив