Привет! Сегодня я расскажу читателям Хабра о том, как мы создавали технологию распознавания текста, работающую на 45 языках и доступную пользователям Яндекс.Облака, какие задачи мы ставили и как их решали. Будет полезно, если вы работаете над схожими проектами или хотите узнать, как так получилось, что сегодня вам достаточно сфотографировать вывеску турецкого магазина, чтобы Алиса перевела её на русский.
Рубрика «распознавание текста» - 2
Как мы создавали технологию оптического распознавания текста. OCR в Яндексе
2019-11-18 в 7:24, admin, рубрики: ocr, алиса, Блог компании Яндекс, искусственный интеллект, машинное обучение, обработка изображений, распознавание текста, яндексPython + OpenCV + Keras: делаем распознавалку текста за полчаса
2019-09-07 в 13:41, admin, рубрики: cnn, orc, python, искусственный интеллект, машинное обучение, нейронные сети, обработка изображений, Программирование, распознавание текстаПосле экспериментов с многим известной базой из 60000 рукописных цифр MNIST возник логичный вопрос, есть ли что-то похожее, но с поддержкой не только цифр, но и букв. Как оказалось, есть, и называется такая база, как можно догадаться, Extended MNIST (EMNIST).
Если кому интересно, как с помощью этой базы можно сделать несложную распознавалку текста, добро пожаловать под кат.
Как распознать текст с фото: новые возможности фреймворка Vision
2019-07-11 в 15:06, admin, рубрики: Dodo Pizza Engineering, dodopizzaio, framework, iOS, ios development, ios programming, Vision, Блог компании Dodo Pizza Engineering, обработка изображений, Программирование, разработка мобильных приложений, разработка под iOS, распознавание изображений, распознавание текстаТеперь фреймворк Vision умеет распознавать текст по-настоящему, а не как раньше. С нетерпением ждём, когда сможем применить это в Dodo IS. А пока перевод статьи о распознавании карточек из настольной игры Magic The Gathering и извлечении из них текстовой информации.
Отличаем символы от мусора: как построить устойчивые нейросетевые модели в задачах OCR
2019-06-06 в 12:30, admin, рубрики: ABBYY, ocr, Анализ и проектирование систем, Блог компании ABBYY, искусственный интеллект, машинное обучение, нейронные сети, обработка изображений, обучение, распознавание текстаВ последнее время мы в группе распознавания компании ABBYY всё больше применяем нейронные сети в различных задачах. Очень хорошо они зарекомендовали себя в первую очередь для сложных видов письменности. В прошлых постах мы рассказывали о том, как мы используем нейронные сети для распознавания японской, китайской и корейской письменности.
Пост про распознавания японских и китайских иероглифов
Пост про распознавание корейских символов
В обоих случаях мы использовали нейронные сети с целью полной замены метода классификации отдельного символа. Во всех подходах фигурировало множество различных сетей, и в задачи некоторых из них входила необходимость адекватно работать на изображениях, которые не являются символами. Модель в этих ситуациях должна как-то сигнализировать о том, что перед нами не символ. Сегодня мы как раз расскажем о том, зачем это в принципе может быть нужно, и о подходах, с помощью которых можно добиться желаемого эффекта.
Мотивация
А в чём вообще проблема? Зачем нужно работать на изображениях, которые не являются отдельными символами? Казалось бы, можно разделить фрагмент строки на символы, классифицировать их все и собрать из этого результат, как, например, на картинке ниже.

Да, конкретно в данном случае так действительно можно сделать. Но, увы, реальный мир устроен куда более сложно, и на практике при распознавании приходится иметь дело с геометрическими искажениями, смазом, пятнами кофе и прочими трудностями.
Читать полностью »
Основы Natural Language Processing для текста
2019-04-15 в 5:54, admin, рубрики: machine learning, nlp (natural language processing), python, Блог компании Voximplant, машинное обучение, обработка естественного языка, Программирование, распознавание текстаОбработка естественного языка сейчас не используются разве что в совсем консервативных отраслях. В большинстве технологических решений распознавание и обработка «человеческих» языков давно внедрена: именно поэтому обычный IVR с жестко заданными опциями ответов постепенно уходит в прошлое, чатботы начинают все адекватнее общаться без участия живого оператора, фильтры в почте работают на ура и т.д. Как же происходит распознавание записанной речи, то есть текста? А вернее будет спросить, что лежит в основе соврменных техник распознавания и обработки? На это хорошо отвечает наш сегодняшний адаптированный перевод – под катом вас ждет лонгрид, который закроет пробелы по основам NLP. Приятного чтения!

Распознаём тексты на Android Things с ABBYY RTR SDK и django
2018-12-13 в 15:43, admin, рубрики: ABBYY, android, Android Things, AWS, django, java, ocr, python, Raspberry Pi, recognition, SDK, text, Блог компании ABBYY, Интернет вещей, Разработка под android, распознавание текстаПривет! Меня зовут Азат Калмыков, я студент второго курса ОП “Прикладная математика и информатика” Факультета компьютерных наук НИУ ВШЭ и стажёр в отделе мобильной разработки компании ABBYY. В этом материале я расскажу про свой небольшой проект, выполненный в рамках летней стажировки.
Представьте себе небольшой конвейер. По нему едут товары или какие-то детали, на которых важно распознавать текст (возможно, это некий уникальный идентификатор, а может, и что-то более интересное). Хорошим примером будут посылки. Работу конвейера дистанционно контролирует оператор, который отслеживает неполадки и в случае чего решает проблемы. Что может ему в этом помочь? Девайс на платформе Android Things может быть неплохим решением: он мобильный, легко настраивается и может работать через Wi-Fi. Мы решили попробовать использовать технологии ABBYY и узнать, насколько они подходят для таких ситуаций — распознавания текста в потоке на “нестандартных устройствах” из категории Internet of Things. Мы сознательно будем упрощать многие вещи, так как просто строим концепт. Если стало интересно, добро пожаловать под кат. Читать полностью »
Как мы делали книжный сканер для судов
2018-11-29 в 7:37, admin, рубрики: автоматизация, Блог компании КРОК, обработка изображений, распознавание текста, сканер, управление проектамиНачалось всё с того, что однажды мы увидели гигантскую хреновину (иначе не скажешь), которая выглядела один в один, как гидравлический пресс какого-нибудь завода. Она скрипела, шипела и давила книгу. Вокруг бегали специально обученные операторы и шарахались от каждого её движения.
Выяснилось, что разные архивы, библиотеки, суды и другие структуры закупают сканеры, или, скажем так, классические решения, которые по уровню начинки очень напоминают 90-е годы. Потому что тогда были разработаны первые сканеры для библиотек, и их с тех пор не особо модифицировали.
Задачей сканера было механически выровнять сканируемый материал на плоскости, а потом отсканировать.
С тех пор поменялись две вещи:
— Подходы к конструированию электроники.
— Подходы к машинному зрению.
Читать полностью »
Книга о «Параграфе» на Хабре. Глава о хренятинах, распознавании и высадке в Америке
2018-10-31 в 6:44, admin, рубрики: девяностые, искусственный интеллект, история успеха, Пачиков, Развитие стартапа, распознавание текста, управление проектамиПродолжаю делиться с вами главами книги о «Параграфе» — первом стартапе из России, покорившем мир.
После предыдущей публикации на «Хабре» прошло порядочно времени — почти два месяца. Тут я видимо должен извиниться. В качестве оправдания скажу, что для меня главное — работа над книгой. Публикация — пока что второстепенна. Выкладываю, только когда остается время после работы над рукописью.
За эти два месяца я написал еще пару глав, увеличив объем черновика до 230 тысяч знаков (из целевых 400 тысяч). Кроме того, за это время произошло еще одно важное событие: у книги появилось финальное название: «Пионеры Кремниевой долины».
Но — к делу.
Сегодня я хочу поделиться главой, которая, как я надеюсь, должна особенна заинтересовать читателей «Хабра». Ведь в ней рассказывается о принципе работе распознавателя рукописного текста, созданного «Параграфом».
Ну и есть экшн — наши герои впервые попадают в Америку, и на авансцене появляются агенты ФБР.
Напоследок напомню, что можно получить все 11 готовых глав книги, просто подписавшись на рассылку. Ссылки на скачивания придут в приветственном письме.
Жду отзывов и комментариев. Конструктивная критика поможет сделать книгу лучше.
Поехали!
Восемь хренятин
«Скажите, где тут можно получить политическое убежище?» — первым делом спросил Пачиков, когда самолет приземлился в США. Читать полностью »
В Office 365 и другие продукты MS добавят режим голосового ввода-вывода для дислексиков
2018-10-16 в 13:02, admin, рубрики: CrossOver, microsoft, MS Office 365, office, Блог компании Crossover, будущее здесь, ввод-вывод, дислексия, заболевания, машинное зрение, мозг, построчное чтение, Разработка для Office 365, распознавание текста, чтение текстаВчера в блоге Microsoft Education Team была опубликована обширная запись, которая презентует голосового ассистента для пакета продуктов Office 365, а также ряд обновлений других продуктов. В первую очередь речь идет о добавлении функций Dictation for Office 365 Desktop Apps в веб-версии продуктов Office 365 для учащихся, а также выход продукта Office Lens на платформе Android, который ранее был доступен только пользователям iOS. И это не полный список всех «вкусностей» от Microsoft. Все эти активности проходят совместно с организацией Made Dyslexia, в рамках которых технологический гигант планирует создавать учебные материалы и пособия для учеников и студентов, страдающих дислексией.
Важность публикации MS Education Team еще и в том, что она явно показывает один из приоритетных, а главное потенциально конкурентных направлений деятельности компании — развитие систем голосового ввода и распознавания текстов на пользовательских устройствах для всех существующих экосистем, подробнее о которых под катом. Там мы кратко расскажем о новинках от Microsoft без маркетинговых восторгов и обсудим, что вообще происходит и почему когда-то «главная корпорация зла» внезапно оказалась на передовой в области обучения подрастающего поколения.
Читать полностью »
Человек машине помощник
2018-06-03 в 19:05, admin, рубрики: data mining, deeplearning, machine learning, ocr, Блог компании Recognitor, Компьютерное зрение, машинное обучение, распознавание текстаЭтот блог обычно посвящен распознаванию автомобильных номеров. Но, работая над этой задачей, мы пришли к интересному решению, которое можно с легкостью применять для очень широкого круга задач компьютерного зрения. Об этом сейчас и расскажем: как делать систему распознавания, которая вас не подведет. А если подведет, то ей можно подсказать, где ошибка, переобучить и иметь уже чуть более надежное решение, чем прежде. Добро пожаловать под кат!