Рубрика «распознавание текста» - 4

Укрощение строптивого (на самом деле, нет) FineReader

После короткого рассказа о том, как устроен ABBYY FineReader (aka «теоретическая часть»), самое время перейти к применению полученных знаний. И да, котиков под катом нет: всё очень серьёзно.

Как пользователю поучаствовать в обработке документа

Чтобы не изобретать велосипед, начну с простой и понятной схемы из Справки (см. рисунок справа).

Теперь, зная список всех операций, посмотрим на конкретном примере – что может пойти не по плану и как с этим бороться.
Читать полностью »

Столкнулся я с этим устройством много лет назад, когда по долгу службы собирал в сети некоторые данные. Сотнями гигабайт с просторов всемирной и глобальной добывал я адреса и телефоны, имена и должности, сферы деятельности и прочую потенциально полезную для компании информацию. Что с ней дальше делала машина компании мне не сообщалось, да и я, в общем-то, не очень уж и интересовался. Знаю лишь, что фильтровалась она особым способом, да складировалось в железных сундуках серверной и периодически использовалась в благих, безусловно, целях. Работа была не пыльная и была бы она скучна, как сольная карьера Влада Сташевского, если бы не одно замечание, вернее сказать, особенность — сервисы, то есть справочники, которые так любезно предоставляли мне информацию: иногда они жадничали и вредничали, словно красивые девочки. Блокировали мой IP, просили ввести им капчу, некоторые откровенно подсовывали ложную информацию, но самые интересные были те, что не позволяли глядеть их текст в HTML, а кокетливо отображали его в виде нарисованных на картинке символов. Вот они то, сами того не ведая, и скрашивали, шельмочки, мои серые будни. И был у меня тогда особый интерес, даже сказать, азарт — распознать тот текст на картинке без помощи сторонних библиотек (про них я, быть может, скажу позже), а только лишь средствами прекрасного, во всех отношениях .NET. И теперь, много лет спустя, я хотел бы, с вашего позволения, проникнуться, что называется, ностальгией.
Читать полностью »

Содержание

imageРаспознавание текста в ABBYY FineReader (1/2)
imageРаспознавание текста в ABBYY FineReader (2/2)

Общая теория распознавания

Мы, наконец, дошли до самой интересной темы – распознавания символа. Но для начала давайте немного разберемся с теорией, чтобы было понятнее, что именно и почему мы делаем. Общая задача автоматического распознавания или машинного обучения выглядит следующим образом.

Есть некоторый набор классов C и пространство объектов R. Есть некая внешняя «экспертная» система, с помощью которой для произвольного объекта можно определить, к какому классу он относится.

Задача автоматического распознавания – построить такую систему, которая на основе переданной ей ограниченной выборки заранее классифицированных объектов выдавала бы для любого нового переданного ей объекта соответствующий ему класс. При этом суммарная разница в классификации между «экспертной» системой и системой автоматического распознавания должна быть минимальной.

Система классов может быть дискретной или непрерывной, множество объектов может быть какой угодно структуры, экспертная система может быть произвольной, начиная с обычных человеческих экспертов, оценка точности может производиться только на некоторой выборке объектов. Но в своей основе практически любая задача автоматического распознавания (от ранжирования результатов поиска до медицинской диагностики) сводится именно к построению связки между объектами из заданного пространства и набором классов.

Распознавание текста в ABBYY FineReader (2 2)
Читать полностью »

Систему распознавания текста в FineReader можно описать очень просто.

У нас есть страница с текстом, мы разбираем ее на текстовые блоки, затем блоки разбираем на отдельные строчки, строчки на слова, слова на буквы, буквы распознаем, дальше по цепочке собираем все обратно в текст страницы.

Распознавание текста в ABBYY FineReader

Выглядит очень просто, но дьявол, как обычно, кроется в деталях.

Про уровень от документа до строки текста поговорим как-нибудь в следующий раз. Это большая система, в которой есть много своих сложностей. В качестве некоторого введения, пожалуй, можно оставить здесь вот такую иллюстрацию к алгоритму выделения строк.

Распознавание текста в ABBYY FineReader

В этой статье мы начнём рассказ про распознавание текста от уровня строки и ниже.Читать полностью »

Привет!

Этой статьей мы начинаем серию публикаций о технологиях оптического распознавания (OCR, ICR) и понимания документов, разработанных специалистами компании Cognitive Technologies. Многие из этих решений более 10 лет успешно функционируют в разных организациях и помогают оптимизировать процессы обработки бланков Пенсионного фонда, анкет на получение загранпаспорта, платежных поручений Сбербанка РФ, результатов голосования акционеров Газпрома и десятки других документов.
Сегодня наш рассказ об одной из наиболее сложных и интересных с научной точки зрения проблем, которую приходится решать при распознавании деловых документов, это снятие помех или отделение полезной информации от «мусора».
Вначале необходимо определить, что речь идет о документах с рукопечатным заполнением, построенных по заранее известной форме.
Читать полностью »

На данный момент большой проблемой распознавания речи (и смысла текста) является сложность предугадать смысл, а точнее контекст в котором находится слово. Часть проблемы решается дополнительным анализом соседних слов и предложения, а в тексте также анализируются заголовки документов. Большая проблема состоит в сложности реализации алгоритмов, особенно если речь идет о мобильных приложениях которые имеют ограниченные ресурсы.

Проблема может быть решена если автор приложения сам укажет контекст в котором произнесена фраза или написано сообщение для анализа.
Читать полностью »

Изучая Python3, я портировал (как смог) библиотечку PyBrain. Об этом я уже писал здесь.
image
Теперь же я хочу немного «поиграть» с данной библиотечкой. Как я уже говорил в предыдущем посте, питон я только начал изучать, так что все написанное в этой статье не стоит воспринимать как Истину. Изучение — это путь, и он извилист.

Задачу поставим перед искусственной нейронной сетью (ИНС) весьма простую — классификацию, а именно: распознавание букв латинского алфавита.

Вроде бы классический пример, про него уже писали на хабре неоднократно: «Что такое искусственные нейронные сети?», «Нейронные сети и распознавание символов» и т.д.
Но моей целью стоит изучение питона на не самых простых примерах. Т.е. учимся сразу на сложном и незнакомом. Так мы найдем в два раза больше граблей, что позволит нам копнуть в глубины языка, разбираясь с «почему не работает?».

Под хабракатом вас ждёт: описание способа подготовки данных на PyQt4, использование модуля argparse, ну и конечно же PyBrain!
Читать полностью »

Под натиском информационных технологий абсолютно привычные и понятные вещи начинают забываться и приходить в упадок. Думаю, все помнят часы, проведенные над прописью, в попытках вывести ровные контуры букв. Многие педагоги старой советской школы считают, что слитное письмо развивает мелкую моторику и, как следствие, интеллект. Но правительство США решило по-другому: с прошлого года пропись стала необязательным предметом и школы могут принимать работы учеников, написанные печатными буквами: школьники будут писать лишь печатными буквами. Давайте постараемся разобраться, почему это произошло и как современные технологии поддерживают печатные буквы.
Умрет ли слитное письмо?
Читать полностью »

В 2011 году 75-летний юбилей термина «спам» знаменовался вводом капчи 200 миллионов раз ЕЖЕДНЕВНО!

Автоматический ввод капчи – теория и практика покорения Интернет

Все эти вводы — следствие борьбы администраторов сайтов со спам-ботами.

Автоматизация процесса распознавания капчи для множества людей, активно ведущих бизнес в Интернете, является насущной проблемой. Можно относиться к таким бизнесменам и специалистам как к «нехорошим и надоедливым спамерам». Однако остановить процесс спам-постинга, по крайней мере, в обозримом будущем возможным не представляется.

Ссылочный маркетинг здесь полноценно и уникально сочетает в себе решение задач продвижения, повышения репутации продвигаемого сайта в глазах поисковых систем. Происходит это по той простой причине, что каждая ссылка на сайт (в т.ч. и из спам-поста) повышает его позиции в выдачах Google, Яндекса и т.д. Следовательно, такой способ «убийства двух зайцев одним выстрелом» выгоден изначально. И значительная часть Интернет-бизнесменов должны не бороться со спам-постингом, а пытаться использовать его в своих целях.

Итак, актуальность решения задачи «обход капчи» сомнений не вызывает.

Читать полностью »

Теперь Google Translate для Android переводит с фотографийЗаграничные поездки становятся всё проще и проще. Приложение Google Translate для платформы Android было значительно обновлено, и новой функцией является перевод с фотографии.

Теперь приложение может распознавать текст и переводить на ваш родной русский, английский, немецкий, французский, чешский, нидерландский, итальянский, польский, португальский, испанский или турецкий язык вывески или даже блюда в меню, поэтому в кафе на чужбине больше не придется после заказа нервно готовить желудок к чему-то непонятному.

Принцип работы программы прост: пользователь делает снимок с нужным фрагментом и выделяет необходимую для перевода область. Далее происходит распознание текста и перевод на серверах Google. Для работы приложения необходимо активное соединение с Интернетом.Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js