Рубрика «Finereader»

image

Привет. Хорошие новости: мы успешно завершили краудсорсинговый проект «Открой историю Большого» по оцифровке программ, афиш и фотографий, которые хранятся в музее Большого театра. Итогами делимся на сайте openbolshoi.ru, а в этом посте рассказываем, как технически был организован проект.

О том, почему мы начали заниматься этим проектом и что сделали на первом этапе, можно почитать здесь. А что же было дальше? После первой части проекта мы благодаря ABBYY FineReader PDF и с помощью волонтеров подготовили файлы программ и афиш в формате PDF с вычитанным текстовым слоем и передали их музею Большого театра. Теперь все данные хранятся в электронном виде, и сотрудники используют их, чтобы искать и копировать нужную информацию. Это быстрее и удобнее, чем перебирать документы в шкафах и перепечатывать текст из оригиналов.

Но как узнать больше о представлениях, а также о людях, чьи судьбы тесно связаны с историей театра? Как собрать статистику:

Помогли технологии Natural Language Processing (NLP), разработанные в ABBYY. Сегодня мы расскажем, как на втором этапе проекта алгоритмы извлекли из программ и афиш необходимые сведения, заполнили поля базы данных, а затем 7500 волонтеров проверили и дополнили информацию. А в конце поста читайте, как сейчас создается электронный архив музея с удобным поиском по всем представлениям и персонам.
Читать полностью »

image

Вы когда-нибудь собирали театральные программки? Если да, то, наверное, в вашей коллекции их десятки, а может, наберется и сотня. А теперь представьте, что в вашем распоряжении 120 тысяч программок, 48 тысяч афиш и 100 тысяч исторических фотографий. Столько бумажных документов сохранил с середины XIX века Большой театр. Самые древние и ценные из них уже пожелтели и стали ветхими, а на поиск информации в театральном архиве уходили часы. Чтобы сохранить эти сокровища, сотрудники театрального музея начали вручную переводить документы в электронный вид, но оказалось, что на это могут уйти годы.

Поэтому в сентябре 2016 года вместе с Большим театром и при активной поддержке Феклы Толстой, праправнучки Льва Николаевича Толстого, мы запустили краудсорсинговый проект по оцифровке истории главного театра страны. В этом посте мы расскажем о подробностях первого этапа проекта и о его технических деталях: как мы оцифровывали уникальные документы с помощью ABBYY FineReader и как волонтеры помогали проверять результаты распознавания. Читать полностью »

От FineReader к решениям для ввода данных: как начиналось направление DataCapture в ABBYY - 1

Многие знают ABBYY, прежде всего, благодаря нашим массовым программам – Lingvo, FineReader, различным мобильным приложениям. Но при этом очень важным для нас было и остается корпоративное направление. В частности, на базе наших технологий распознавания текстов мы создали решения в области потокового ввода документов и данных. Они нужны всем организациям, имеющим дело с большими объемами документов – от банков и страховых компаний, до государственных ведомств, нефтяных, энергетических, ритейл и многих других компаний. Недавно этому направлению в ABBYY исполнилось 20 лет.

В жизни любой технологической компании бывают периоды, когда бал правят разработчики. Читать полностью »

Как мы сделали ABBYY FineReader, или история, произошедшая 20 лет назад - 1ABBYY FineReader – программа для распознавания текстов, которая в России известна многим ещё со студенческих времён. В этом году FineReader исполняется 22 года, он немного моложе нашего словаря Lingvo. Как так вышло, что вместе со словарём молодые программисты из BIT Software (в то время ABBYY называлась именно так) занялись распознаванием текстов? И что помогло Файну стать одной из самых узнаваемых на рынке программ?

На самом деле, всё очень логично. Если бы не Lingvo, FineReader’а могло бы и не быть. Началось всё с масштабного и амбициозного комплекса под названием Lingvo Systems. С его помощью человек мог отсканировать текст на одном языке, пропустить его через программу и получить перевод, правда, черновой, но для понимания смысла его было достаточно.Читать полностью »

10 способов бумажного шифрования для школьников с помощью ABBYY FineReader - 1

Способ раз

Создание шифровки

10 способов бумажного шифрования для школьников с помощью ABBYY FineReader - 2

Скопируем текст в MS Word, сделаем его одного размера и форматирования, и применим к нему какой-нибудь иконочный шрифт, такой как Webdings или любой другой. Распечатаем и отправим полученную шифровку другу.

Ваш друг, конечно, моряк, и легко и быстро прочитает полученную шифровку. Но представим, что вы отправили другу не строчку, а много строчек. Что делать тогда?Читать полностью »

Укрощение строптивого (на самом деле, нет) FineReader

После короткого рассказа о том, как устроен ABBYY FineReader (aka «теоретическая часть»), самое время перейти к применению полученных знаний. И да, котиков под катом нет: всё очень серьёзно.

Как пользователю поучаствовать в обработке документа

Чтобы не изобретать велосипед, начну с простой и понятной схемы из Справки (см. рисунок справа).

Теперь, зная список всех операций, посмотрим на конкретном примере – что может пойти не по плану и как с этим бороться.
Читать полностью »

На пути к профессиональному использованию современных OCR. Understanding FineReaderЯ занимаюсь разработкой технологий, используемых в продуктах распознавания текста компании ABBYY. Самым известным продуктом (а точнее – семейством продуктов), использующим эти технологии, является FineReader.

Что я понимаю под «технологиями»

Иногда все технологические модули (невидимые пользователю части программы) вместе называют «движком распознавания» («движок» — от английского «Engine»), что не совсем верно – они выполняют не только распознавание символов, но и кучу других действий, подробнее о которых ниже.

Чем занимается программа FineReader?

Сейчас любой из настольных вариантов FineReader может проделать все самостоятельно от получения изображения со сканера, камеры или из готового файла до выдачи результата обработки в файл или в указанное приложение, так, что человек остается «за кадром». Программа сама «распознаёт» всё что нужно (в кавычках, так как при этом программа определяет места расположения текста, таблиц, картинок, OCRит обнаруженные участки с изображённым текстом, формирует документ, который сохраняет в желаемом формате с указанными настройками)

Пара скриншотов

На пути к профессиональному использованию современных OCR. Understanding FineReader

На пути к профессиональному использованию современных OCR. Understanding FineReader

А чем занимается пользователь?

Читать полностью »

Новая версия ABBYY FineReader for Mac: не уходя в дебри сложных фичНедавно вышел новый FineReader for Mac – и пора про него написать пару слов. Признаюсь, я был первым человеком в компании, который решил полностью перейти на Mac в своей работе еще в далеком уже сейчас 2006 году. ABBYY до того делала в основном продукты только для Windows, и лишь немного для остальных платформ. Я тогда регулярно ходил в департамент FineReader и ныл, что у нас нет нормального FineReader для Mac (была только устаревшая версия для PowerPC), но потом прекратил нытье, и сел программировать. С тех пор утекло много воды, но мое усилие не прошло даром, и запустило процесс создания обновленных версий FineReader for Mac. Именно поэтому я к этому продукту очень неровно дышу.

К счастью, вышедший сейчас FineReader for Mac практически не имеет отношения к тому, что я тогда напрограммировал. Он стильный, быстрый и удобный. Он намного функциональнее FineReader Express for Mac, который был до сих пор. Я не буду делать подробный обзор продукта, потому что хорошие программы не выигрывают от расчленения на куски, как это принято делать в жанре традиционного обзора. Я лишь напишу, чем, с моей точки зрения, этот продукт отличается от его тезки для Windows.Читать полностью »

Больше FineReaderов хороших и разных!Тут столько всего происходит, что никто, должно быть, и не заметил любопытного изменения в профиле компании ABBYY. Нет, я не о том, что справа добавилась плашка «Приложения». Как говорится, we need to go deeper!

Взгляды самых внимательных сейчас, должно быть, прикованы к упоминаниям Windows 8 и iOS на картинке справа, что справедливо, т.к. появились они там совсем недавно. Под катом расскажу немного о приложениях, скрывающихся за указанными ссылками.

Читать полностью »

Введение

Это не просто обзор существующих OCR (мы будем говорить всего о трёх) и не руководство по установке (хотя установка будет описана). Эта статья была создана с целью разобраться, что и как реально может распознать русский и английский языки в Linux.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js