Как вы знаете, в ситуациях, когда необходимо быстро и безопасно обработать данные паспорта и любых других документов, технологии распознавания Smart Engines творят настоящие чудеса. Качеству и надежности нашей технологии доверяют лидеры цифровой трансформации: госведомства, ведущие банки, аэропорты, промышленность и бизнес. Мы ценим доверие наших клиентов, а для вас, дорогие читатели, решили наглядно показать эффективность наших систем. Так сказать, лучше один раз увидеть, чем сто раз услышать. Летс гоу!
Красиво. Ритмично. Технологично
Для начала обрисуем современную ситуацию с распознаванием паспорта. Помните наш пост об истории распознавания паспорта РФ? Если нет - очень рекомендуем. Так вот сегодня к системам распознавания удостоверяющих личность документов, главным из которых является наш паспорт, предъявляются максимально строгие технологические требования. В первую очередь это объясняется тем, что удостоверения личности содержат всю основную информацию о человеке и по сути подтверждают, что предъявивший документ гражданин является самим собой. Потому уметь верно обращаться с такими данными - это не просто полезно, а буквально необходимо. Без возражений.
Кроме того, удостоверения личности выполняются на бланках государственного образца и серьезно защищены: речь о гильошированном фоне и голографических элементах, которые затрудняют распознавание. А еще - до сих пор в ходу паспорта РФ рукописного заполнения с далеко не всегда понятным почерком. Чтобы быстро и безошибочно извлекать текст из такого сложного документа, как паспорт, искусственный интеллект должен быть действительно “умным”.
Также крайне важно, чтобы не только сам процесс, но и результаты распознавания были “объяснимыми”. Иначе говоря, система должна иметь индикацию степени уверенности, а пользователь - иметь возможность при необходимости отследить проблемное место вплоть до символа. О том, почему весь научный мир считает объяснимость ключевым критерием для современных систем оптического распознавания символов (OCR), мы уже рассказывали в этом материале.
Качество распознавания не должно изменяться в зависимости от устройства. Сегодня технология активно используется не только на сервере, но и в мобильных приложениях и даже в браузере, а документы распознаются на фотографиях и в видеопотоке (мы сделали это аж в 2015 году). Такой системе должны быть нипочем блики, неравномерное освещение, искажение пропорций, смазывание из-за тряски камеры. А еще - механические повреждения, неаккуратное заполнение и тому подобное. И разумеется нельзя не упомянуть, что ни при каких обстоятельствах изображения документов и данные из них не должны направляться третьим лицам для обработки вручную. Иначе это уже не искусственный интеллект, а полное дно, товарищи.
В общем, чтобы действительно считаться современной и эффективной, система распознавания паспорта РФ просто обязана удовлетворять всем перечисленным выше критериям и функционировать в любых, даже совершенно адских условиях. Программные решения для распознавания паспорта РФ от Smart Engines такое могут, умеют и регулярно практикуют. Желаете доказательств? - их есть у меня!
Книжка паспорта целиком
Здесь мы продемонстрируем работу нашей системы при нормальном освещении. Как говорится, - просто чтоб было. Распознавать паспорт в видеопотоке будем целой книжкой, то есть в открытом виде. На развороте с фото находится самая важная информация.
Распознавание российского паспорта у технологии Smart Engines заняло меньше секунды. Представляем результаты вашему вниманию:

Итоги распознавания как на ладони - зеленые индикаторы свидетельствуют о том, что искусственный интеллект абсолютно уверен в точности своих результатов. Также обратим внимание, что возвращенные текстовые данные были распознаны совершенно независимо друг от друга. То есть имя, фамилия и отчество извлекались из соответствующих полей паспорта, а не “подтягивались” из машиночитаемой зоны с последующим переводом на русский.
Останавливаться здесь не на чем, идем дальше.
Распознавание при низкой освещенности
Темнота - друг молодежи, а вот для большинства систем оптического распознавания, увы, не особо. И чем ниже освещенность, тем сложнее OCR найти и извлечь паспортные данные. Конечно, сегодня эта проблема частично компенсируется возможностями камер на топовых смартфонах, однако и они вывозят ситуацию далеко не во всех случаях.
В рамках второго испытания паспорт дорогого Имярека оказался заброшен глубоко под стол. Бонусом - дополнительное затемнение от смятых страниц.

Заметьте, насколько хуже становятся видны буквы в паспорте при темноте. Если на белом фоне машиночитаемой зоны символы еще можно отчетливо различить, то в случае с полем “Паспорт выдан:” все довольно-таки непросто. Непросто всем, кроме Smart Engines. Продолжаем!
Проективные искажения
Если вы распознаете паспорт на фотографиях или в видеопотоке, а не со сканера (а так и происходит в большинстве повседневных ситуаций), то этот кейс про вас. Скорее всего человек держит документ в одной руке, а другой наводит на него камеру смартфона. В таких обстоятельствах держать паспорт идеально ровно, параллельно устройству, да еще и в полностью развернутом виде - не каждому под силу. Как и избежать тряски, чтобы добиться полной статики изображения.
Какие сложности это добавляет? Пожалуй, самое очевидное - блики. Из-за глянцевой поверхности третьей страницы паспорта процесс распознавание может затруднить появление (и перемещение) отражений, перекрывающих необходимые данные. А еще возникает искажение пропорций: полусложенный или повернутый паспорт создает еще одно непреодолимое препятствие для многих OCR. Кроме нашей!
Пришло время проверить в этом деле технологию Smart Engines. Результаты перед вами:

Искусственный интеллект моментально нашел текстовые данные и все безошибочно распознал. Мы решили пойти дальше и для пущей наглядности показать паспорт другим боком - так, чтобы на страницы падала тень. И вдобавок сложить паспорт чуть ли не под 45 градусов.
Итог: распознавание - мгновенное, результат - ошеломительный. Судите сами:

В общем, и это испытание пройдено успешно. Теперь если вам понадобится ввести данные паспорта “на бегу”, вы знаете, к кому обратиться. А мы идем дальше.
Рукописный паспорт
Для этого теста мы подготовили паспорт, заполненный от руки. Хочется, чтобы такие документы распознавались ничуть не хуже - с паспортом не шутят. В противном случае использование некачественной технологии, которой не под силу распознавание рукописного паспорта, фактически “отсекает” часть клиентов. Надо ли оно заказчику - вопрос риторический.
Загвоздка для системы распознавания здесь в том, что печатный шрифт не видоизменяется от паспорта к паспорту, а вот рукописные образцы - друг другу рознь. И хотя такие документы, как правило, стараются заполнять аккуратно, некоторые из них откровенно заводят в тупик.
Мы решили попытаться “скормить” один из таких образцов системе Smart Engines. И вот результат:

Никаких проблем у нашей технологии это не вызвало, а процесс как всегда занял мгновение. Но это еще ладно. Давайте усложним ситуацию: снова напустим тень и добавим щепотку проективных искажений:

Вывод: стабильность работы системы Smart Engines подтверждена, испытание пройдено! Впрочем, ничего удивительного, ведь в ходе обучения наших моделей мы познакомились со всей вариативностью начертаний кириллических букв. И научили наши нейросети правильно понимать их: и при свете, и в тени, и при наличии искажений.
А пока мы формировали обучающий датасет - познали все муки учителей, проверяющих прописи. Читайте здесь, как это было. А мы продолжаем нашу экзекуцию.
Комбинируем условия
Продолжаем эксперименты, мы решили пойти во все тяжкие и совместить все как можно больше условий в одном испытании.
Полузакрытая книжка паспорта при невысокой освещенности? Пожалуйста:

Распознавание согнутого паспорта в полном кадре с неоднородным фоном? Проще не бывает:

Распознавание проективно искаженной книжки паспорта рукописного заполнения в темноте? Ответ вы знаете:

Распознавание паспорта в условиях дискотеки - с меняющимся светом и бегающими тенями? Аналогично:

Полный ад (тусклая лампочка от системника) - тоже не помеха:

Можно выдыхать: технологии Smart Engines не страшны никакие условия.
Делайте выводы!
Ультрахард: Паспорт +1
А вы знали, что ПО Smart Engines умеет распознавать и извлекать данные сразу нескольких документов на фотографиях и сканах, в том числе разного вида и любой конфигурации? Называется этот процесс мультиобъектным распознаванием. И охватывает он почти все главные документы: общегражданский паспорт РФ, СНИЛС, водительское удостоверение и другие.
Одновременно можно просканировать и распознать любое количество документов - достаточно расположить их в одном кадре и сделать снимок.
Проверим на паспортах? Конечно! Какие вопросы?

На этом моменте наши идеи “адских” условий распознавания подошли к концу. Но мы с удовольствием протестируем нашу OCR еще сколько угодно раз. И регулярно этим занимаемся, непрерывно совершенствуя технологию.
На сегодняшний день система Smart Engines способна мгновенно распознавать данные всех страниц паспорта, включая прописку. А еще - читать 2787 типов удостоверяющих документов 235 юрисдикций мира и 4467 шаблонов. Мы предлагаем надежный искусственный интеллект, который обеспечивает самое быстрое и точное распознавание паспорта. Технология Smart Engines без проблем распознает рукописные паспорта, главный разворот, прописку, все страницы, штампы, постранично или “книжечкой» на фото, сканах и видео. И все это - в контуре заказчика, без риска утечки персональных данных.
Решение легкоинтегрируется в мобильные, веб, десктоп и серверные приложения. Время распознавания кадра на смартфоне составляет 0.15 секунды, а на 32-х ядерном сервере можно распознавать по 55 разворотов паспорта в секунду.
На этом моменте в лучших традициях телешоу хочется сказать: а вам слабо? Но мы скажем проще: хотите качественную систему распознавания паспорта, которая будет эффективно функционировать и не подведет вас в критических условиях, - стучитесь в Smart Engines. Вам откроют!
P.S. Все использованные в краш-тесте документы - синтетические.
Автор: SmartEngines