Рубрика «ocr»

Всем привет! Меня зовут Александра Пилюгина, я продакт-менеджер команды «QR и Фотоплатеж» в управлении «Платежи», банк ВТБ. К нам каждый месяц приходит около 500 тысяч новых клиентов. Специально для них наша команда разработала сервис переноса платежей в ВТБ Онлайн, попутно решив множество проблем с распознаванием платежных документов и извлечения из них полезной информации.

Читать полностью »

Как вы знаете, в ситуациях, когда необходимо быстро и безопасно обработать данные паспорта и любых других документов, технологии распознавания Smart Engines творят настоящие чудеса. Качеству и надежности нашей технологии доверяют лидеры цифровой трансформации: госведомства, ведущие банки, аэропорты, промышленность и бизнес. Мы ценим доверие наших клиентов, а для вас, дорогие читатели, решили наглядно показать эффективность наших систем. Так сказать, лучше один раз увидеть, чем сто раз услышать. Летс гоу!

Красиво. Ритмично. Технологично

Читать полностью »

Софт на диете: как мы в DCAP OCR разгоняли - 1

Привет!

Мы в «СёрчИнформ» 20 лет создаем софт для защиты информации и постоянно его оптимизируем. Например, последовательно работаем над ресурсоемкостью продуктов (низкая нагрузка на оборудование – важное преимущество для заказчиков), и придумали в этом направлении много удачных (не только наше мнение) решений.

Читать полностью »

Встречи в рамках ICDAR имеют первостепенную значимость для научного сообщества по всему миру. Источник: сайт ICDAR.

Встречи в рамках ICDAR имеют первостепенную значимость для научного сообщества по всему миру. Источник: сайт ICDAR.

Почему ICDAR? 

Море, солнце, пляжЧитать полностью »

IDP и OCR в вопросах и ответах: Главное, что нужно знать - 1

Привет! Сегодня прогоним пару телег про то, что из себя представляют IDP и OCR, в чем их принципиальное различие и на чьей стороне правда (и Smart Engines). Без долгих вступлений - погнали!

Скрытый текст

OCR значительно превосходит IDP. И вот почему -

Вы пользуетесь кешбэком, может даже выбираете категории повышенного кешбэка каждый месяц? Когда у вас несколько карт разных банков с кешбэком, становится непросто запомнить, какую из них лучше использовать для конкретной покупки в этом месяце.

Можно было бы эти категории записывать на листик или куда-то в заметки, но я решил сделать iOS приложение, в котором можно добавлять выбранные категории кешбэка, а они уже будут выводиться в виде виджета.
Читать полностью »

Программы распознавания данных удостоверений личности появились не так уж и давно - всего пару десятилетий назад, так что их можно правомерно считать практически ровесниками самого паспорта РФ. Но за это время система OCR прошла большой путь, а наряду с качеством и результативностью повысилась и ее доступность. Из громоздких и редких специальных сканеров технология перекочевала буквально в карман каждого из нас, и теперь обработать любой документ можно с обыкновенного смартфона или веб-камеры. Мы в Smart EnginesЧитать полностью »

Извлечение текста из файлов PDF при помощи Python - 1

▍ Введение

В эпоху больших языковых моделей (Large Language Model, LLM) и постоянно расширяющейся сферы их применений непрерывно растёт и важность текстовых данных.

Существует множество типов документов, содержащих подобные виды неструктурированной информации, от веб-статей и постов в блогах до рукописных писем и стихов. Однако существенная часть этих данных хранится и передаётся в формате PDF. В частности, выяснилось, что за каждый год в Outlook открывают более двух миллиардов PDF, а в Google Drive и электронной почте ежедневно сохраняют 73 миллионов новых файлов PDF (2).

Поэтому разработка более систематического способа обработки этих документов и извлечения из них информации позволит нам автоматизировать процесс и лучше понять этот обширный объём текстовых данных. И в выполнении этой задачи, разумеется, нашим лучшим другом будет Python.
Читать полностью »

Привет меня зовут Игорь, в свободное от основной профессии время я интересуюсь машинным обучением и занимаюсь разработкой OCR для мобильных устройств.

Современные решения OCR насколько мне известно в большинстве случаев состоят из двух компонентов, детектирование текста и последующее распознавание.

Для обучения требуется много качественно размеченных данных, и в случае с детектированием текста это настоящая проблема, найти в открытом доступе большой качественный датасет очень сложно.

Для решения проблемы я написал собственную программу для разметки данных.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js