Как вы знаете, в ситуациях, когда необходимо быстро и безопасно обработать данные паспорта и любых других документов, технологии распознавания Smart Engines творят настоящие чудеса. Качеству и надежности нашей технологии доверяют лидеры цифровой трансформации: госведомства, ведущие банки, аэропорты, промышленность и бизнес. Мы ценим доверие наших клиентов, а для вас, дорогие читатели, решили наглядно показать эффективность наших систем. Так сказать, лучше один раз увидеть, чем сто раз услышать. Летс гоу!
Рубрика «распознавание текста»
Адские условия: Самый суровый краш-тест технологии распознавания паспорта
2024-10-04 в 8:21, admin, рубрики: ocr, OCR-технологии, smart engines, документы, Компьютерное зрение, распознавание изображений, распознавание образов, распознавание паспорта, распознавание текста, тестIDP и OCR в вопросах и ответах: Главное, что нужно знать
2024-09-03 в 10:24, admin, рубрики: ocr, ИИ, распознавание, распознавание документов, распознавание номеров, распознавание образов, распознавание объектов, распознавание паспорта, распознавание текста, технологииПривет! Сегодня прогоним пару телег про то, что из себя представляют IDP и OCR, в чем их принципиальное различие и на чьей стороне правда (и Smart Engines). Без долгих вступлений - погнали!
Скрытый текст
OCR значительно превосходит IDP. И вот почему -
-
функционирование IDPЧитать полностью »
Создание искусственного датасета для обучения модели с использованием Paddle OCR
2024-08-29 в 4:00, admin, рубрики: paddleocr, tesseract, аугментация данных, искусственный интеллект, Компьютерное зрение, распознавание текстаПривет, коллеги! Продолжаем тему разработки плагина для распознавания иврита с использованием Paddle OCR. В прошлый раз я забыла представиться, сделаю это в этом посте)
Меня зовут Алексей, я руковожу компанией, которая занимается разработкой с применением ИИ-технологий. Сам я тоже погружен в разработку, но больше доверяю это своей команде – нам удалось собрать команду классных профи. Истории из нашей совместной работы я и планирую рассказывать в своем блоге.
Создание плагина для распознавания текста на иврите: мой опыт и решения
2024-08-17 в 14:15, admin, рубрики: easyocr, OCR-технологии, paddleocr, python, tesseract ocr, аугментация, искусственный интеллект, распознавание текстаВсем привет! Хочу поделиться недавним проектом, в котором я разрабатывал плагин для распознавания текста на иврите. Задача была непростая, особенно учитывая, что клиент уже пытался использовать Tesseract OCR, но точность распознавания оставляла желать лучшего. В этой статье расскажу о том, с какими трудностями я столкнулся и как их преодолел.
Проблемы с Tesseract OCR
Извлечение текста из файлов PDF при помощи Python
2023-10-04 в 13:00, admin, рубрики: ocr, optical character recognition, PDF, pdf2image, pdfminer, pdfplumber, pillow, pytesseract, ruvds_перевод, распознавание текста▍ Введение
В эпоху больших языковых моделей (Large Language Model, LLM) и постоянно расширяющейся сферы их применений непрерывно растёт и важность текстовых данных.
Существует множество типов документов, содержащих подобные виды неструктурированной информации, от веб-статей и постов в блогах до рукописных писем и стихов. Однако существенная часть этих данных хранится и передаётся в формате PDF. В частности, выяснилось, что за каждый год в Outlook открывают более двух миллиардов PDF, а в Google Drive и электронной почте ежедневно сохраняют 73 миллионов новых файлов PDF (2).
Поэтому разработка более систематического способа обработки этих документов и извлечения из них информации позволит нам автоматизировать процесс и лучше понять этот обширный объём текстовых данных. И в выполнении этой задачи, разумеется, нашим лучшим другом будет Python.
Читать полностью »
Как я делаю OCR
2023-02-19 в 11:17, admin, рубрики: ocr, машинное обучение, оптическое распознавание символов, разметка данных, распознавание текстаПривет меня зовут Игорь, в свободное от основной профессии время я интересуюсь машинным обучением и занимаюсь разработкой OCR для мобильных устройств.
Современные решения OCR насколько мне известно в большинстве случаев состоят из двух компонентов, детектирование текста и последующее распознавание.
Для обучения требуется много качественно размеченных данных, и в случае с детектированием текста это настоящая проблема, найти в открытом доступе большой качественный датасет очень сложно.
Для решения проблемы я написал собственную программу для разметки данных.
Как Яндекс научился распознавать, что написано в рукописных архивах
2023-01-25 в 7:02, admin, рубрики: ocr, архивы, Блог компании Яндекс, искусственный интеллект, машинное обучение, нейросети, обработка изображений, поиск, поисковые технологии, распознавание текста, яндексПривет. Меня зовут Саша, в прошлый раз я рассказывал сообществу про поиск организаций в Яндексе. В этот раз мы вновь поговорим про поиск, но уже совершенно другого рода. Сегодня расскажем про «Поиск по архивамЧитать полностью »
Строим OCR-ферму на базе айфонов для скрапинга мемов в Интернете
2023-01-20 в 9:45, admin, рубрики: DIY, diy или сделай сам, elasticsearch, hardware, ocr, postgres, Raspberry, Программирование, распознавание текстаКаждый, кто провел какое-то время в Интернете хорошо представляет насколько популярным стало использование мемов в онлайне. Находить новые мемы о последних событиях и делиться ими с друзьями, — это мое давнее времяпрепровождение.
Большинству мемов свойственна ироническая двойственность: чем более они нишевые, тем более забавными они кажутся. Некоторые из лучших мемов — это просто глупые шутки между моими друзьями или из невероятно нишевой индустрии информационной безопасности.
История о том, как я наладил производство бумажных вебсайтов и купил сто записных книжек с Alibaba
2021-12-29 в 5:49, admin, рубрики: Блог компании Productivity Inside, искусственный интеллект, Развитие стартапа, распознавание текста, сайд-проектыЕсли вкратце: я открыл бизнес, чтобы дать людям возможность создавать сайты на бумаге. По ходу дела я завирусился на Твиттере, заработал тысячу долларов за два дня и просадил 720 долларов на сотню блокнотов с Alibaba.
Однажды мне в голову пришел любопытный вопрос: «Можно ли создать вебсайт на листе бумаги?». Я тот самый человек, который как-то раз скупил 300 казахских доменов с эмоджи, но даже по моим меркам идея выглядела несколько странной.
Однако примерно в то же время у меня зародились планы начать вести новенький с иголочки блог о своей повседневной жизни. Перед глазами стали возникать картины: сижу я такой в халате с чашкой чая и шариковой ручкой, и каким-то образом делаю записи в онлайн-блоге непосредственно из записной книжки. Эта мысль показалась мне крайне забавной.
Так можно ли делать сайты на листе бумаги? Я решил, что, по крайней мере, стоит попробовать.
Читать полностью »
Как мы создавали технологию оптического распознавания текста. OCR в Яндексе
2019-11-18 в 7:24, admin, рубрики: ocr, алиса, Блог компании Яндекс, искусственный интеллект, машинное обучение, обработка изображений, распознавание текста, яндексПривет! Сегодня я расскажу читателям Хабра о том, как мы создавали технологию распознавания текста, работающую на 45 языках и доступную пользователям Яндекс.Облака, какие задачи мы ставили и как их решали. Будет полезно, если вы работаете над схожими проектами или хотите узнать, как так получилось, что сегодня вам достаточно сфотографировать вывеску турецкого магазина, чтобы Алиса перевела её на русский.