Привет, коллеги! Продолжаем тему разработки плагина для распознавания иврита с использованием Paddle OCR. В прошлый раз я забыла представиться, сделаю это в этом посте)
Меня зовут Алексей, я руковожу компанией, которая занимается разработкой с применением ИИ-технологий. Сам я тоже погружен в разработку, но больше доверяю это своей команде – нам удалось собрать команду классных профи. Истории из нашей совместной работы я и планирую рассказывать в своем блоге.
Рубрика «tesseract»
Создание искусственного датасета для обучения модели с использованием Paddle OCR
2024-08-29 в 4:00, admin, рубрики: paddleocr, tesseract, аугментация данных, искусственный интеллект, Компьютерное зрение, распознавание текстаРаспознавание текста на картинке с помощью tesseract на Kotlin
2020-09-11 в 7:05, admin, рубрики: java, kotlin, opencv, python, tesseract, Блог компании FunCorp, Программирование, разработка
Ни для кого не секрет, что Python прочно занял первенство в ML и Data Science. А что если посмотреть на другие языки и платформы? Насколько в них удобно делать аналогичные решения?
К примеру, распознавание текста на картинке.
Tesseract OCR tips — создание своего словаря для повышения эффективности OCR
2019-12-30 в 19:11, admin, рубрики: optical character recognition, tesseract, машинное обучение, словарь, языкЭто мой первый пост об оптическом распознавании текста (OCR) с использованием Tesseract. Tesserast это очень популярная open source библиотека для OCR поддерживаемая Google, которая дает высокие результаты точности и поддерживает более 100 языков. В этом посте я расскажу как можно работать со стандартным словарем для языковой модели Tesseract и настроить его под свои нужды. Кому интересно, прошу под кат.Читать полностью »
Компьютерное зрение на примере приложения для IKEA. Часть 1
2017-05-02 в 0:04, admin, рубрики: node.js, nodejs, opencv, tesseract, Компьютерное зрение, мобильная разработка, обработка изображений, разработка мобильных приложенийГотовился к очередному хакатону, решил обновить свои знания в области компьютерного зрения. В прошлый раз задачу распознавания номеров авто в видеопотоке я так и не смог решить быстро «в лоб». Сейчас, поразмыслив, решил немного упростить задачу. Было много идей, листал фотки в телефоне и наткнулся на привычный кейс для всех, кто бывал в магазине ikea — фотографию с чеком, где указан номер товара и его положение на складе самообслуживания.
Как pdf (изображения) преобразовать в текстовый txt-файл
2016-11-02 в 12:40, admin, рубрики: languagetool, ocr, PDF, python, stduviewer, tesseract, txt, обработка изображенийВы скажете, что самый простой способ — выделить весь текст в pdf, скопировать его в буфер обмена и вставить из буфера обмена в текстовый файл. И будете правы. Но это не наш случай. Файл pdf — результат сканирования многостраничного документа. Т.е. содержимое pdf — это изображения текста.
Предлагаемый вариант решения реализован под Windows-8, но с небольшими корректировками, думаю, вполне может быть использован для Linux и OS X.
Читать полностью »
Разве Tesseract распознаёт медленно?
2016-05-17 в 9:27, admin, рубрики: ocr, open source, tesseract, Алгоритмы, Блог компании Smart Engines Ltd., оптимизация, параллельное программирование, Программирование, профилирование, распознавание текста, распознавание цифр
Работу каждой программы можно ускорить минимум в десять раз
Рабочая установка разработчиков Smart Engines
Мы расскажем о нескольких приемах ускорения распознавания с помощью OCR Tesseract. Всё рассказанное было использовано в реализации проекта, смысл которого состоял в классификации большого числа образов страниц деловых документов (таких документов как паспорт, договор, контракт, доверенность, свидетельство о регистрации и т.п.) и сохранении результатов в электронном архиве. Часть алгоритмов классификации была основана на анализе собственно образов страниц, а часть – на анализе извлечённых из образа текстов. Для извлечения текстов было необходимо распознавание с помощью OCR.
Использование Open Source OCR библиотеки Tesseract в Android на примере простого приложения
2016-04-27 в 9:15, admin, рубрики: android, android development, ocr, tesseract, Разработка под android
Сегодня я покажу, как добавить опцию распознавания текста (OCR) в Ваше Android приложение.
Наш тестовый проект — это один единственный Activity, в который я запихнула и распознавание. Итого в общем счете всего 200 строк кода.
Замечу сразу, что опция OCR работает offline. OCR увеличивает ваш .apk приблизительно на 17mb.
Читать полностью »
Тестирование GUI приложений с помощью оптического распознавания текстов
2016-04-05 в 11:21, admin, рубрики: .net, C#, ocr, open source, tesseract, testing, Тестирование IT-системФункциональное тестирование интерфейса (GUI) приложений — задача очень важная, нужная, но не всегда тривиальная. Основной вопрос тут: как сэмулировать работу пользователя? Простого, рядового пользователя, которому придется непосредственно изо дня в день работать с вашим софтом.
Казалось бы, причем здесь распознавание текстов?
Читать полностью »
Робот NAO + компьютерное зрение + 4 школьника + 1,5 ч в неделю = робот-тьютор английского языка
2015-06-05 в 14:48, admin, рубрики: diy или сделай сам, nao, opencv, tesseract, дополнительное образование, Компьютерное зрение, робототехника, школьники, метки: дополнительное образованиеВсем привет! Эта статья посвящена итогам первого года работы лаборатории компьютерного зрения в Детском Технопарке Новосибирска (официально «Центр развития творчества детей и юношества»). «Лаборатория компьютерного зрения» звучит, конечно, громко, но что-то мы сделать всё же успели.
«Оцифровываем» каптчу единого реестра сайтов, защищающего людей от информации
2012-11-02 в 10:27, admin, рубрики: bash, imagemagick, linux, tesseract, информационная безопасность, каптча, реестр запрещенных сайтов, метки: bash, imagemagick, tesseract, каптча, реестр запрещенных сайтовСовсем недавно открылся портал Единого государственного реестра сайтов. Отдельно от всего прочего мне приглянулась очень слабая каптча, и я решил её побороть.
Подобными вещами я уже занимался, правда, не в таком масштабе. Если вам интересно, как получить КПД распознавания в 57% используя только GNU/Bash, imagemagick и Tesseract-ocr, добро пожаловать под кат.
Нижеследующая инструкция может быть легко модифицирована под любые другие подобные слабые каптчи.
Читать полностью »