В реалиях российского законодательства в силу нехватки правовых норм ведения бизнеса электронным (безбумажным) способом бухгалтерия должна создавать и хранить очень большое количество бумажных документов (первичные финансовые документы (счета, счета-фактуры, накладные и прочее), журналы проводок и операций, кадровые документы и др.).
Для сокращения издержек обработки и хранения средние и крупные компании прибегают к использованию автоматизированных систем массового ввода и обработки. На рынке широко известны и используются продукты следующих верндоров ПО: EMC, Kofax, Abbyy, Cognitive Technologies.
За последний год работы я успел с полного нуля постичь немало тайн этой интересной области автоматизации бизнеса с использованием систем EMC Captiva и Kofax Capture, о них я и хочу рассказать в данной статье.
Читать полностью »
Метка «ocr» - 2
О промышленных системах массового ввода, обработки образов и распознавания текста EMC Captiva InputAccel и Kofax Capture
2012-05-29 в 12:30, admin, рубрики: ERP-системы, ocr, Софт, метки: ocrОбработка изображений / Как я распознавал числа с экрана при помощи TESSERACT и что из этого получилось. Песочница для тренировки tesseract прилагается
2012-03-07 в 12:12, admin, рубрики: ocr, tesseract, метки: ocr, tesseractПонадобилось мне получить значения забитмапленных чисел. Числа грабились с экрана.
Я подумал, а не попробовать ли мне OCR? Попробовал Tesseract.
Ниже я расскажу как я пытался приспособить Tesseract, зачем я его тренировал, и что из этого получилось. В проекте на гитхабе лежит cmd-скрипт, автоматизирующий насколько возможно процесс тренировки, и данные, на которых я проводил тренировку. Словом, есть все что нужно, чтобы с места в карьер обучить Tesseract чему-нибудь полезному.
Подготовка
Клонируем <a rel="nofollow"Читать полностью »