Метка «ocr»

Победители 22 го конкурса IOCCC

Опубликован исходный код программ-победителей 22-го конкурса программ с обфусцированным кодом на C. Участвовать в конкурсе могут готовые программы размером меньше 4096 байт, при этом количество значимых символов, без учёта пробелов, знаков табуляции и знаков; ( ), не должно превышать 2048. Впрочем, в этом году многие участники воспользовались эксплоитом для бага в модуле вычисления размера программы, так что в 2013 году на конкурс были представлены, пожалуй, самые продвинутые программы за все годы проведения соревнований.

Например, вызывает искреннее восхищение эмулятор 8086-компьютера размером 4043 байта (исходный код) с полным набором инструкций 8086/186, который поддерживает флоппи-диски и HDD и PC-спикер.
Читать полностью »

Питер Пургатофер (Peter Purgathofer), доцент Венского университета технологий, выразил свой протест против DRM и подобного рода технологий самым естественным для гика образом — он, используя лазейку в пользовательском соглашении, сумел воспользоваться ей и при помощи нехитрого механизма получил легальный текст с его читалки Kindle, не обременённый никакими навязанными ограничениями.

Идея очень простая и показана на видео ниже: читалка располагается на собранной из Lego подставке, установленной перед веб-камерой ноутбука. Подставка умеет помимо своего прямого предназначения нажимать на кнопку пролистывания на Kindle и нажимать на клавишу пробела на клавиатуре, благодаря чему веб-камера делает снимок экрана читалки и загружает его на облачный OCR-сервис. Распознанный текст аккуратно собирается в файлы, которые законодательно оказываются абсолютно честны перед законом.

Читать полностью »

ABBYY PassportReader SDK – когда вообще ничего не нужно настраиватьМы продолжаем серию статей про наши продукты для разработчиков, реализующие технологию извлечения данных из изображений (data capture). Новый продукт в линейке – ABBYY PassportReader SDK — специализированное решение для ввода данных из документов, удостоверяющих личность граждан России и стран СНГ.

Ключевое свойство нового продукта с точки зрения разработчика – исключительно простой программный интерфейс и работа «из коробки», без необходимости какой-либо предварительной настройки. В этой статье мы покажем, как выглядит использование продукта. Читать полностью »

IRIScan Mouse — мышь и сканер в одном флаконе

Компания I.R.I.S., производитель ПО для распознавания текста, выпустила необычную мышку под названием IRIScan Mouse. Помимо своих основных обязанностей, мышь может выступать… в роли 300 dpi сканера. Просто зажмите специальную кнопку и проведите мышью над областью документа, которую хотите отсканировать — результат мгновенно отобразиться на экране вашего компьютера. Полученный документ можно распознать с помощью фирменного ПО, поддерживающего более 130 языков.
В качестве бонуса с мышью идёт бесплатная трехмесячная подписка на Evernote Premium и IRISCompressor (программа, позволяющая конвертировать документы в PDF одним кликом мыши).
Стоимость устройства в США составляет 79$.
Читать полностью »

Сохранение файлов из интернета на Google Drive

Разработчики Google Drive выпустили расширение для Chrome, которое отправляет файлы с любого сайта сразу на Google Drive, без сохранения на локальном диске. Расширение умеет делать скриншоты в PNG (видимая страница/целая страница), записывает архив .mht или копию HTML для последующего редактирования. Кстати, для Google Drive можно установить удобный редактор кода.

Способ сохранения веб-страницы нужно указать в настройках расширения.
Читать полностью »

Введение

В данной статье коротко рассказывается о процессе взлома captcha используемой ранее при входе на сайт Хабрахабр.
Целью работы является применение знаний на практике и проверка сложности каптчи.
При разработке алгоритма использован Matlab.

Читать полностью »

Корни истории уходят в те годы, когда один из кланов древней текстовой игры «Бойцовский клуб» заказал у меня, молодого программиста на Perl, капчу для игры. Пара бессонных ночей — и четыре ровных цифры готовы вместе с проверкой ввода.

Разбор картинки в текст: простой алгоритм

Через несколько дней пришёл другой, не менее уважаемый клан, и заказал парсер той самой капчи. Для её разбора пришлось потратить гораздо больше времени, никакого Ocrad тогда ещё не было, но был найден очень простой и рабочий способ.

Через неделю пришёл третий, и самый заслуженный в игре клан, и заказал новую капчу. Через пару месяцев перетягивания одеяла почти все топовые кланы обогатились на новые картинки-артефакты, их программисты на ворох разноцветных бумажек, проект — на кучу генераторов чепухи, а лично я на бесценный опыт.

Разбор картинки в текст: простой алгоритм

Разбор картинки в текст: простой алгоритм

Разбор картинки в текст: простой алгоритм

Совсем недавно этот опыт пригодился для разбора тысяч телефонных номеров с одного из сайтов из изображения обратно в текст. Алгоритм использовался тот же самый, и я хочу им поделиться. Вот отвёртка и молоток, а что вы ими соберёте — синхрофазотрон или гравипушку — уже ваше личное дело.
Читать полностью »

Сообщество Distributed Proofreaders («Распределённые корректоры») больше десяти лет занимается сканированием книг для проекта «Гутенберг». Сотни добровольцев помогают вычитывать тексты и исправлять ошибки.

После автоматического распознавания чаще всего ошибки встречаются в символах, которые похожи друг на друга, как I, l и 1, O и 0, и так далее. Поэтому для проекта Distributed Proofreaders был создан специальный шрифт , в котором «похожие» символы как можно сильнее отличаются друг от друга.

Специальный шрифт для нахождения ошибок после OCR
Читать полностью »

Введение

Это не просто обзор существующих OCR (мы будем говорить всего о трёх) и не руководство по установке (хотя установка будет описана). Эта статья была создана с целью разобраться, что и как реально может распознать русский и английский языки в Linux.
Читать полностью »

Над проектом Google Maps работает 7100 сотрудников
Эйфелева башня на картах iOS 6

После выхода iOS 6 компания Apple подверглась серьёзной критике за низкое качество картографического приложения. Motorola издевается над Apple с помощью хэштега #iLost, а пользователи с нетерпением ждут, когда выйдет Google Maps для iOS хотя бы в виде стороннего приложения, но Google мудро не спешит.

Качество Google Maps на порядок выше, чем у продукта Apple, по нескольким объективным причинам.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js