Рубрика «ocr» - 2

Как Яндекс научился распознавать, что написано в рукописных архивах - 1

Привет. Меня зовут Саша, в прошлый раз я рассказывал сообществу про поиск организаций в Яндексе. В этот раз мы вновь поговорим про поиск, но уже совершенно другого рода. Сегодня расскажем про «Поиск по архивамЧитать полностью »

Каждый, кто провел какое-то время в Интернете хорошо представляет насколько популярным стало использование мемов в онлайне. Находить новые мемы о последних событиях и делиться ими с друзьями, — это мое давнее времяпрепровождение.

Большинству мемов свойственна ироническая двойственность: чем более они нишевые, тем более забавными они кажутся. Некоторые из лучших мемов — это просто глупые шутки между моими друзьями или из невероятно нишевой индустрии информационной безопасности.

Читать полностью »

В Штатах адреса всей бумажной почты сканируются и автоматически распознаются. Однако, если адрес написан неразборчиво или поврежден, он отправляется в Центр удаленного декодирования Почтовой службы США в Солт-Лейк-Сити.

Там около 800 человек круглосуточно занимаются тем, что за 4 секунды должны перевести нечитаемый адрес в странный код, разработанный Siemens в 1990-х годах (надо ли добавлять, что он не интуитивен и сложен?). Поскольку работники используют сотни быстрых сочетаний клавиш, у них даже клавиатуры специальные.

image

Если меня когда-нибудь спросят о странной организации работ или о плохом UX/UI-дизайне, пожалуй, я покажу им вот этот пост. Посмотрите, как может выглядеть такая деятельность.
Читать полностью »

Оптическое распознавание символов с помощью Rust и WebAssembly - 1


После переписывания Cyberscore я захотел отправить на сайт какие-нибудь результаты. Последнее, во что я играл, это Pokémon Legends: Arceus, по которой на Cyberscore есть около 3000 таблиц результатов. Я не собирался отправлять столько рекордов вручную, поэтому начал придумывать инструмент для автоматизации этого процесса.

Эта статья посвящена двум вещам: процессу извлечения результатов из JPG с помощью Rust и встраиванию этого функционала во фронтенд Cyberscore.
Читать полностью »

Перевод статьи с сайта компании FilingDB, составляющей базу данных из документации европейских компаний

Согласно распространённым представлениям, извлечение текста из PDF не должно быть такой уж сложной задачей. Ведь вот он, текст, прямо у нас перед глазами, и люди постоянно и с большим успехом воспринимают содержимое PDF. Откуда взяться трудностям в автоматическом извлечении текста?

Оказывается, точно так же, как работа с именами людей сложна для алгоритмов из-за множества пограничных случаев и неправильных предположений, так и работа с PDF сложна из-за чрезвычайной гибкости PDF-формата.

Основная проблема в том, что PDF не предполагался как формат для ввода данных – его разрабатывали, как канал вывода, дающий возможность тонкой подстройки вида итогового документа.
Читать полностью »

Привет! Мы вдруг поняли, что наша последняя статья про Эльбрус вышла год назад. Поэтому мы решили исправить эту досадную оплошность, ведь мы не бросили эту тему!

Сложно представить распознавание без нейронных сетей, поэтому мы расскажем о том, как мы запустили 8-битные сетки на Эльбрусе и что из этого получилось. Вообще, модель с 8-битными коэффициентами и входами и 32-битными промежуточными вычислениями крайне популярна. Например, Google [1] и Facebook [2] завели ее собственные реализации, которые оптимизируют доступ в память, задействуют SIMD и позволяют ускорить вычисления на 25% и больше без заметного снижения точности (это конечно зависит от архитектуры нейронной сети и вычислителя, но нужно же было объяснить, насколько это круто?).

8-битные сети на Эльбрусе, есть ли смысл? - 1Читать полностью »

Конференция BLACK HAT USA. Разбогатеть или умереть: зарабатываем в Интернете методами Black Hat. Часть 1
Конференция BLACK HAT USA. Разбогатеть или умереть: зарабатываем в Интернете методами Black Hat. Часть 2

Они зашли так далеко, что стали обсуждать возможность привлечения водителей UPS к очной ставке с подозреваемой. Давайте сейчас проверим, является ли законным то, что процитировано на этом слайде?

Конференция BLACK HAT USA. Разбогатеть или умереть: зарабатываем в Интернете методами Black Hat. Часть 3 - 1

Вот что отвечает Федеральная торговая комиссия FTC на вопрос: «Должен ли я вернуть или оплатить товар, который никогда не заказывал?» — «Нет. Если вы получили товар, который не заказывали, то имеете законное право принять его как бесплатный подарок». Это звучит этично? Я умываю руки, потому что недостаточно умён, чтобы обсуждать такие вопросы.

Но что интересно – мы видим тенденцию, при которой чем меньше технологий мы используем, тем больше денег получаем. Читать полностью »

Привет! Сегодня я расскажу читателям Хабра о том, как мы создавали технологию распознавания текста, работающую на 45 языках и доступную пользователям Яндекс.Облака, какие задачи мы ставили и как их решали. Будет полезно, если вы работаете над схожими проектами или хотите узнать, как так получилось, что сегодня вам достаточно сфотографировать вывеску турецкого магазина, чтобы Алиса перевела её на русский.

Как мы создавали технологию оптического распознавания текста. OCR в Яндексе - 1

Читать полностью »

Конференция BLACK HAT USA. Разбогатеть или умереть: зарабатываем в Интернете методами Black Hat. Часть 1

Существует сайт под названием Hire2Hack, который тоже принимает заявки на «восстановление» паролей. Здесь стоимость услуги начинается от $150. Я не знаю об остальном, но вы должны предоставить им информацию о себе, потому что собираетесь им платить. Для регистрации требуется указать имя пользователя, email, пароль и так далее. Забавно то, что они принимают к оплате даже переводы по системе Western Union.

Конференция BLACK HAT USA. Разбогатеть или умереть: зарабатываем в Интернете методами Black Hat. Часть 2 - 1

Стоит принять к сведению, что имена пользователей представляют собой очень ценную информацию, особенно когда они привязаны к адресу электронной почты. Скажите, кто из вас указывает своё настоящее имя при регистрации почтового ящика? Никто, вот это весело!Читать полностью »

Ведущий: леди и джентльмены, это выступление очень забавное и очень интересное, сегодня мы собираемся поговорить о реальных вещах, которые наблюдаются в интернете. Этот разговор немного отличается от тех, к которым мы привыкли на конференциях Black Hat, потому что мы собираемся поговорить о том, как атакующие зарабатывают деньги на своих атаках.

Мы покажем вам несколько интересных атак, которые могут принести прибыль, и расскажем об атаках, которые действительно имели место в ту ночь, когда мы перебрали «Егермейстера» и проводили мозговой штурм. Это было весело, но когда мы немного протрезвели, то поговорили с людьми, занимающимися SEO, и действительно узнали, что множество людей зарабатывают деньги на этих атаках.

Я всего лишь безмозглый менеджер среднего звена, поэтому уступаю своё место и хочу вам представить Джереми и Трея, которые намного умней меня. У меня должно было бы быть умное и весёлое введение, но его нет, так что вместо него я покажу эти слайды.Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js