Всем привет! Хочу поделиться недавним проектом, в котором я разрабатывал плагин для распознавания текста на иврите. Задача была непростая, особенно учитывая, что клиент уже пытался использовать Tesseract OCR, но точность распознавания оставляла желать лучшего. В этой статье расскажу о том, с какими трудностями я столкнулся и как их преодолел.
Рубрика «аугментация»
Создание плагина для распознавания текста на иврите: мой опыт и решения
2024-08-17 в 14:15, admin, рубрики: easyocr, OCR-технологии, paddleocr, python, tesseract ocr, аугментация, искусственный интеллект, распознавание текста37 причин, почему ваша нейросеть не работает
2017-08-05 в 8:06, admin, рубрики: NaN, аугментация, машинное обучение, недообучение, нейросеть, нормализация, обработка изображений, отладка, ошибки нейросети, переобучение, регуляризацияСеть обучалась последние 12 часов. Всё выглядело хорошо: градиенты стабильные, функция потерь уменьшалась. Но потом пришёл результат: все нули, один фон, ничего не распознано. «Что я сделал не так?», — спросил я у компьютера, который промолчал в ответ.
Почему нейросеть выдаёт мусор (например, среднее всех результатов или у неё реально слабая точность)? С чего начать проверку?
Сеть может не обучаться по ряду причин. По итогу многих отладочных сессий я заметил, что часто делаю одни и те же проверки. Здесь я собрал в удобный список свой опыт вместе с лучшими идеями коллег. Надеюсь, этот список будет полезен и вам.
Читать полностью »