Рубрика «знаки препинания»
Обучить модель RoBERTa расстановке запятых на балконе для продакшена
2025-02-13 в 14:16, admin, рубрики: python, pytorch, roberta, запятая, знаки препинания, искусственный интеллект, машинное обучение, нейросеть, обработка текста, пунктуация
RoBERTa — улучшенная версия модели BERT, разработанная Facebook AI. Она показывает отличные результаты в задачах обработки естественного языка, таких как классификация текстов и генерация ответов.
Восстановление знаков пунктуации и заглавных букв — теперь и на длинных текстах
2021-12-09 в 17:06, admin, рубрики: big data, natural language processing, python, pytorch, silero, запятая, знаки препинания, машинное обучение, нейросеть, прописные буквы
После релиза нашей первой модели, расставляющей знаки препинания и большие буквы, было много пожеланий доработать её, чтобы она могла обрабатывать тексты целиком, а не отдельные предложения. Это коллективное пожелание и было осуществлено в нашей новой версии модели.

В целом, архитектура и датасеты остались прежними. Что изменилось:
- обучение теперь производилось не на отдельных предложениях, а на нескольких последовательных предложениях (принимаем во внимание, что конструктивное ограничение модели при обучении — 512 токенов на вход, что позволяет свободно подавать ~150 слов на любом из четырех поддерживаемых языков)
- для ускорения обучения модели сокращение словаря теперь проводилось не только на инференсе, но и на трейне, что позволило увелить размер батча
