В ноябре 2021 проходила конференция EMNLPЧитать полностью »
Рубрика «natural language processing» - 5
Что новенького по сущностям? Новости последней конференции EMNLP
2022-03-01 в 7:53, admin, рубрики: data mining, domclick, EMNLP2021, named entity recognition, natural language processing, relation extraction, Блог компании ДомКликВычисление стихотворного размера
2022-02-14 в 10:33, admin, рубрики: .net, C#, natural language processing, Алгоритмы, обработка естественного языка, поэзия, ПрограммированиеПривет. Я последние пару лет играюсь с естественной речью на русском языке. Решил поделиться своим опытом по работе с поэзией. Будет две статьи: вот эта и про рифму (когда дойдут руки всё доделать).
Половина программистов, прочитав заголовок, скорее всего подумала, что задача очень простая: сравнить две маски. Но есть нюансы, которые сильно влияют на результат, и о них то я и расскажу.
Немного теории
Речь пойдёт о так называемом силлабо-тоническом стихосложенииЧитать полностью »
Проблемы современного машинного обучения
2022-02-14 в 10:30, admin, рубрики: artificial intelligence, computer vision, natural language processing, natural language understanding, Блог компании Open Data Science, искусственный интеллект, машинное обучение, Научно-популярноеВо многих популярных курсах машинного и глубокого обучения вас научат классифицировать собак и кошек, предсказывать цены на недвижимость, покажут еще десятки задач, в которых машинное обучение, вроде как, отлично работает. Но вам расскажут намного меньше (или вообще ничего) о тех случаях, когда ML-модели не работают так, как ожидалось.
Частой проблемой в машинном обучении является неспособность ML-моделей корректно работать на большем разнообразии примеров, чем те, что встречались при обучении. Здесь идет речь не просто о других примерах (например, тестовых), а о других типахЧитать полностью »
Векторное представление товаров Prod2Vec: как мы улучшили матчинг и избавились от кучи эмбеддингов
2022-01-28 в 7:59, admin, рубрики: computer vision, data mining, deep learning, machine learning, natural language processing, nlp (natural language processing), ozon tech, Блог компании Ozon Tech, машинное обучение, обработка изображенийНа странице любого товара на Ozon есть картинки, заголовок, описание и дополнительные атрибуты. Всю эту информацию мы хотим извлекать и обрабатывать для решения разных задач. И особенно она важна для команды матчинга.
Чтобы извлекать признаки из товара, мы строим его векторные представления (эмбеддинги), используя различные текстовые модели (fastText, трансформеры) для описаний и заголовков и целый набор архитектур свёрточных сетей (ResNet, Effnet, NFNet) — для картинок. Далее эти векторы используются для генерации фичей и товарного сопоставления.
На Ozon ежедневно появляются миллионы обновлений — и считать эмбеддинги для всех моделей становится проблематично. А что, если вместо этого (где каждый вектор описывает отдельную часть товара) мы получим один вектор для всего товара сразу? Звучит неплохо, только как бы это грамотно реализовать…
Универсальная кириллица: возможна ли такая клавиатура?
2021-12-31 в 11:10, admin, рубрики: natural language processing, изучение языков, Научно-популярное, русская раскладка, русский язык, украинский языкТекст написан иностранным агентом – лицом, проживающим за пределами России (в Канаде)
За пару дней до Рождества на Хабре появился пост про транслитерацию польского языка кириллицейЧитать полностью »
Цемна стронэ Моцы
2021-12-23 в 22:00, admin, рубрики: javascript, natural language processing, speedcubing, starwars, Unicode, изучение языков, Лайфхаки для гиков, Научно-популярное, польский язык, пятничное, фильмыПочатково рыцер Еди, под вплывем Дартха Сидиоуса прешедл на цемна стронэ Моцы и прыял тытул „Дартх Вадер”.
Вы поняли что-то из предыдущего предложения? Это польский язык. Это не перевод, это польский язык как он есть, просто записаный кириллицей. Вчера, я случайно оказался на польском сайте, там всё было написано по польски, ничего не понятно, и мне вдруг стало любопытно, что если конвертировать польский текст в кириллицу, смогу ли я, внезапно, понимать его? Ну хоть на сколько-то понимать. Готового такого конвертера я нигде не нашел, ни на гитхабе ни в переводчиках типа Гугла. Пришлось написать самому.
Восстановление знаков пунктуации и заглавных букв — теперь и на длинных текстах
2021-12-09 в 17:06, admin, рубрики: big data, natural language processing, python, pytorch, silero, запятая, знаки препинания, машинное обучение, нейросеть, прописные буквы
После релиза нашей первой модели, расставляющей знаки препинания и большие буквы, было много пожеланий доработать её, чтобы она могла обрабатывать тексты целиком, а не отдельные предложения. Это коллективное пожелание и было осуществлено в нашей новой версии модели.
В целом, архитектура и датасеты остались прежними. Что изменилось:
- обучение теперь производилось не на отдельных предложениях, а на нескольких последовательных предложениях (принимаем во внимание, что конструктивное ограничение модели при обучении — 512 токенов на вход, что позволяет свободно подавать ~150 слов на любом из четырех поддерживаемых языков)
- для ускорения обучения модели сокращение словаря теперь проводилось не только на инференсе, но и на трейне, что позволило увелить размер батча
Нейросети для Natural Language Inference: логические умозаключения на русском языке
2021-10-10 в 12:35, admin, рубрики: BERT, natural language inference, natural language processing, natural language understanding, nli, nlp, nlu, python, Transformers, zero-shot classification, машинное обучение, обработка естественного языка, Программирование, СемантикаNLI (natural language inference) – это задача автоматического определения логической связи между текстами. Обычно она формулируется так: для двух утверждений A и B надо выяснить, следует ли B из A. Эта задача сложная, потому что она требует хорошо понимать смысл текстов. Эта задача полезная, потому что "понимательную" способность модели можно эксплуатировать для прикладных задач типа классификации текстов. Иногда такая классификация неплохо работает даже без обучающей выборки!
До сих пор в открытом доступе не было нейросетей, специализированных на задаче NLI для русского языка, но теперь я обучил целых три: Читать полностью »
Моя маленькая помощь малым языкам
2021-10-03 в 13:28, admin, рубрики: data mining, natural language processing, python, изучение языков, Компьютерная лингвистика, лингвистика, машинное обучение, машинный перевод, переводчики, языкСложный был год: налоги, катастрофы, бандитизм и стремительное исчезновение малых языков. С последним мириться было нельзя...
На территории России проживает большое количество народов, говорящих более чем на 270 языках. Около 150 языков насчитывает менее 1 тысячи носителей, а за последние 20 лет 7 языков уже исчезло.
Этот проект — мои "пять копеек" по поддержке языкового разнообразия. Его цель — помощь исследователям в области машинного перевода, лингвистам, а также энтузиастам, радеющим за свой родной язык. Помогать будем добыванием параллельных корпусов, — своеобразного "топлива", при помощи которого современные модели все успешнее пытаются понять человеческий язык.
Сегодняшние языки — башкирский и чувашский, с популяризаторами которых я в последнее время тесно общался. Сначала я покажу как в принципе извлечь корпус из двух текстов на разных языках. Затем мы столкнемся с тем, что на рассматриваемых языках предобученная модель не тренировалась и попробуем ее дообучить.
Экспериментировать мы будем в среде Colab'а, чтобы любой исследователь при желании смог повторить этот подход для своего языка.
I. Извлекаем параллельный корпус
Для выравнивания двух текстов я написал на python'е библиотеку lingtrain_aligner. Код у нее открыт. Она использует ряд предобученных моделей, можно подключать и свои. Одной из самых удачных мультиязыковых моделей сейчас является LaBSE. Она обучалась на 109 языках. Так как соотношение текстов смещено в сторону популярных языков, то для них качество эмбеддингов (эмбеддингом называют вектор чисел применительно к данным, которые он описывает) будет лучше.
Сделай себе книгу для изучения языка с нейросетевыми иллюстрациями
2021-09-02 в 7:21, admin, рубрики: GAN, LaBSE, natural language processing, nlp, изучение языков, искусственный интеллект, книги, лингвистика, машинное обучение, обработка изображений
Статья будет интересна все любителям программирования, иностранных языков и красивых книг. Сначала мы сделаем параллельную книгу, имея на руках два обычных текста. Затем мы проиллюстрируем ее картинками в стиле pixel art на основе лишь текстовых подсказок.
Книгу можно сделать более чем на сотне языков с восстановлением и подсветкой связей между предложениями:
А теперь давайте сделаем такую книгу сами.