Рубрика «natural language processing» - 10

Открытый курс «Deep Learning in NLP» от создателей DeepPavlov на базе курса cs224n

2020-02-06 в 11:00, admin, рубрики: course, deep learning, deeppavlov, DL, machine learning, natural language processing, nlp, ods, ods.ai, open data science, python, Блог компании Open Data Science, искусственный интеллект, машинное обучение

Всем привет!

Вступление

Меня зовут Алексей Клоков, я хочу рассказать о запуске классного курса по обработке естественного языка (Natural Language Processing), который очередной раз запускают физтехи из проекта DeepPavlov – открытой библиотеки для разговорного искусственного интеллекта, которую разрабатывают в лаборатории нейронных систем и глубокого обучения МФТИ. Благодарю их и Moryshka за разрешение осветить эту тему на Хабре в нашем ods-блоге. Итак, поехали!

Читать полностью »

Простое руководство по дистилляции BERT

2020-01-29 в 15:26, admin, рубрики: BERT, deep learning, natural language processing, neural networks, nlp (natural language processing), машинное обучение

Если вы интересуетесь машинным обучением, то наверняка слышали про BERT и трансформеры.

BERT — это языковая модель от Google, показавшая state-of-the-art результаты с большим отрывом на целом ряде задач. BERT, и вообще трансформеры, стали совершенно новым шагом развития алгоритмов обработки естественного языка (NLP). Статью о них и «турнирную таблицу» по разным бенчмаркам можно найти на сайте Papers With Code.

С BERT есть одна проблема: её проблематично использовать в промышленных системах. BERT-base содержит 110М параметров, BERT-large — 340М. Из-за такого большого числа параметров эту модель сложно загружать на устройства с ограниченными ресурсами, например, мобильные телефоны. К тому же, большое время инференса делает эту модель непригодной там, где скорость ответа критична. Поэтому поиск путей ускорения BERT является очень горячей темой.

Нам в Авито часто приходится решать задачи текстовой классификации. Это типичная задача прикладного машинного обучения, которая хорошо изучена. Но всегда есть соблазн попробовать что-то новое. Эта статья родилась из попытки применить BERT в повседневных задачах машинного обучения. В ней я покажу, как можно значительно улучшить качество существующей модели с помощью BERT, не добавляя новых данных и не усложняя модель.

Простое руководство по дистилляции BERT - 1

Читать полностью »

NeurIPS 2019: тренды ML, которые будут с нами следующее десятилетие

2020-01-24 в 13:05, admin, рубрики: deep learning, machine learning, machinelearning, natural language processing, neural networks, neurips, Блог компании Сбербанк, искусственный интеллект, Исследования и прогнозы в IT, машинное обучение

NeurIPS (Neural Information Processing Systems) – самая большая конференция в мире по машинному обучению и искусственному интеллекту и главное событие в мире deep learning.

Будем ли мы, DS-инженеры, в новом десятилетии осваивать еще и биологию, лингвистику, психологию? Расскажем в нашем обзоре.

NeurIPS 2019: тренды ML, которые будут с нами следующее десятилетие - 1
Читать полностью »

Хватит всё подряд называть ИИ

2020-01-20 в 12:42, admin, рубрики: AI, conversational ai, lia, natural language processing, nlu, Алгоритмы, искусственный интеллект, Клиентская оптимизация, клиентский сервис, машинное обучение, разговорный ИИ, чатботы

Хорошая новость в том, что я обнаружил много проблем. Плохая новость в том, что вы одна из них.

Большинство менеджеров и маркетологов называют искусственным интеллектом всё подряд: пылесосы, игрушечных роботов-трансформеров и даже подбор мобильных тарифов. Это в тренде и хорошо продаётся, только одна проблема — даже учёные не рискуют говорить, что создали ИИ.

Решили разобраться в определениях: можем ли мы вообще говорить об искусственном интеллекте, чем он отличается от машинного обучения и справедливо ли презрительно поднимать брови, когда мы видим очередную рекламу с ИИ.
Читать полностью »

Т — значит творчество

2019-12-31 в 7:09, admin, рубрики: natural language processing, антиплагиат, Блог компании «Антиплагиат», информационный поиск, машинное обучение, микросервисы, обработка текстов, позитив, Программирование, разработка, с новым годом

Пока весь мир, вместо того, чтобы ~~нарезать салаты~~ готовиться к встрече Нового года, следит за развитием ситуации с nginx, мы решили не усугублять и не готовить серьезную научную статью, не шокировать технологиями наступившего будущего и не грузить очень хитрым алгоритмом. Мы тоже пользуемся nginx и надеемся, что и с его создателями и с ним все будет хорошо. И нам (да и не только нам) важно, чтобы ситуация разрешилась не как подарок Деда Мороза, а как естественный ход событий.
Т — значит творчество - 1
Читать полностью »

Новогодний датасет 2019: открытый тональный словарь русского языка

2019-12-26 в 15:30, admin, рубрики: linguistics, natural language processing, датасеты, лингвистика, машинное обучение, открытые данные

Обычно в преддверии Нового года мы обновляем наш датасет по Открытой семантике. В этом году было сделано много работы, но она не подошла к логическому завершению и мы продолжим её в следующем году. Сейчас же мы хотим рассказать о не менее важном открытом датасете, вызвавшим живой интерес на ряде лингвистических конференций этого года, как по стороны исследователей, так и со стороны представителей индустрии. Речь в посте пойдёт об открытом тональном словаре русского языка.

Новогодний датасет 2019: открытый тональный словарь русского языка - 1
Читать полностью »

Как Яндекс научил искусственный интеллект находить ошибки в новостях

2019-12-12 в 7:43, admin, рубрики: BERT, natural language processing, Блог компании Яндекс, заголовки новостей, искусственный интеллект, команда яндекс.новостей, машинное обучение, нейронные сети, нейросети, поисковые технологии

Мы часто рассказываем о технологиях и библиотеках, которые зародились и сформировались в Яндексе. На самом деле мы ничуть не реже применяем и развиваем сторонние решения.

Сегодня я расскажу сообществу Хабра об одном из таких примеров. Вы узнаете, зачем мы научили нейросеть BERT находить опечатки в заголовках новостей, а не воспользовались готовой моделью, почему нельзя взять и запустить BERT на нескольких видеокартах и как мы использовали ключевую особенность этой технологии — механизм attention.

Как Яндекс научил искусственный интеллект находить ошибки в новостях - 1

Читать полностью »

Индексируем миллиарды текстовых векторов

2019-12-11 в 15:14, admin, рубрики: natural language processing, Алгоритмы, Анализ и проектирование систем, Блог компании Mail.Ru Group, графы, никто не читает теги, поисковые системы, поисковые технологии

При извлечении информации часто возникает задача поиска подобных фрагментов текста. В контексте поиска запрос может быть сгенерирован пользователем (например, текст, который пользователь вводит в поисковом движке) или самой системой. Часто нам нужно сопоставлять входящий запрос с уже проиндексированными запросами. В этой статье мы рассмотрим, как можно построить систему, решающую эту задачу применительно к миллиардам запросов без траты целого состояния на серверную инфраструктуру.
Читать полностью »

Как сделать из нейросети журналиста, или «Секреты сокращения текста на Хабре без лишних слов»

2019-12-11 в 12:53, admin, рубрики: ABBYY, diy или сделай сам, natural language processing, pgen, RNN, seq2seq, Блог компании ABBYY, генерация заголовков, искусственный интеллект, машинное обучение, нейросеть, Новости, саммаризация, токены

Как сделать из нейросети журналиста, или «Секреты сокращения текста на Хабре без лишних слов» - 1 Только не удивляйтесь, но второй заголовок к этому посту сгенерировала нейросеть, а точнее алгоритм саммаризации. А что такое саммаризация?

Это одна из ключевых и классических задач Natural Language Processing (NLP). Она заключается в создании алгоритма, который принимает на вход текст и на выходе выдаёт его сокращённую версию. Причем в ней сохраняется корректная структура (соответствующая нормам языка) и правильно передается основная мысль текста.

Такие алгоритмы широко используются в индустрии. Например, они полезны для поисковых движков: с помощью сокращения текста можно легко понять, коррелирует ли основная мысль сайта или документа с поисковым запросом. Их применяют для поиска релевантной информации в большом потоке медиаданных и для отсеивания информационного мусора. Сокращение текста помогает в финансовых исследованиях, при анализе юридических договоров, аннотировании научных работ и многом другом. Кстати, алгоритм саммаризации сгенерировал и все подзаголовки для этого поста.

К моему удивлению, на Хабре оказалось совсем немного статей о саммаризации, поэтому я решил поделиться своими исследованиями и результатами в этом направлении. В этом году я участвовал в соревновательной дорожке на конференции «Диалог» и ставил эксперименты над генераторами заголовков для новостных заметок и для стихов с помощью нейронных сетей. В этом посте я вначале вкратце пробегусь по теоретической части саммаризации, а затем приведу примеры с генерацией заголовков, расскажу, какие трудности возникают у моделей при сокращении текста и как можно эти модели улучшить, чтобы добиться выдачи более качественных заголовков.
Читать полностью »

Расстояние Левенштейна и поиск контролёров

2019-12-03 в 8:15, admin, рубрики: data mining, natural language processing, python, боты для социальных сетей, Вконтакте API, машинное обучение, общественный транспорт, паблик вконтакте, расстояние Левенштейна, социальные сети

Наверное, в каждом городе Беларуси, где есть троллейбусы, существуют группы ВК или чаты в Telegram, в которых люди отслеживают местоположение контролёров. В основном это делается для того, чтобы не оплатить проезд и проехать бесплатно, хотя в описании групп почти всегда есть постскриптум “Платите за проезд”.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «natural language processing» - 10

Открытый курс «Deep Learning in NLP» от создателей DeepPavlov на базе курса cs224n

Простое руководство по дистилляции BERT

NeurIPS 2019: тренды ML, которые будут с нами следующее десятилетие

Хватит всё подряд называть ИИ

Т — значит творчество

Новогодний датасет 2019: открытый тональный словарь русского языка

Как Яндекс научил искусственный интеллект находить ошибки в новостях

Индексируем миллиарды текстовых векторов

Как сделать из нейросети журналиста, или «Секреты сокращения текста на Хабре без лишних слов»

Расстояние Левенштейна и поиск контролёров

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «natural language processing» - 10

Новости

Актуальные темы

Архив