Представьте себе, что вы поспорили с друганом, что было раньше — курица или яйцо повышение какого-то налога, к примеру, или новости на эту тему, или вовсе важное событие заглушили тучей новостей про новую песню, скажем, Киркорова. Удобно было бы посчитать, сколько новостей на каждую тему было в каждый конкретный момент времени, а потом наглядно это представить. Собственно, этим и занимается проект “радар новостей рунета”. Под катом мы расскажем, при чём здесь машинное обучение и как любой доброволец может в этом поучаствовать.
Рубрика «nlp» - 8
Визуализация новостей рунета
2019-08-01 в 12:05, admin, рубрики: bigartm, data mining, machine learning, natural language processing, ner, nlp, open source, Блог компании Open Data Science, визуализация данных, машинное обучение, НовостиXLNet против BERT
2019-07-08 в 11:21, admin, рубрики: BERT, natural language processing, nlp, ods, open data science, python, XLNet, Блог компании Open Data Science, глубокое обучение, искусственный интеллект, машинное обучение, нейросети, обработка естественного языка, обработка текстаВ конце июня коллектив из Carnegie Mellon University показал нам XLNet, сразу выложив публикацию, код и готовую модель (XLNet-Large, Cased: 24-layer, 1024-hidden, 16-heads). Это предобученная модель для решения разных задач обработки естественного языка.
В публикации они сразу же обозначили сравнение своей модели с гугловым BERT-ом. Они пишут, что XLNet превосходит BERT в большом количестве задач. И показывает в 18 задачах state-of-the-art результаты.
Читать полностью »
GPT-2 нейросеть от OpenAI. Быстрый старт
2019-02-16 в 21:04, admin, рубрики: gpt, GPT-2, nlp, OpenAI, искусственный интеллект, машинное обучение, нейронные сети, обработка естественного языкаНе успели отшуметь новости о нейросети BERT от Google, показавшей state-of-the-art результаты на целом ряде разговорных (NLP) задач в машинном обучении, как OpenAI выкатили новую разработку: GPT-2. Это нейронная сеть с рекордным на данный момент числом параметров (1.5 млрд, против обычно используемых в таких случаях 100-300 млн) оказалась способна генерировать целые страницы связного текста.
Генерировать настолько хорошо, что в OpenAI отказались выкладывать полную версию, опасаясь что эту нейросеть будут использовать для создания фейковых новостей, комментариев и отзывов, неотличимых от настоящих.
Тем не менее, в OpenAI выложили в общий доступ уменьшенную версию нейросети GPT-2, со 117 млн параметров. Именно ее мы запустим через сервис Google Colab и поэкспериментруем с ней.
Открытый курс «Deep Learning на пальцах»
2019-02-05 в 8:05, admin, рубрики: computer vision, deep learning, machine learning, MOOC, nlp, opendatascience, reinforcement learning, Блог компании Open Data Science, машинное обучение, обработка изображенийПосле 18-го февраля начнется открытый и бесплатный курс "Deep Learning на пальцах".
Курс предназначен для того, чтобы разобраться с современным deep learning с нуля, и не требует знаний ни нейросетей, ни machine learning вообще. Лекции стримами на Youtube, задания на Питоне, обсуждения и помощь в лучших русскоязычных чат-сообществах — ODS.ai и ClosedCircles.
После него вы не станете экспертом, но поймете про что все это, сможете применять DL на практике и будете способны разбираться дальше сами. Ну, в лучшем случае.
Одновременно и в том же объеме курс будет читаться для магистрантов Новосибирского Государственного Университета, а также студентов CS центра Новосибирска.
Выглядеть объяснение на пальцах будет примерно так:
Главная ссылка — dlcourse.ai. Подробности ниже.
BERT — state-of-the-art языковая модель для 104 языков. Туториал по запуску BERT локально и на Google Colab
2019-01-21 в 8:35, admin, рубрики: BERT, nlp, глубокое обучение, искусственный интеллект, машинное обучение, нейросети, обработка естественного языка, обработка текстаBERT — это нейронная сеть от Google, показавшая с большим отрывом state-of-the-art результаты на целом ряде задач. С помощью BERT можно создавать программы с ИИ для обработки естественного языка: отвечать на вопросы, заданные в произвольной форме, создавать чат-ботов, автоматические переводчики, анализировать текст и так далее.
Google выложила предобученные модели BERT, но как это обычно и бывает в Machine Learning, они страдают от недостатка документации. Поэтому в этом туториале мы научимся запускать нейронную сеть BERT на локальном компьютере, а также на бесплатном серверном GPU на Google Colab.
EXAM — State-of-the-art метод классификации текста
2019-01-12 в 14:27, admin, рубрики: nlp, nlp (natural language processing), Алгоритмы, глубокое обучение, классификация текста, классификация текстов, машинное обучениеКлассификация текста — одна из наиболее распространенных задач в NLP и обучении с учителем, когда датасет содержит текстовые документы, а метки используются для тренировки текстового классификатора.
Читать полностью »
Как отличить шампунь от шампиньонов, а шампуры от шампанского… Elasticsearch — поиск товаров в магазинных базах данных
2018-12-13 в 14:12, admin, рубрики: data mining, elasticsearch, natural language processing, nlp, search engineЗадача
Одна из больших задач приложения для хранения и анализа покупок — поиск одинаковых или очень близких продуктов в базе данных, где собраны разномастные и непонятные наименования продуктов, полученные из чеков. Есть два вида входного запроса:
- Специфичное название с сокращениями, которое может быть понятно только кассирам местного супермаркета, либо заядлым покупателям.
- Запрос на естественном языке, введенный пользователем в поисковую строку
Запросы первого вида как правило исходят из продуктов в самом чеке, когда пользователю нужно подыскать продукты подешевле. Наша задача заключается в том, чтобы подобрать максимально похожий аналог товара из чека в других магазинах поблизости. Здесь важно подобрать наиболее соответствующую марку продукта и по возможности объём.
Чем занимаются в департаменте R&D ABBYY: NLP Advanced Research Group
2018-11-22 в 9:55, admin, рубрики: ABBYY, natural language processing, nlp, R&D, Блог компании ABBYY, лекция, машинное обучение, МФТИ, обработка естественного языка, саммаризация, синтаксический анализ, Школа глубокого обучения, эллипсисЧем занимаются в департаменте R&D в ABBYY? Чтобы ответить на этот вопрос, мы начинаем серию публикаций о том, как наши разработчики создают новые технологии и совершенствуют существующие решения. Сегодня расскажем про направление Natural Language Processing (NLP).
Мы в ABBYY занимаемся исследованиями в сфере обработки естественного языка и беремся за сложные научные задачи, для которых пока нет готовых решений. Так мы создаем инновации, которые ложатся в основу продуктов и помогают нашим заказчикам, да и нам двигаться вперед. Кстати, 24 ноября на лекции в Школе глубокого обучения при МФТИ руководитель NLP Advanced Research Group в департаменте R&D ABBYY Иван Смуров расскажет, какие в мире есть задачи по анализу текста и как современные нейросети позволяют их решать. А в этом посте Иван рассказал нам о трех задачах, которыми занимается сейчас. Читать полностью »
Парсим Википедию для задач NLP в 4 команды
2018-10-05 в 16:46, admin, рубрики: big data, machine learning, nlp, python, python3, RNN, wikipedia, машинное обучениеСуть
Оказывается для этого достаточно запуcтить всего лишь такой набор команд:
git clone https://github.com/attardi/wikiextractor.git
cd wikiextractor
wget http://dumps.wikimedia.org/ruwiki/latest/ruwiki-latest-pages-articles.xml.bz2
python3 WikiExtractor.py -o ../data/wiki/ --no-templates --processes 8 ../data/ruwiki-latest-pages-articles.xml.bz2
и потом немного отполировать скриптом для пост-процессинга
python3 process_wikipedia.py
Результат — готовый .csv
файл с вашим корпусом.