Рубрика «машинное обучение» - 192

Neural conversational models: как научить нейронную сеть светской беседе. Лекция в Яндексе

2017-07-22 в 13:48, admin, рубрики: conversation, deep learning, ассистент, Блог компании Яндекс, диалоговые системы, естественный язык, машинное обучение, нейронные сети, рекуррентная нейронная сеть

Хороший виртуальный ассистент должен не только решать задачи пользователя, но и разумно отвечать на вопрос «Как дела?». Реплик без явной цели очень много, и заготовить ответ на каждую проблематично. Neural Conversational Models — сравнительно новый способ создания диалоговых систем для свободного общения. Его основа — сети, обученные на больших корпусах диалогов из интернета. Борис hr0nix Янгель рассказывает, чем хороши такие модели и как их нужно строить.

Под катом — расшифровка и основная часть слайдов.

Читать полностью »

Что читать о нейросетях

2017-07-21 в 15:04, admin, рубрики: Блог компании Mail.Ru Group, глубокое обучение, ИИ, книги, машинное обучение, нейросеть, обработка изображений, Программирование, Профессиональная литература

Что читать о нейросетях - 1

Нейросети переживают второй Ренессанс. Сначала еще казалось, что сообщество, решив несколько прикладных задач, быстро переключится на другую модную тему. Сейчас очевидно, что спада интереса к нейросетям в ближайшем будущем не предвидится. Исследователи находят новые способы применения технологий, а следом появляются стартапы, использующие в продукте нейронные сети.

Стоит ли изучать нейросети не специалистам в области машинного обучения? Каждый для себя ответит на этот вопрос сам. Мы же посмотрим на ситуацию с другой стороны — что делать разработчикам (и всем остальным), которые хотят больше знать про методы распознавания образов, дискриминантный анализ, методы кластеризации и другие занимательные вещи, но не хотят расходовать на эту задачу лишние ресурсы.

Ставить перед собой амбициозную цель, с головой бросаться в онлайн-курсы — значит потратить много времени на изучение предмета, который, возможно, вам нужен лишь для общего развития. Есть один проверенный (ретроградный) способ, занимающий по полчаса в день. Книга — офлайновый источник информации. Книга не может похвастаться актуальностью, но за ограниченный период времени даст вам фундаментальное понимание технологии и способов ее возможной реализации под ваши задачи.

Читать полностью »

Британские спутниковые снимки 2: Как все было на самом деле

2017-07-21 в 11:06, admin, рубрики: cnn, deep learning, machine learning, object detection, ods, open data science, python, Алгоритмы, Блог компании Open Data Science, глубокое обучение, машинное обучение, нейронные сети, обработка изображений

Сразу оговорюсь, что данный пост не несет большой технической нагрузки и должен восприниматься исключительно в режиме «пятничной истории». Кроме того, текст насыщен английскими словами, какие-то из них я не знаю как перевести, а какие-то просто не хочется переводить.

Краткое содержание первой части:
1. DSTL (научно-техническая лаборатория при министерстве обороны Великобритании) провела соревнование на Kaggle.
2. Соревнование закончилось 7 марта, результаты объявлены 14 марта.
3. Пять из десяти лучших команд — русскоговорящие, причем все они являются членами сообщества Open Data Science.
4. Призовой фонд в $100,000 разделили брутальный малазиец Kyle, команда Романа Соловьева и Артура Кузина, а также я и Сергей Мушинский.
5. По итогам были написаны блог-посты (мой пост, пост Артура, наш с Серегой пост на Kaggle), проведены выступления на митапах (мое выступление в Adroll, мое выстпление в H20.ai, выступление Артура в Yandex, выступление Евгения Некрасова в Mail.Ru Group), написан tech report на arxiv.

Организаторам понравилось качество предложенных решений, но не понравилось, сколько они за это соревнование отстегнули. В Каggle ушло $500k, в то время как призовые всего $100k.
Читать полностью »

Копируем человеческий мозг: операция «Свертка»

2017-07-20 в 18:42, admin, рубрики: Компьютерное зрение, машинное обучение, нейронные сети, свёрточная нейросеть

Чему уже научились сверточные искусственные нейронные сети (ИНС) и как они устроены?

1. Предисловие.

Такие статьи принято начинать с экскурса в историю, дабы описать кто придумал первые ИНС, как они устроены и налить прочую, бесполезную, по большей части, воду. Скучно. Опустим это. Скорее всего вы представляете, хотя бы образно, как устроены простейшие ИНС. Давайте договоримся рассматривать классические нейронные сети (типа перцептрона), в которых есть только нейроны и связи, как черный ящик, у которого есть вход и выход, и который можно натренировать воспроизводить результат некой функции. Нам не важна архитектура этого ящика, она может быть очень разной для разных случаев. Задачи, которые они решают — это регрессия и классификация.

2. Прорыв.

Что же такого произошло в последние годы, что вызвало бурное развитие ИНС?
Ответ очевиден — это технический прогресс и доступность вычислительных мощностей.

Приведу простой и очень наглядный пример:

Читать полностью »

Что такое SMT и как оно работает в приложениях — плюсы и минусы

2017-07-18 в 14:02, admin, рубрики: AMD Ryzen, hyper-threading, windows, windows performance station, winperst, машинное обучение, оптимизация, Программирование, разработка под windows

Пока я радую свои графоманские пристрастия написанием детальной технической статьи про «Windows Performance Station», захотелось поделиться своими мыслями о том, что хорошего и плохого приносит SMT в процессоры «AMD» и «Intel», и как тут поможет «Windows Performance Station».

Тем, кому интересна данная тема, добро пожаловать под кат…
Читать полностью »

Анализируем карьеру игроков NHL с помощью Survival Regression и Python

2017-07-18 в 13:48, admin, рубрики: big data, data mining, nhl, survival analysis, Блог компании New Professions Lab, кривые дожития, машинное обучение, метки: nhl, survival analysis, кривые дожития

Привет! Сегодня рассмотрим один из подходов к оценке временного риска, который основан на кривой выживаемости и одноименной регрессии, и применим его к анализу продолжительности карьеры игроков НХЛ.

Когда у данного пациента произойдет рецидив? Когда наш клиент уйдет? Ответы на подобные вопросы можно найти с помощью анализа выживания, который может быть использован во всех областях, где исследуется временной промежуток от «рождения» до «смерти» объекта, либо аналогичные события: период от поступления оборудования до его выхода из строя, от начала использования услуг компании и до отказа от них и т.д. Чаще всего данные модели используются в медицине, где необходимо оценить риск летального исхода у больного, чем и обусловлено название модели, однако они также применимы в сфере производства, банковском и страховом секторах.

Читать полностью »

Яндекс открывает технологию машинного обучения CatBoost

2017-07-18 в 9:19, admin, рубрики: catboost, open source, python, xgboost, Блог компании Яндекс, градиентный бустинг, матрикснет, машинное обучение, нейронные сети, поисковые технологии, яндекс

Сегодня Яндекс выложил в open source собственную библиотеку CatBoost, разработанную с учетом многолетнего опыта компании в области машинного обучения. С ее помощью можно эффективно обучать модели на разнородных данных, в том числе таких, которые трудно представить в виде чисел (например, виды облаков или категории товаров). Исходный код, документация, бенчмарки и необходимые инструменты уже опубликованы на GitHub под лицензией Apache 2.0.

Яндекс открывает технологию машинного обучения CatBoost - 1

CatBoost – это новый метод машинного обучения, основанный на градиентном бустинге. Он внедряется в Яндексе для решения задач ранжирования, предсказания и построения рекомендаций. Более того, он уже применяется в рамках сотрудничества с Европейской организацией по ядерным исследованиям (CERN) и промышленными клиентами Yandex Data Factory. Так чем же CatBoost отличается от других открытых аналогов? Почему бустинг, а не метод нейронных сетей? Как эта технология связана с уже известным Матрикснетом? И причем здесь котики? Сегодня мы ответим на все эти вопросы.

Читать полностью »

QML: как легко получать футболки в конкурсах mail.ru по машинному обучению

2017-07-18 в 0:44, admin, рубрики: mlbootcamp, python, машинное обучение, Программирование

QML: как легко получать футболки в конкурсах mail.ru по машинному обучению - 1

В субботу завершился месячный конкурс по машинному обучению от mail.ru ML bootcamp 5. я занял в нем 14ое место. Это уже третий мой конкурс, в котором я выиграл одежду и за время участия у меня сформировался фреймворк для помощи в подборе решения в подобных соревнованиях. На примере решения ML bootcamp 5 я опишу как им пользоваться.

Как полагается, сперва покажу товар лицом :)

Сохранение промежуточных результатов вычисления моделей для дальнейшего использования в метамоделях (в т.ч. результатов кроссвалидаций)
Модели для различных усреднений и стэкинга
Вспомогательные скрипты для отбора признаков

Читать полностью »

Машинное обучение и поиск темной материи: соревнование от ЦЕРНа и Яндекса

2017-07-17 в 11:47, admin, рубрики: big data, data science, kaggle, physics, python, Блог компании Яндекс, машинное обучение, Программирование

Яндекс уже несколько лет сотрудничает с ЦЕРНом. Он сделал для учёных-физиков поиск по событиям в БАК, предоставил свои вычислительные ресурсы и технологии обработки данных — в том числе Матрикснет и ClickHouse. В 2014 году Яндекс стал ассоциированным членом CERN openlab.

Школа анализа данных Яндекса тоже принимает участие в экспериментах ЦЕРНа. Машинное обучение в наши дни становится «микроскопом» для современных учёных, которым необходимо изучать большие объемы данных и находить в них различные закономерности. В этом году ШАД совместно с лабораторией Методов анализа больших данных Вышки и Имперским колледжем Лондона организует в Великобритании международную школу, которая посвящена способам применения современных технологий в научных исследованиях.

Эксперимент OPERA — из Швейцарии в Италию (картинка взята с сайта коллаборации OPERA)

Сегодня в рамках школы начинается открытое соревнование, участники которого будут ни много ни мало искать нейтрино. Принять участие в поисках мы приглашаем всех желающих. Им предстоит обрабатывать данные с международного эксперимента OPERA. Для этого будут предоставлены исходные данные — результаты сканирования слоев фотопленок одного «кирпича» эксперимента OPERA. Соревнование состоит из двух этапов. На первом этапе участники будут искать отдельный ливень в «кирпиче», первая вершина которого известна, на втором — несколько ливней, рассредоточенных по объему «кирпича» без дополнительной информации. Победители смогут рассказать о своих решениях ученым, работающим в ЦЕРНе.

Читать полностью »

Чудесный мир Word Embeddings: какие они бывают и зачем нужны?

2017-07-17 в 11:03, admin, рубрики: data mining, glove, nlp, opendatascience, python, SVD, word2vec, Блог компании Open Data Science, машинное обучение, поисковые технологии

Начать стоит от печки, то есть с постановки задачи. Откуда берется сама задача word embedding?
Лирическое отступление: К сожалению, русскоязычное сообщество еще не выработало единого термина для этого понятия, поэтому мы будем использовать англоязычный.
Сам по себе embedding — это сопоставление произвольной сущности (например, узла в графе или кусочка картинки) некоторому вектору.

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «машинное обучение» - 192

Neural conversational models: как научить нейронную сеть светской беседе. Лекция в Яндексе

Что читать о нейросетях

Британские спутниковые снимки 2: Как все было на самом деле

Копируем человеческий мозг: операция «Свертка»

1. Предисловие.

2. Прорыв.

Что такое SMT и как оно работает в приложениях — плюсы и минусы

Анализируем карьеру игроков NHL с помощью Survival Regression и Python

Яндекс открывает технологию машинного обучения CatBoost

QML: как легко получать футболки в конкурсах mail.ru по машинному обучению

Машинное обучение и поиск темной материи: соревнование от ЦЕРНа и Яндекса

Чудесный мир Word Embeddings: какие они бывают и зачем нужны?

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «машинное обучение» - 192

1. Предисловие.

2. Прорыв.

Новости

Актуальные темы

Архив