Рубрика «машинное обучение» - 156

ML-Блиц: разбор задач первого квалификационного раунда

2018-06-26 в 11:00, admin, рубрики: Блог компании Яндекс, Занимательные задачки, конкурсы, конкурсы разработчиков, математика, машинное обучение, Спортивное программирование, Яндекс.Блиц

23 июня 2018 года состоялся финал ML-Блица, конкурса по машинному обучению, организованного Яндексом. Ранее мы анонсировали его на Хабре и рассказывали, какие примерно задачи могут встретиться на реальном соревновании.

Теперь мы хотим поделиться с вами разборами задач одного из квалификационных раундов — самого первого. Двое участников сумели решить все задачи этого соревнования; 57 участников решили хотя бы одну задачу, а 110 совершили хотя бы по одной попытке сдать задание.

Хотя автор этих строк принимал участие в составлении задач конкурса, именно в первой квалификации его задачи не принимали участие. Так что я пишу этот разбор с позиции участника конкурса, который впервые увидел условия и хотел как можно быстрее получить как можно больше баллов.

Самым популярным языком программирования среди участников соревнования ожидаемо оказался python, поэтому я также использовал именно этот язык во всех случаях, когда требовалось написать код.

Все мои решения доступны на GitHub

Читать полностью »

Как с помощью дата-майнинга мы уменьшали брак на металлообрабатывающем заводе — на установке охлаждения

2018-06-26 в 7:57, admin, рубрики: Блог компании ТЕХНОСЕРВ, выявление неполадок, машинное обучение, металлургическая промышленность, металлургия, охлаждение

Как с помощью дата-майнинга мы уменьшали брак на металлообрабатывающем заводе — на установке охлаждения - 1
МКС-5000, часть линии

Одна огромная российская производственная компания куёт сталь, которой знаменита наша страна. Эта сталь идёт на строительство судов и на менее романтичные вещи в промышленности вроде труб. У них установлена современная линия МКС-5000, комплекс для производства крупнолистового проката.

Линия управляется вендорской коробкой типа «чёрный ящик», которая знает усреднённые значения параметров для в среднем оптимального получения результата. Но все заготовки разные, и некоторые результаты выходят с линии бракованными. Их пытаются править с помощью мужика с болгаркой или отправляют назад в переплавку в зависимости от типа брака.

Самая больная точка — устройство контролируемого охлаждения (один из 14 этапов линии). Мы пришли туда со своей математикой для двух задач:

Поиска заготовок, которые надо снимать с линии, — с ними при охлаждении в любом случае получится брак.
Подбора индивидуальных параметров охлаждения под каждую заготовку.

Результат — из тех 5% брака мы умеем «спасать» 42% заготовок и знаем про заведомый брак (до окончания обработки на линии) на ещё примерно 35% заготовок. Это 10 миллионов рублей на партию.
Читать полностью »

Как мы в хакатоне AI.HACK победили, или Когда нужно выключить искусственный интеллект и включить естественный

2018-06-26 в 7:06, admin, рубрики: ai.hack, Алгоритмы, Блог компании Инфосистемы Джет, Большие данные, машинное обучение, хакатон

Как мы в хакатоне AI.HACK победили, или Когда нужно выключить искусственный интеллект и включить естественный - 1

В марте команда наших разработчиков с гордым названием «Руки-Ауки» двое суток неусыпно сражалась на цифровых полях хакатона AI.HACK. Всего было предложено пять задач от разных компаний. Мы сосредоточились на задаче «Газпромнефти»: прогнозирование спроса на топливо со стороны В2В-клиентов. Нужно было по обезличенным данным — регион приобретения топлива, номер заправки, вид топлива, цена, дата и ID-клиента — научиться прогнозировать, сколько в будущем купит тот или иной клиент. Забегая вперёд — наша команда решила эту задачу с наивысшей точностью. Клиенты были разбиты на три сегмента: крупные, средние и мелкие. И помимо основной задачи мы также построили прогноз суммарного потребления по каждому из сегментов.
Читать полностью »

Школа Данных: как совместить математику и бизнес

2018-06-26 в 4:44, admin, рубрики: big data, data mining, kaggle, sna, Алгоритмы, алгоритмы обработки данных, анализ данных, анализ социальных сетей, Блог компании Школа Данных, искусственный интеллект, математика, машинное обучение, рекомендательные системы, школа данных

Что мешает успешно совместить математику и бизнес?

Этот текст — первая из серии статей о том, как корректно встроить инструменты big data с выгодой для бизнеса.

Маленький спойлер: все получится, если помнить о самом бизнесе.

Еще 5 лет назад крупные компании хотели внедрить у себя новомодную “бигдату”. Но настоящих экспериментаторов было мало. Исключениями стали те, кто точно обладал массой данных: телеком, банковский сектор, интернет-компании. А в 2018 году за экспертизой в больших данных бизнесы приходят сами, причем из самых неожиданных отраслей: металлургия, страхование, авиаиндустрия.Читать полностью »

Новый чемпионат ML Boot Camp VI. Прогноз отклика аудитории на интернет-опрос

2018-06-25 в 15:09, admin, рубрики: big data, data mining, machine learning, Machine Learning Boot Camp, mail.ru, ML Boot Camp, Блог компании Mail.Ru Group, машинное обучение

Новый чемпионат ML Boot Camp VI. Прогноз отклика аудитории на интернет-опрос - 1

Сегодня, 25 июня, стартует ML Boot Camp VI с задачей «Прогноз отклика аудитории на интернет-опрос» (если вы вдруг впервые слышите, что такое ML Boot Camp, заходите под спойлер).
Читать полностью »

AI, практический курс. Предобработка и дополнение данных с изображениями

2018-06-25 в 9:16, admin, рубрики: Hands on AI практический курс, Блог компании Intel, машинное обучение, обработка изображений, Программирование

Предобработка — это общий термин для всех манипуляций, производимых с данными перед передачей их модели, включая центрирование, нормализацию, сдвиг, вращение, обрезку и т. п. Как правило, предобработка требуется в двух случаях.

Очистка данных. Предположим, что на изображениях присутствуют некоторые артефакты. Чтобы облегчить обучение модели, артефакты необходимо удалить на этапе предобработки.
Дополнение данных. Иногда небольших наборов данных недостаточно для качественного глубокого обучения модели. Подход с дополнением данных весьма полезен при решении этой проблемы. Это процесс трансформации каждого образца данных различными способами и добавления к набору данных таких измененных образцов. Таким образом можно повысить эффективный размер набора данных.

Рассмотрим некоторые возможные методы трансформации при предобработке и их реализацию через Keras.

AI, практический курс. Предобработка и дополнение данных с изображениями - 1 Читать полностью »

Выявление и классификация токсичных комментариев. Лекция в Яндексе

2018-06-24 в 10:54, admin, рубрики: kaggle, Блог компании Яндекс, конкурсы, конкурсы разработчиков, машинное обучение, модерация, Спортивное программирование, токсичность

Во всех современных системах модерации используется либо краудсорсинг, либо уже ставшее классикой машинное обучение. На очередной тренировке по ML в Яндексе Константин Котик, Игорь Галицкий и Алексей Носков рассказали о своём участии в конкурсе по массовому выявлению оскорбительных комментариев. Конкурс проходил на платформе Kaggle.

— Всем привет! Меня зовут Константин Котик, я data scientist в компании «Кнопка жизни», студент физфака и Высшей школы бизнеса МГУ.
Читать полностью »

iMaterialist Furniture Challenge или 50 оттенков стульев

2018-06-22 в 8:51, admin, рубрики: computer vision, kaggle, keras, neural networks, python, Алгоритмы, искусственный интеллект, классификация изображений, машинное обучение, нейронные сети, Спортивное программирование

Недавно на Kaggle закончилось соревнование iMaterialist Challenge (Furniture), задачей в котором было классифицировать изображения на 128 видов мебели и предметов быта (так называемая fine-grained classification, где классы очень близки друг к другу).

В этой статье я опишу подход, который принес нам с m0rtido третье место, но прежде, чем переходить к сути, предлагаю воспользоваться для решения этой задачи естественной нейросетью в голове и разделить стулья на фото ниже на три класса.

Читать полностью »

Соревнование Kaggle Home Credit Default Risk — анализ данных и простые предсказательные модели

2018-06-19 в 20:12, admin, рубрики: big data, data mining, kaggle, LightGBM, python, scikit-learn, машинное обучение, перевод

На датафесте 2 в Минске Владимир Игловиков, инженер по машинному зрению в Lyft, совершенно замечательно объяснил, что лучший способ научиться Data Science — это участвовать в соревнованиях, запускать чужие решения, комбинировать их, добиваться результата и показывать свою работу. Собственно в рамках этой парадигмы я и решил посмотреть внимательнее на соревнование по оценке кредитного риска от Home Credit и объяснить (начинающим дата саентистам и прежде всего самому себе), как правильно анализировать подобные датасеты и строить под них модели.

Соревнование Kaggle Home Credit Default Risk — анализ данных и простые предсказательные модели - 1
Читать полностью »

Редукция нейронных сетей при помощи вариационной оптимизации

2018-06-19 в 6:37, admin, рубрики: deep learning, dropout, gradient descent, neural network, regularization, variational optimization, Алгоритмы, математика, машинное обучение

Привет. Сегодня я бы хотел развить тему вариационной оптимизации и рассказать, как применить её к задаче обрезки малоинформативных каналов в нейронных сетях (pruning). При помощи неё можно сравнительно просто увеличить «скорострельность» нейронной сети, не перелопачивая её архитектуру.

Редукция нейронных сетей при помощи вариационной оптимизации - 1

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «машинное обучение» - 156

ML-Блиц: разбор задач первого квалификационного раунда

Как с помощью дата-майнинга мы уменьшали брак на металлообрабатывающем заводе — на установке охлаждения

Как мы в хакатоне AI.HACK победили, или Когда нужно выключить искусственный интеллект и включить естественный

Школа Данных: как совместить математику и бизнес

Новый чемпионат ML Boot Camp VI. Прогноз отклика аудитории на интернет-опрос

AI, практический курс. Предобработка и дополнение данных с изображениями

Выявление и классификация токсичных комментариев. Лекция в Яндексе

iMaterialist Furniture Challenge или 50 оттенков стульев

Соревнование Kaggle Home Credit Default Risk — анализ данных и простые предсказательные модели

Редукция нейронных сетей при помощи вариационной оптимизации

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «машинное обучение» - 156

Новости

Актуальные темы

Архив