Рубрика «машинное обучение» - 110

В этом посте речь пойдет про пилотное ML-исследование для гипермаркета «Утконос», где мы прогнозировали выкуп скоропортящихся товаров. При этом мы учли данные не только по остаткам на складе, но и производственный календарь с выходными и праздниками и даже погоду (жара, снег, дождь и град нипочем только «Taft’у Три погоды», но не покупателям). Теперь мы знаем, например, что «загадочная русская душа» особенно жаждет мяса по субботам, а белые яйца ценит выше коричневых. Но обо всем по порядку.

Выкупят-не выкупят: наш ML-пилот в «Утконосе» - 1

Читать полностью »

Quick Draw Doodle Recognition: как подружить R, C++ и нейросетки - 1

Привет!

Осенью прошлого года на Kaggle проходил конкурс по классификации нарисованных от руки картинок Quick Draw Doodle Recognition, в котором среди прочих поучаствовала команда R-щиков в составе Артема Клевцова, Филиппа Управителева и Андрея Огурцова. Подробно описывать соревнование не будем, это уже сделано в недавней публикации.

С фармом медалек в этот раз не сложилось, но было получено много ценного опыта, поэтому о ряде наиболее интересных и полезных на Кагле и в повседневной работе вещей хотелось бы рассказать сообществу. Среди рассмотренных тем: нелегкая жизнь без OpenCV, парсинг JSON-ов (на этих примерах рассматривается интеграции кода на С++ в скрипты или пакеты на R посредством Rcpp), параметризация скриптов и докеризация итогового решения. Весь код из сообщения в пригодном для запуска виде доступен в репозитории.

Содержание:

  1. Эффективная загрузка данных из CSV в базу MonetDB
  2. Подготовка батчей
  3. Итераторы для выгрузки батчей из БД
  4. Выбор архитектуры модели
  5. Параметризация скриптов
  6. Докеризация скриптов
  7. Использование нескольких GPU в облаке Google Cloud
  8. Вместо заключения

Читать полностью »

Откуда берут фотографии для тестирования систем распознавания лиц - 1
Аннотированная фотография из набора данных Diversity in Faces от IBM

Недавно компания IBM подверглась критике за то, что для обучения нейросетей без разрешения взяла общедоступные фотографии с фотохостинга Flickr и других сайтов, куда пользователи выкладывают свои снимки. Формально всё по закону — все фотографии опубликованы под лицензией Creative Commons — но люди чувствуют дискомфорт из-за того, что ИИ обучается на их лицах. Некоторые даже не знали, что их сфотографировали. Как известно, для съёмки человека в общественном месте не нужно спрашивать у него разрешения.
Читать полностью »

Новый алгоритм в 200 раз ускоряет автоматическое проектирование нейросетей - 1

ProxylessNAS напрямую оптимизирует архитектуры нейронных сетей для конкретной задачи и оборудования, что позволяет значительно увеличить производительность по сравнению с предыдущими прокси-подходами. На наборе данных ImageNet нейросеть проектируется за 200 GPU-часов (в 200−378 раз быстрее аналогов), а автоматически спроектированная модель CNN для мобильных устройств достигает того же уровня точности, что и MobileNetV2 1.4, работая в 1,8 раза быстрее.

Исследователи из Массачусетского технологического института разработали эффективный алгоритм для автоматического дизайна высокопроизводительных нейросетей для конкретного аппаратного обеспечения, пишет издание MIT News.

Алгоритмы для автоматического проектирования систем машинного обучения — новая область исследований в сфере ИИ. Такая техника называется «поиск нейронной архитектуры (neural architecture search, NAS) и считается трудной вычислительной задачей.
Читать полностью »

Генеративно-состязательные сети (ГСС) [Generative Adversarial Networks, GAN] – обладающий интересными возможностями класс глубоких генеративных моделей. Их основная идея – обучение двух нейросетей, генератора, который обучается синтезу данных (к примеру, изображений), и дискриминатора, обучающегося тому, как отличать реальные данных от тех, что синтезировал генератор. Этот подход успешно использовался для высококачественного синтеза изображений, улучшения сжатия изображений, и прочего.
Читать полностью »

Истории успеха любят все. И на хабре их достаточно много.

«Как я получил работу с зарплатой 300 000 долларов в Кремниевой долине»
«Как я получил работу в Google»
«Как я заработал 200 000 $ в 16 лет»
«Как я попал в Топ AppStore с простым приложением курса валют»
«Как я …» и еще тысяча и одна подобная история.

Как я не стал специалистом по машинному обучению - 1
Это же здорово, что человек добился успеха и решил об этом рассказать! Читаешь и радуешься за него. Но большинство таких историй объединяет одно: ты не можешь повторить путь автора! Либо ты живешь не в то время, либо не в том месте, либо ты родился мальчиком, либо…

Я думаю, что истории неуспеха в этом плане часто бывают полезней. Тебе просто не нужно делать то, что сделал автор. А это, согласитесь, гораздо проще, чем пытаться повторить чей-то опыт. Просто такими историями люди обычно не хотят делиться. А я расскажу.

Читать полностью »

Иногда для того, чтобы решить какую-то проблему, надо просто взглянуть на нее под другим углом. Даже если последние лет 10 подобные проблемы решали одним и тем же способом с разным эффектом, не факт, что этот способ единственный.

Есть такая тема, как отток клиентов. Штука неизбежная, потому что клиенты любой компании могут по множеству причин взять и перестать пользоваться ее продуктами или сервисами. Само собой, для компании отток — хоть и естественное, но не самое желаемое действие, поэтому все стараются этот отток минимизировать. А еще лучше — предсказывать вероятность оттока той или иной категории пользователей, или конкретного пользователя, и предлагать какие-то шаги по удержанию.

Анализировать и пытаться удержать клиента, если это возможно, нужно, как минимум, по следующим причинам:

  • привлечение новых клиентов дороже процедур удержания. На привлечение новых клиентов, как правило, нужно потратить определенные деньги (реклама), в то время как существующих клиентов можно активизировать специальным предложением с особыми условиями;
  • понимание причин ухода клиентов — ключ к улучшению продуктов и услуг.

Существуют стандартные подходы к прогнозированию оттока. Но на одном из чемпионатов по ИИ мы решили взять и попробовать для этого распределение Вейбулла. Чаще всего его используют для анализа выживаемости, прогнозирования погоды, анализа стихийных бедствий, в промышленной инженерии и подобном. Распределение Вейбулла — специальная функция распределения, параметризуемая двумя параметрами $λ$ и $k$.

Как мы предсказывали отток, подойдя к нему как к стихийному бедствию - 3
Википедия

В общем, вещь занятная, но для прогнозирования оттока, да и вообще в финтехе, использующаяся не так, чтобы часто. Под катом расскажем, как мы (Лаборатория интеллектуального анализа данных) это сделали, попутно завоевав золото на Чемпионате по искусственному интеллекту в номинации «AI в банках».
Читать полностью »

Ремастеринг «Звёздного пути» нейросетями до 1080p и 4K - 1

В качестве небольшого любительского проекта я поэкспериментировал с нейросетями AI Gigapixel для апскейла одного из моих любимых научно-фантастических сериалов — Star Trek: Deep Space Nine (DS9), в русском переводе «Звёздный путь: Глубокий космос 9».
Читать полностью »

Прямая трансляция и расписание конференции SmartMail Conf: Machine Learning - 1

Друзья, осталось всего три дня до SmartMail Conf — нашей первой конференции по машинному обучению. Программа выступления чуть более чем полностью состоит из докладов наших коллег из Почты Mail.ru. Они расскажут много интересного про обработку естественных языков, про компьютерное зрение и обучение моделей борьбе со спамом. Причём расскажут не в отрыве от реальности, а на практических примерах использования в наших собственных проектах и технологиях.

Для тех, кто не сможет приехать на конференцию, мы будем вести прямую трансляцию.

Читать полностью »

Правда ли, что мировые гиперскейлеры полностью захватят рынок облачных услуг, и какая судьба их ждет на российском рынке? Как обеспечить максимальную безопасность корпоративных данных в онлайн-хранилищах? За какими облачными технологиями будущее? 26 марта ведущие эксперты рынка облачных технологий расскажут обо всем этом на специализированной конференции «Облака. Модные тренды» в Центре Цифрового Лидерства SAP.

Приглашаем вас на конференцию “Облака. Модные тренды” 26 марта 2019 - 1
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js