Рубрика «машинное обучение» - 132

Привет, в этой статье я расскажу про библиотеку ignite, с помощью которой можно легко обучать и тестировать нейронные сети, используя фреймворк PyTorch.

С помощью ignite можно писать циклы для обучения сети буквально в несколько строк, добавлять из коробки расчет стандартных метрик, сохранять модель и т.д. Ну, а для тех кто переехал с TF на PyTorch, можно сказать, что библиотека ignite — Keras для PyTorch.

В статье будет детально разобран пример обучения нейронной сети для задачи классификации, используя ignite

Обучение и тестирование нейронных сетей на PyTorch с помощью Ignite - 1

Читать полностью »

«Инфосистемы Джет», Росреестр, НЛМК и «Утконос» запускают AI-хакатон - 1
Друзья, мы запустили соревнование среди AI/ML-разработчиков – RAIF Hackathon. Приглашаем вас принять участие! Мероприятие проводится в рамках делового бизнес-форума RAIF 2018 (The Russian Artificial Intelligence Forum). Год назад мы делали похожий хакатон, но в этот раз формат будет отличаться. Вас ждут 2 этапа: отборочный онлайн- и финальный офлайн-баттл на глазах у гостей RAIF. Три задачи – от Росреестра, «Утконоса» и Новолипецкого металлургического комбината (НЛМК) ­– и, соответственно, три номинации на выбор. Призовой фонд – больше 1 млн рублей. И да, как и в прошлом году, надо будет решить поставленные задачи с помощью технологий машинного обучения ;).
Читать полностью »

Привет! Представляю вашему вниманию перевд статьи Solving multiarmed bandits: A comparison of epsilon-greedy and Thompson sampling.

Задача о многоруком бандите

Задача о многоруком бандите – одна из самых основных задач в науке о решениях. А именно, это задача об оптимальном распределении ресурсов в уcловиях неопределенности. Само название «многорукий бандит» пошло от старых игровых автоматов, которыми управляли при помощи ручек. Эти автоматы получили прозвище «бандиты», потому что после общения с ними люди обычно чувствовали себя ограбленными. А теперь представьте, что таких машин несколько и шанс выиграть у разных машин разный. Раз уж мы взялись играть с этими машинами, мы хотим определить, у какой этот шанс выше и использовать (exploit) эту машину чаще, чем другие.

Проблема в следующем: как нам эффективнее всего понять, какая машина подходит лучше всего, и при этом перепробовать много возможностей в реальном времени? Это не какая-то теоретическая проблема, это проблема, с которой бизнес сталкивается все время. Например, у компании есть несколько вариантов сообщений, которые надо показывать пользователям (в число сообщений, например, входят и реклама, сайты, изображения) так, чтобы выбранные сообщения максимизировали некое бизнес-задание (конверсию, кликабельность и пр.)

Читать полностью »

Представляю вашему вниманию вторую часть статьи о поиске подозреваемых в мошениничестве на основе данных из Enron Dataset. Если вы не читали первую часть, ознакомиться с ней можно здесь.

Сейчас речь пойдет про процесс построения, оптимизации и выбора модели, которая даст ответ: стоит ли подозревать человека в мошеничестве?

Enron

Читать полностью »

Суть

Оказывается для этого достаточно запуcтить всего лишь такой набор команд:

git clone https://github.com/attardi/wikiextractor.git
cd wikiextractor
wget http://dumps.wikimedia.org/ruwiki/latest/ruwiki-latest-pages-articles.xml.bz2
python3 WikiExtractor.py -o ../data/wiki/ --no-templates --processes 8 ../data/ruwiki-latest-pages-articles.xml.bz2

и потом немного отполировать скриптом для пост-процессинга

python3 process_wikipedia.py

Результат — готовый .csv файл с вашим корпусом.

Читать полностью »

Делаем проект по машинному обучению на Python. Часть 1 - 1

Перевод A Complete Machine Learning Project Walk-Through in Python: Part One.

Когда читаешь книгу или слушаешь учебный курс про анализ данных, нередко возникает чувство, что перед тобой какие-то отдельные части картины, которые никак не складываются воедино. Вас может пугать перспектива сделать следующий шаг и целиком решить какую-то задачу с помощью машинного обучения, но с помощью этой серии статей вы обретёте уверенность в способности решить любую задачу в сфере data science.

Чтобы у вас в голове наконец сложилась цельная картина, мы предлагаем разобрать от начала до конца проект применения машинного обучения с использованием реальных данных.
Читать полностью »

Я редактор этого блога, и я довольно ленив.

К двадцати шести годам я начал думать о том, куда вложить свободные деньги, чтобы получить ещё больше денег. Интернет кишит рекламой ставок на спорт (у каждого в голове в этом месте пронеслось некое название), бинарными опционами и всем таким. Но, конечно, это всё не то.

Как работает робоэдвайзинг в инвестициях. Спойлер: просто - 1

С другой стороны, можно инвестировать в валюту, ценные бумаги или ПИФы. Некоторые ребята пишут пошаговые руководства о том, как это сделать, но они разбиваются о первый факт обо мне. Правда в том, что для этого нужно делать просто кучу всего. А мне лень.

Еще вроде есть робоэдвайзеры — сервисы, которые за небольшую комиссию магическим образом делают всё сами. Я ненадолго победил свою лень и решил разобраться в том, как они работают.

Читать полностью »

Машинное обучение: схватка с комнатным слоном - 1

Один — ноль в пользу человеческого мозга. В новом исследовании ученые-информатики выяснили, что системам искусственного интеллекта не удается пройти тест на зрительное распознавание объектов, с которым легко справится любой ребенок.

«Это качественное и важное исследование напоминает нам, что „глубокое обучение" на самом не может похвастаться той глубиной, которая ему приписывается», — говорит Гэри Маркус, нейробиолог из Нью-Йоркского университета, не связанный с этой работой.

Результаты исследования касаются сферы компьютерного зрения, когда системы искусственного интеллекта пытаются обнаружить и категоризировать объекты. Например, их могут попросить найти всех пешеходов в уличной сцене или просто отличить птицу от велосипеда — задание, которое уже успело прославиться своей сложностью.

Ставки высоки: компьютеры постепенно начинают выполнять за людей важные операции, такие как автоматическое видеонаблюдение и автономное вождение. И для успешной работы необходимо, чтобы способности ИИ к зрительной обработке как минимум не уступали человеческим.

Задача не из легких.Читать полностью »

Около года назад компания Intel Movidius выпустила устройство для эффективного инференса сверточных нейросетей — Movidius Neural Compute Stick (NCS). Это устройство позволяет использовать нейросети для распознавания или детектирования объектов в условиях ограниченного энергопотребления, в том числе в задачах робототехники. NCS имеет USB-интерфейс и потребляет не более 1 ватта. В этой статье я расскажу об опыте использования NCS с Raspberry Pi для задачи обнаружения лиц в видео, включая как обучение Mobilenet-SSD детектора, так и его запуск на Raspberry.

Весь код можно найти в моих двух репозиториях: обучение детектора и демо с обнаружением лиц.

Обнаружение лиц на видео: Raspberry Pi и Neural Compute Stick - 1
Читать полностью »

Привет! Представляю вашему вниманию перевод статьи "AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks" авторов Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei Huang, Xiaodong He.

В данной публикации я хочу рассказать о своих экспериментах с архитектурой AttnGAN для генерации изображений из текстового описания. Эта архитектура уже упоминалась на Хабре после выхода оригинальной статьи в начале 2018 года, и меня заинтересовал вопрос – насколько сложно будет обучить такую модель самостоятельно?

Описание архитектуры

Для тех, кто не знаком с AttnGAN и классическим GAN, – вкратце опишу суть. Классический GAN состоит из минимум 2 нейронных сетей – генератора и дискриминатора. Задачей генератора является порождение некоторых данных (изображений, текста, аудио, видео и т.д), “похожих” на реальные данные из датасета. Задачей дискриминатора является оценка сгенерированных данных, попытка сравнить их с реальными и забраковать. Забракованный результат работы генератора стимулирует его порождать все лучший результат, чтобы “обмануть” дискриминатор, который, в свою очередь, учится все лучше распознавать подделки.

Модификаций GAN существует великое множество, и авторы AttnGAN подошли к вопросу архитектуры весьма изобретательно. Модель состоит из 9 нейросетей, тонко настроенных на взаимодействие. Выглядит это примерно так:
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js