Рубрика «reinforcement learning» - 3

AlphaGo Zero совсем на пальцах

2017-12-04 в 8:27, admin, рубрики: AI, AlphaGo, alphago lee, alphago zero, artificial intelligence, big data, bite my shiny metal ass, deep learning, DeepMind, Go, lee sedol, MCTS, monte carlo tree search, reinforcement learning, Алгоритмы, Анализ и проектирование систем, ИИ, искусственный интеллект, клуб фанбоев Семёна, машинное обучение, нейросеть сгенерировала этот пост, ты - хурма

Завтра искусственный интеллект поработит Землю и станет использовать человеков в качестве смешных батареек, поддерживающих функционирование его систем, а сегодня мы запасаемся попкорном и смотрим, с чего он начинает.

19 октября 2017 года команда Deepmind опубликовала в Nature статью, краткая суть которой сводится к тому, что их новая модель AlphaGo Zero не только разгромно обыгрывает прошлые версии сети, но ещё и не требует никакого человеческого участия в процессе тренировки. Естественно, это заявление произвело в AI-коммьюнити эффект разорвавшейся бомбы, и всем тут же стало интересно, за счёт чего удалось добиться такого успеха.

По мотивам материалов, находящихся в открытом доступе, Семён sim0nsays записал отличный стрим:

А для тех, кому проще два раза прочитать, чем один раз увидеть, я сейчас попробую объяснить всё это буквами.

Сразу хочу отметить, что стрим и статья собирались в значительной степени по мотивам дискуссий на closedcircles.com, отсюда и спектр рассмотренных вопросов, и специфическая манера повествования.

Ну, поехали.
Читать полностью »

Эволюционные стратегии как масштабируемая альтернатива обучению с подкреплением

2017-06-06 в 11:38, admin, рубрики: reinforcement learning, Алгоритмы, машинное обучение, обработка изображений, обучение с подкреплением, оптимизация, эволюционный алгоритм, метки: reinforcement learning

Эволюционные стратегии как масштабируемая альтернатива обучению с подкреплением - 1 Изложение статьи от том, что давно известные эволюционные стратегии оптимизации могут превзойти алгоритмы обучения с подкреплением.
Преимущества эволюционных стратегий:

Простота реализации
Не требуется обратного распространения
Легко масштабируется в распределенной среде вычислений
Малое число гиперпараметров.

Читать полностью »

Обучение с подкреплением: от Павлова до игровых автоматов

2017-02-22 в 12:09, admin, рубрики: deep learning, reinforcement learning, искусственный интеллект, компьютерные игры, машинное обучение, МФТИ, павлов

История обучения с подкреплением в зависимости от того, как считать насчитывает от полутора веков до 60 лет. Последняя волна (которая захлестывает сейчас нас всех) началась вместе с подъемом всего машинного обучения в середине 90-ых годов 20-ого века. Но люди, которые сейчас на гребне этой волны начинали само собой не сейчас, а во время предыдущего всплеска интереса — в 80-ых. В процессе знакомства с историей нам встретятся многие персонажи, который сыграли роль в становлении учения об искусственном интеллекте (которое мы обсуждали в прошлой статье). Само собой, это неудивительно, ведь обучение с подкреплением — его неотъемлемая часть. Хотя обо всем по порядку.

Само название “обучение с подкреплением” взято из работ известного русского физиолога, нобелевского лауреата Ивана Петровича Павлова. В 1923 вышел его труд “Двадцатилетний опыт объективного изучения высшей нервной деятельности (поведения) животных” [1], известный на западе как Conditional Reflexes [2]. Но психологические подходы были известны и ранее.

Читать полностью »

Вы кодите — вас изучают. Как хакатоны стали социальным феноменом

2017-01-31 в 10:50, admin, рубрики: deep learning, reinforcement learning, искусственный интеллект, компьютерные игры, МФТИ, Учебный процесс в IT, хакатон, Хакатоны

Хабр, прочитай про то, как хакатоны из маленьких прогерских междусобойчиков превращаются в предмет исследования социальных и компьютерных наук и приходи в МФТИ на научную школу по искусственному интеллекту в рамках хакатона DeepHack.RL 6-10 февраля.

Читать полностью »

Софт ИИ обучается делать ИИ: учёные сообщают об успехах в самообучении искусственного интеллекта

2017-01-22 в 10:41, admin, рубрики: Google Brain, reinforcement learning, будущее здесь, глубокое обучение, ИИ, искусственный интеллект, машинное зрение, мозг, научная фантастика, нейросети, обучение с подкреплением, Сингулярность, Софт

Софт ИИ обучается делать ИИ: учёные сообщают об успехах в самообучении искусственного интеллекта - 1
По Курцвейлу, логарифмическая шкала смены парадигм для ключевых исторических событий проявляет экспоненциальную тенденцию

Ключевой элемент для возникновения технологической сингулярности — запуск некотролируемого цикла самосовершенствования ИИ, где каждое новое более умное поколение ИИ будет появляться быстрее предыдущего. Согласно теории сингулярности по Вернору Винджу, в результате взрывного развития интеллекта в цикле экспоненциального самосовершенствования появится сверхинтеллект, который намного превзойдёт возможности человеческого разума и по сути будет непонятен для него. Называются разные примерные даты наступления сингулярности, исходя из экстраполяции технологического прогресса. Рей Курцвейл считает, что это произойдёт примерно в 2045 году (хотя он не считает обязательным экспоненциальное самосовершенствование ИИ), а среднее медианное значение по опросу экспертов по сильному ИИ — 2040 год.

Вполне возможно, что сингулярность наступит раньше прогнозируемого. Инженеры из компании Google и разработчики систем ИИ из других компаний сообщают об успехах, которых удалось добиться в ключевом направлении — создании систем ИИ, предназначенных для проектирования других систем ИИ.
Читать полностью »

Нейросетка играет в Доту

2017-01-15 в 22:52, admin, рубрики: c++, deep learning, reinforcement learning, TensorFlow, Алгоритмы, ИНС, искусственный интеллект, машинное обучение, нейронные сети, обучение с подкреплением, Программирование, Разработка робототехники

Нейросетка играет в Доту - 1

Всем привет! На самом деле нейросетка играет не в привычную Dota 2, а в RussianAICup 2016 CodeWizards. RussianAICup — это ежегодное открытое соревнование по программированию искусственного интеллекта. Участвовать в этом соревновании довольно интересно. В этом году темой была игра похожая на Доту. Так как я уже какое-то время занимаюсь обучением с подкреплением, то мне хотелось попробовать применить это в RussianAICup. Главной целью было научить нейронную сеть играть в эту игру, хотя занятие призового места — это, конечно, было бы приятно. В итоге нейросеть держится в районе 700 места. Что, я считаю, неплохо, ввиду ограничений соревнования. В этой статье речь пойдет скорее об обучении с подкреплением и алгоритмах DDPG и DQN, а не о самом соревновании.
Читать полностью »

Почему этой зимой мы снова приглашаем всех поиграть в компьютерные игры при помощи искусственного интеллекта

2016-12-29 в 13:03, admin, рубрики: deep learning, gpgpu, reinforcement learning, Блог компании Московский физико-технический институт (МФТИ), искусственный интеллект, компьютерные игры, машинное обучение, МФТИ, ненормальное программирование, Спортивное программирование, хакатон

Хабр, МФТИ приветствует тебя! Как истинные технари, сразу переходим к делу и приглашаем всех, кому интересно, принять участие в новом хакатоне DeepHack, который пройдет на Физтехе с 6 по 12 февраля. Отборочный этап уже начался и продлится до 22 января. Это мы всё к чему… Если вы не понаслышке знаете, что такое DQN, deep RL и DeepHack сразу регистрируйтесь на очередную научную школу-хакатон — rl.deephack.me.

А если вы не до конца в теме и вам, например, не ясно, почему компьютерные игры, какое отношение они имеют к управлению дата-центрами и что на самом деле будет в феврале, то срочно идите под кат — там максимальное погружение в жизнь искусственного интеллекта от древности и до наших дней. Ну вы же не думаете, что всё это изобрели только в XXI веке?
Читать полностью »

Сбор данных Atari 2600 для обучения с подкреплением

2016-12-28 в 15:06, admin, рубрики: AI, Atari 2600, machine learning, open source, reinforcement learning, дипломная работа, искусственный интеллект, машинное обучение, обучение с подкреплением

Сбор данных Atari 2600 для обучения с подкреплением - 1
Сайт atarigrandchallenge.com, предназначенный для сбора данных

Всем привет! “Искусственный интеллект победил человека в Го”, “Искусственный интеллект играет в Atari 2600 лучше чем человек”, “Компьютерные боты приблизились по уровню игры в Doom к человеческим игрокам” — последнее время таких заголовков становится всё больше и больше. Появляются многочисленные среды для разработки и тестирования алгоритмов обучения с подкреплением (Reinforcement Learning): OpenAI Universe, Microsoft Minecraft Malmo, DeepMind SCII. И кто знает, что будет завтра?

Для своей магистерской работы я хочу собрать коллекцию реплеев игр для Atari 2600, сыгранных людьми. В дальнейшем я использую ее для обучения ботов и выложу все собранные данные в открытый доступ, чтобы все желающие могли использовать их для своих исследований.
Читать полностью »

О новых успехах противостояния (СР УВЧ!*)

2016-09-21 в 23:04, admin, рубрики: computer vision, deep learning, DOOM, DQN, LSTM, reinforcement learning, Алгоритмы, машинное обучение, обработка изображений

Пару дней назад появилась статья которую почти никто не освещал. На мой взгляд она замечательная, поэтому я про неё расскажу в меру своих способностей. Статья о том, чего пока не было: машину научили играть в шутер, используя только картинку с экрана. Вместо тысячи слов:

Не идеально, но по мне — очень классно. 3D шутер, который играется в реальном времени — это впервые.
Читать полностью »

BlackBox Challenge: Что внутри черного ящика?

2016-04-30 в 10:39, admin, рубрики: artificial intelligence, big data, blackbox challenge, cython, deep learning, machine learning, reinforcement learning, искусственный интеллект, машинное обучение, нейронные сети, обучение с подкреплением, Спортивное программирование, метки: blackbox challenge

Всем привет!

Сегодня речь пойдет о состязании, в области машинного обучения, BlackBox Challenge, а также о самом черном ящике, механизмах его работы, изменения состояний, начисления вознаграждений и конечно о том, что же там внутри.
Чуть ниже я опубликую решение, входящее, на момент публикации, в 5-ку лучших.
Уверен оно поможет другим участникам улучшить свои результаты, а возможно и отыскать новый подход.

BlackBox Challenge: Что внутри черного ящика? - 1
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «reinforcement learning» - 3

AlphaGo Zero совсем на пальцах

Эволюционные стратегии как масштабируемая альтернатива обучению с подкреплением

Обучение с подкреплением: от Павлова до игровых автоматов

Вы кодите — вас изучают. Как хакатоны стали социальным феноменом

Софт ИИ обучается делать ИИ: учёные сообщают об успехах в самообучении искусственного интеллекта

Нейросетка играет в Доту

Почему этой зимой мы снова приглашаем всех поиграть в компьютерные игры при помощи искусственного интеллекта

Сбор данных Atari 2600 для обучения с подкреплением

О новых успехах противостояния (СР УВЧ!*)

BlackBox Challenge: Что внутри черного ящика?

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «reinforcement learning» - 3

Новости

Актуальные темы

Архив