Рубрика «обучение с подкреплением» - 4

Всем привет!

Сегодня речь пойдет о состязании, в области машинного обучения, BlackBox Challenge, а также о самом черном ящике, механизмах его работы, изменения состояний, начисления вознаграждений и конечно о том, что же там внутри.
Чуть ниже я опубликую решение, входящее, на момент публикации, в 5-ку лучших.
Уверен оно поможет другим участникам улучшить свои результаты, а возможно и отыскать новый подход.

BlackBox Challenge: Что внутри черного ящика? - 1
Читать полностью »

imageFanuc — крупнейший в мире производитель промышленных роботов, которые используют обучение с подкреплением, чтобы самостоятельно выяснить, как выполнять поставленные перед ними задачи.

В Токио, внутри скромного на вид офисного здания, живет необыкновенно умный промышленный робот, разработанный японской компанией Fanuc. Дайте ему задачу: взять виджеты из одной коробки и положить их в другую, и он будет всю ночь пытаться понять, как это сделать. Утром машина уже освоит эту работу, точно также, как если бы была запрограммирована специалистом, сообщает technologyreview.
Читать полностью »

Запущен свободный проект GNU Gneural Network - 1

Нейросети и системы искусственного интеллекта — горячая тема исследований в наши дни. К сожалению, эти исследования часто ведутся в недрах коммерческих компаний, таких как Google и IBM, и закрыты от публики. Чтобы исправить ситуацию, нужно вести исследования открыто, считают энтузиасты из Фонда свободного ПО, которые запустили инициативу GNU Gneural Network.

Пакет Gneural Network представляет собой программируемую нейросеть. В текущей версии 0.0.1 это довольно простая сеть прямого распространения, которая выполняет простые задачи вроде подбора формул — построения кривых по набору значений, но очень скоро разработчики планируют значительно расширить функциональность. Прямо сейчас идёт работа над реализацией архитектуры LSTM (long short term memory) для рекуррентной нейросети и глубинного обучения. Есть также планы по реализации обучения с подкреплением.
Читать полностью »

КПДВ. В Karpathy game играет нейронная сеть

Всем привет!
Я думаю, что многие слышали о Google DeepMind. О том как они обучают программы играть в игры Atari лучше человека. Сегодня я хочу представить вам статью о том, как сделать нечто подобное. Данная статья — это обзор идеи и кода примера применения Q-learning, являющегося частным случаем обучения с подкреплением. Пример основан на статье сотрудников Google DeepMind.
Читать полностью »

Компания Мастер Кит, выпускающая серию наборов для начинающих под общим названием «Азбука электронщика», конечно же, не могла обойти вниманием такой известный компонент, как «легендарный» интегральный таймер NE555. И, если в первом наборе «Основы схемотехники», рассматриваются 15 простейших схем с применением основных электронных компонентов (резисторов, конденсаторов, транзисторов, диодов), то в наборе, который мы назвали «Классика схемотехники», приведены 20 схем с применением таймера NE555.

Три пятерки для электронщика - 1
Читать полностью »

ИИ от Google самостоятельно освоил 49 старых игр Atari - 1

Компания Google создала систему искусственного интеллекта, которая играет лучше человека во многие аркадные игры. Программа научилась играть, не зная правил и не имея доступа к коду, а просто наблюдая за картинкой на экране.
Читать полностью »

Коучинг не учит, а помогает учиться.

Тимоти Голви

Мы можем учиться, учиться,
может быть, учиться учиться.

Грегори Бейтсон

Грегори БейтсонГрегори Бейтсон — один из наиболее влиятельных мыслителей нашего времени (по мнению Фритьофа Капры, «Дао физики»), работы которого соединяют знания из эпистемологии, кибернетики, антропологии, психологии, экологии. Одним из самых фундаментальных концептов Бейтсона является идея о логических уровнях обучения и коммуникации.

Основание ее лежит в теории логических типов Бертрана Рассела, которая коротко может быть изложена следующим образом: все объекты мышления организованы в своеобразную иерархию, к нулевому типу которой относятся индивидуальные объекты (например, ложка). К первому типу относятся множества объектов нулевого типа (например, ложки как множество); ко второму — множества множеств этих объектов (например, «столовые приборы» как множество, которое объединяет ложки, вилки, ножи и другие приборы) и т. д. Таким образом проводится строгое разграничение между предметами, свойствами предметов, свойствами свойств предметов и т. д.

Читать полностью »

В прошлый раз мы рассмотрели общую постановку задачи о многоруких бандитах, обсудили, зачем это может быть нужно, и привели один очень простой, но эффективный алгоритм. Сегодня я расскажу о ещё одной модели, которая эффективна в ситуациях, когда ожидаемые доходы от бандитов меняются со временем, да и само число и состав «ручек» может меняться – о динамической гамма-пуассоновской модели.

Многорукие бандиты: модель dynamic Gamma Poisson
Читать полностью »

Это первый пост из блога Surfingbird, который я выношу в общие хабы алгоритмов и искусственного интеллекта; честно говоря, раньше просто не догадался. Если интересно, заходите к нам, чтобы прочесть предыдущие тексты, – я не знаю, что произойдёт, если просто добавить новые хабы к постам несколькомесячной давности.

Краткое содержание предыдущих серий о рекомендательных системах:

В этот раз начинаем новую тему – о многоруких бандитах. Бандиты – это самая простая, но от этого только более важная постановка задачи в так называемом обучении с подкреплением

Многорукие бандиты: введение и алгоритм UCB1
Читать полностью »

Я тут написал статью Проблема «двух и более учителей». Первые штрихи, пытаясь показать одну сложную нерешенную проблему. Но первые штрихи оказались немного за сложными. Поэтому я решил для читателей немного разжевать теорию. Увы, сейчас видимо учат/(учатся ?) несколько шаблонно — типа как для каждой задачи свои методы.

Так мне указали, что для задачи классификации — нейронные сети (обучение с учителем), генетические алгоритмы (обучение без учителя) — задача кластеризации, а еще есть обучение с подкреплением (Q-обучение) — как задача агента, которых бродит и что-то делает. И вот такими шаблонами многие и судят.

Попробуем разобраться, что дает применение нейронных сетей, как некоторые заявляют, к задаче которую они не могут решить — а именно к обучению с подкреплением.

И заодно проанализируем диссертацию Бурцев М.С., «Исследование новых типов самоорганизации и возникновения поведенческих стратегий», в которой не больше не меньше красиво сделано именно применение простеньких нейронных сетей в задаче обучения с подкреплением.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js