Компания Deep Mind, занимающаяся разработкой искусственного интеллекта, создала ИИ Agent57 с глубоким обучением, который получил среднюю оценку во всех 57 играх приставки Atari 2600 выше, чем человек, сообщается на сайте Deep Mind.
В компании заинтересованы в создании искусственного интеллекта, который мог бы хорошо выполнять широкий спектр задач, говорится в блоге. Игры — отличный испытательный полигон для создание и проверки адаптивных алгоритмов, поскольку представляют собой богатый набор задач, в которых для победы или рекорда необходимо разрабатывать сложные поведенческие стратегии. Кроме того, с их помощью легко оценивать прогресс в обучении ИИ. Конечная цель создания ИИ заключается не в превосходстве человека в играх — они лишь трамплин для разработки систем, которые могли бы преуспеть в различных задачах. В то же время игры позволяют сравнивать ИИ с человеком в производительности, если брать человеческие результаты в них как эталон.
Набор игр Atari 2600 был как контрольный для обучения и тестирования ИИ предложен в 2012 году. Он стал удобен для разработчиков, поскольку в сумме предполагает большое разнообразие задач и стратегий, которые можно выработать для достижения лучшего результата. Однако сами разработчики с осторожностью относятся к результатам своей работы — несмотря на то, что средняя производительность ИИ значительно выросла за восемь лет, некоторые игры были проще других, а набор из 57 игр всё же не может полноценно показывать способность интеллекта решать самые разнообразные задачи.
Для создания Agent57 Deep Mind использовала метод глубокого Q-обучения (DQN). С начала исследования инструментарий разработчиков значительно расширился, но некоторые задачи остались неразрешимыми: так, ИИ не смог побить человеческий рекорд в четырёх играх — Montezuma’s Revenge, Pitfall, Solaris и Skiing. Для первых двух игр, по мнению разработчиков, необходимо провести дополнительные исследования и выяснить, продолжать ли интеллекту развивать свою стратегию, которая до сих пор была неуспешной, или же нужно разработать новую. На разрешение этого вопроса может потребоваться достаточно много времени, говорят в Deep Mind: в дополнительном исследовании нужно попробовать выполнить множество неоптимальных действий для сбора информации, которая впоследствии понадобится для обнаружения действенных стратегий. С Solaris и Skiing возникает другая сложность — в них сложно сопоставить последствия действий ИИ с вознаграждениями, которые он получает. Поэтому Agent57 нужно собирать информацию самому в течение длительного времени, чтобы получить обратную связь, необходимую для изучения. Для работы с этими четырьмя играми Deep Mind пришлось значительно модернизировать схему обучения.
Усовершенствования DQN позволили исследователям повысить эффективность ИИ и стабильность его обучения. Deep Mind использовали двойное DQN, приоритетную выборку из буфера воспроизведение опыта и дуэлирующие нейронные сети. Эти улучшения качественно изменили результаты опытов. Далее исследователи использовали распределённое глубокое обучение, запущенное на многих компьютерах одновременно. Это позволило ИИ быстрее усваивать и извлекать уроки из своего опыта, а разработчикам — быстрее перебирать идеи. Agent57 также является распределенным агентом RL, который разделяет сбор данных и процессы обучения. Он взаимодействует с элементами среды, передавая данные об этом в центральный банк памяти. Затем ИИ выбирает учебные данные из буфера воспроизведения подобно тому, как человек использует свои воспоминания, чтобы научиться на них. Эти данные используются для построения функции потерь, которые он получит в ходе решения задачи, а затем на их основе агент обновляет параметры своей нейронной сети.
В Deep Mind отмечают, что разрабатываемый агент для решения различных задач должен иметь память, чтобы учитывать предыдущие наблюдения при принятии решений. Это позволит основывать их не только на настоящем наблюдении, которое является частичным, но и на прошлых наблюдениях, которые раскроют информацию об окружающей среде в более полной мере. В качестве примера приводится ситуация, когда агент идёт из комнаты в комнату, чтобы посчитать количество стульев в здании. Без памяти он может рассчитывать только на данные об одной комнате, в то время как с долгой краткосрочной памятью агент сможет суммировать количество стульев во всех комнатах поочерёдно. Взаимодействие память с поведением имеет решающее значение для построения подобных систем самообучения, отмечают в Deep Mind.
С помощью DQN исследователи использовали в обучении стратегию эпсилон-жадного алгоритма: с фиксированной вероятностью, равной ε, ИИ предпринимает случайное действие, в противном случае выбирает наилучшее на данный момент действие. Однако такой алгоритм не подходит для сложных задач исследования — ИИ требуется непомерно много времени для изучения большого количества действий. Поэтому разработчики сосредоточились на развитии мотивации с помощью поощрений. Кроме того, исследователи ввели понятие мета-контроллера Agent57, который пытается найти баланс разведки и эксплуатации (exploration-vs-exploitation). Для его разработки они пробовали множество различных концепций включая обучение группы агентов с различными значениями гиперпараметров и непосредственное изучение значений гиперпараметров по градиентному спуску, и остановились на «алгоритме многорукого бандита», чтобы выбрать, какую стратегию должен получать агент для максимизации получаемого опыта и на его основе выбрать степень предпочтения разведки или эксплуатации. Это стало особенно полезно для прохождения в играх Solaris и Skiing.
Agent57 построен на объединении предыдущего RL агента компании Never Give Up и мета-контроллера. Он выбирает между долгосрочной и краткосрочной внутренними мотивациями для обучения и изучения новых стратегий. Мета-контроллер позволяет каждому действующему субъекту агента выбирать различные компромиссы между показателями производительности в краткосрочной и долгосрочной перспективе, а также исследовать новые состояния. Именно в этом отличие нового Agent57 от Never Give Up — он добивается производительности, большей, чем человеческой, за счёт улучшенного поиска компромисса между разведкой и эксплуатацией. В Deep Mind отметили, что до идеального результата ещё далеко, и разработчикам предстоит многократно улучшить эффективность агента, чтобы добиться максимальной производительности ИИ в играх Atari.
Автор: avouner