Исследователи из NVIDIA представили новый подход к обучению роботов в симуляции, который не нуждается в ручной настройке параметров моделирования. Человеку достаточно задать начальные условия симуляции, а всё остальное она сделает сама.
Обучение роботов в симуляции позволяет создать столько моделей роботов, сколько позволяют вычислительные мощности, запустить моделирование и получить результат быстрее, чем при обучении на реальных объектах. Но у него есть серьёзный недостаток — ни одна модель не может идеально воссоздать реальные условия. Необходимо тщательно настраивать параметры моделирования, проверять результат на практике и вносить изменения в симуляцию.
Питер Аббил из Калифорнийского университета в Беркли так описал этот процесс:
«Для всех, кто использует симуляции в реальных исследованиях, доказательством их успеха является факт переноса на реального робота. И этот процесс может занять много итераций. Это не “я обучил в симуляции, затем реальный робот все успешно выполнил”, а “я обучил в симуляции, попробовал на роботе, ничего не получилось, переделал симуляцию и теперь надеюсь, что всё наконец заработает”. Это может повторяться целую вечность, прежде чем вы получите нужное поведение. В процессе обучения вы постоянно проверяете на реальном роботе, чтобы увидеть, работает ли результат».
Чтобы избавиться от ручной настройки, исследователи из NVIDIA передали данные об ошибках реального робота обратно в симуляцию для уточнения параметров. В этой системе обучение шло в симуляции, затем результат отправлялся на тест, а система с помощью 3D-сенсора наблюдала за роботом и корректировала параметры моделирования. После нескольких итераций она применила наиболее подходящие значения, и робот справился с заданием.
Подобный подход занимает больше времени, чем обучение с ручной настройкой, но он позволяет обучить сразу много роботов разным задачам, что невозможно сделать вручную.
Автор: Mimizavr