Андроид Unitree G1 научился кататься на скейтборде

Ему помогли обучение с подкреплением и знание физики

Китайские инженеры научили человекоподобного робота Unitree G1 кататься на скейтборде с помощью разработанного ими алгоритма HUSKY. Они использовали модель физики скейтборда и обучение с подкреплением. Робот умеет отталкиваться одной ногой от земли, как настоящий скейтбордист, набирать скорость, плавно поворачивать, наклоняя корпус на нужный угол, и сохранять равновесие во время всех маневров. Препринт статьи опубликован на сайте arXiv.org, у проекта есть страница на GitHub.

Научить робота кататься на скейтборде — задача куда сложнее, чем может показаться на первый взгляд. В отличие от привычной ходьбы по твердому полу, андроиду в данном случае приходится управлять подвижной динамически нестабильной платформой с колесами, которые не имеют собственных моторов. Хотя робособаки смогли усвоить этот трюк, для человекоподобных роботов с их высоким центром тяжести скейтбординг до последнего времени давался с трудом. Основная проблема заключается в том, что традиционные методы управления, вроде управления на основе прогнозирующих моделей, как правило, слишком упрощают задачу и предполагают статичную поверхность, тогда как скейтборд подвижен, и взаимодействие с ним требует тонкого учета физики.

Команда исследователей под руководством Бая Чэньцзя (Chenjia Bai) из Института искусственного интеллекта представила систему управления под названием HUSKY (HUmanoid SKateboarding sYstem), которая решает эту проблему. В ее основе лежит подход, состоящий из трех компонентов: отталкивания, руления и процесса перехода, во время которого робот переносит ногу, которой отталкивается от земли, на доску. Для каждой фазы используются свои стратегии, объединенные в общую структуру обучения с подкреплением.

Для фазы разгона, в которой робот стоит одной ногой на доске, а другой отталкивается от земли, разработчики использовали имитацию движений человека с помощью метода Adversarial Motion Priors, который позволяет роботу копировать движения настоящих скейтбордистов. Нейросеть оценивает, насколько движения робота похожи на реальные, что делает их более естественными и плавными, и помогает поддерживать баланс при прерывистом контакте одной ноги с землей. Фаза руления, в которой обе ноги находятся на доске, строится на физической модели скейтборда с системой поворота за счет кренов. Модель подсказывает роботу необходимый угол наклона для достижения нужного курса. Робот получает награду за соблюдение этого расчетного крена, что значительно ускоряет обучение и повышает точность маневрирования по сравнению с методами без явных физических подсказок. В фазе перехода HUSKY генерирует плавные кривые Безье для ключевых точек тела (ног, таза) от текущего положения к целевой позе следующей фазы. Это создает «коридор» движений, помогая роботу плавно перенести вес и точно поставить ногу в нужное место на деке скейтборда, избегая резких рывков и потери равновесия.

Для обучения инженеры использовали алгоритм Proximal Policy Optimization с ассиметричной схемой актор-критик в симуляторе Isaac Gym. Агент получал информацию о состоянии робота и скейтборда и учился максимизировать вознаграждение, которое включало в себя точность следования заданной скорости и направлению, а также плавность движений. Чтобы перенести навыки из симуляции в реальность, авторы измерили физические параметры подвесок реальных скейтбордов и определили их реакцию на наклон и затухание колебаний. Полученные данные инженеры использовали для настройки симулятора, что позволило минимизировать разрыв между виртуальной и реальной физикой (sim-to-real gap). Кроме того, во время обучения применялась рандомизация таких параметров среды, как трение и масса, чтобы сделать поведение робота более устойчивым к внешним возмущениям.

В испытаниях на реальном роботе Unitree G1 система HUSKY продемонстрировала хорошие результаты. Робот успешно разгонялся, запрыгивал на доску, выполнял повороты и тормозил, сохраняя равновесие даже при внешних толчках. Он смог кататься на скейтбордах с разной жесткостью подвески, адаптируясь к их особенностям. Сравнение с базовыми методами показало, что предложенный подход обеспечивает более высокую стабильность, точность управления и естественность движений.

На данный момент робот использует ограниченное поле зрения встроенных камер, что не позволяет ему надежно отслеживать положение скейтборда и взаимодействие колес с поверхностью. Поэтому в будущем разработчики планируют внедрить улучшенную систему зрения, чтобы робот мог корректировать свои действия, основываясь на визуальной информации о доске и дороге, а не только на проприоцептивных датчиках.

В 2024 году японские инженеры научили человекоподобного робота Musashi с мускульно-скелетной конструкцией управлять автомобилем. Он мог менять направление движения, разгоняться до заданной скорости и тормозить при появлении пешеходов и других машин.