Раньше сложные трюки не удавалось объединить в одной модели без потери точности
Китайские инженеры разработали фреймворк OmniXtreme, позволяющий обучить единую нейросетевую политику управления человекоподобным роботом сразу множеству экстремальных движений — от сальто и стоек на руках до брейк-данса и элементов боевых искусств. OmniXtreme решает проблему объединения разнообразных навыков в одной модели без падения качества выполнения. Препринт статьи опубликован на сайте arXiv.org, у проекта есть сайт с демонстрационными видео на GitHub.
Обучение андроидов точному воспроизведению движений лежит в основе множества практических навыков, среди которых и манипуляции предметами, и взаимодействие с людьми. Методы обучения с подкреплением позволили роботам научиться точно повторять отдельные сложные движения, включая танцы и акробатику. Однако при попытке масштабировать подход и научить одного робота сразу большому набору разнообразных движений возникает проблема — качество повторения движений деградирует по мере роста их разнообразия и сложности. Контроллер начинает усреднять поведение, теряя точность. Закономерность, известная как компромисс между точностью и масштабируемостью, особенно заметна в случае движений с высокой динамикой, когда даже небольшие ошибки приводят к падению робота.
Разработчики под руководством Сыюаня Хуана (Siyuan Huang) из Пекинского института искусственного интеллекта BIGAI и компании Unitree Robotics, стремясь решить эту проблему, создали фреймворк OmniXtreme с двухэтапной схемой обучения. На первом этапе для каждого движения из обширной библиотеки записанных с помощью технологии захвата движений примеров тренируются отдельные экспертные политики. Затем знания всех экспертов объединяются в единую генеративную модель с помощью метода flow matching — подхода, в котором нейросеть учится восстанавливать целевое действие из случайного шума, обучаясь предсказывать направление «потока» от шума к правильному управляющему сигналу.
Вторая стадия решает проблему переноса движений на реальное «железо» андроида. Для этого базовая модель, выучившая все движения, замораживается, а поверх нее обучается небольшая корректирующая нейросеть с помощью метода обучения с подкреплением (Residual RL). Эта остаточная политика вырабатывает небольшие поправки к базовым действиям, учитывая реалистичную модель электроприводов. В частности, в симуляции воспроизводятся зависимости крутящего момента от скорости вращения мотора и добавляются штрафы за чрезмерную мощность на коленных суставах — эффект, при котором моторы генерируют опасные нагрузки во время приземления робота.
Разработчики включили в тестовую выборку около 60 экстремальных движений, включая сальто, брейк-данс, элементы боевых искусств и акробатические трюки. В симуляции OmniXtreme стабильно превосходил базовые методы, в роли которых выступили прямое обучение единой политики на всех движениях сразу и дистилляция отдельных экспертов в обычную нейросеть-перцептрон. Доля успешных трюков составила около 96 процентов против 79 у стандартного обучения с подкреплением.
На реальном роботе Unitree G1 инженеры провели 157 испытаний на выполнение 24 различных движений. Общий показатель успеха составил около 91 процента. Все вычисления работали на бортовом компьютере робота, обеспечивая управление в реальном времени с частотой 50 герц. Возникавшие отказы были связаны в основном с аппаратными ограничениями — срабатыванием защиты от перегрузки моторов при экстремальных приземлениях, — а не с потерей баланса.
С помощью метода обучения с подкреплением инженеры из института RAI научили двухколесного робота на базе детского беговела ездить задом наперед, выполнять прыжки и даже делать сальто.
В этом роботу помогает дополнительный сустав
Японские инженеры создали четвероногого робота KLEIYN, который умеет карабкаться между двумя вертикальными стенами враспор. В его корпусе находится дополнительный активный сустав, который выполняет роль позвоночника и позволяет лучше упираться ногами в стены, адаптируя длину тела под ширину зазора. В экспериментах робот успешно взбирался между стенами с шириной зазора от 80 до 100 сантиметров со средней скоростью 150 миллиметров в секунду. Препринт статьи с описанием конструкции робота опубликован на arXiv.org.