Как устроены игровые нейродвижки
Мнение редакции может не совпадать с мнением автора
Генеративный ИИ последовательно осваивает разные форматы контента: сначала он научился создавать текст, затем изображения и музыку, а потом и видео. Однако видеоигры оказались принципиально более сложной задачей для нейросетей. В отличие от картинки или видеоролика, игра устроена значительно Она включает код, описывающий изменчивое состояние игрового мира, правила и механики, ресурсы игры с картами уровней и текстурами, игровой движок (модули обработки графики, физики, звука, анимации и прочего) и многое другое.
Внедрение генеративного ИИ в разработку видеоигр может происходить на разных уровнях. Чаще всего речь идет о генерации текстур, готовые элементы игры: модели, текстуры, звуки, анимации или интерфейсные детали
Другой подход развивает NVIDIA. Их технология Deep Learning Super Sampling (DLSS) использует ИИ для повышения разрешения изображения, видео или звука с помощью каких-либо алгоритмов
Так или иначе, в обоих случаях ИИ выступает инструментом экономии: он берет на себя часть работы художников и геймдизайнеров или снижает нагрузку на графический процессор. Принцип создания геймплея при этом остается традиционным: игровой движок использует ресурсы и правила игры, чтобы обрабатывать ввод игрока, обновлять состояние игрового мира и кадр за кадром выводить результат на экран. Однако в последние годы стали появляться проекты, демонстрирующие принципиально новый подход к самому принципу работы игрового движка.
Идея проста: на основе нескольких предыдущих кадров и действий игрока обученная нейросеть предсказывает следующий кадр. При этом модель не обращается к ресурсам, хранящимся на компьютере в явном виде — все, от текстур до карт уровней, закодировано в весах нейросети, полученных в ходе обучения на видеозаписях геймплея. Устоявшегося термина для такого подхода пока нет, но в русском языке это часто называют нейродвижком.
Первыми полигонами для тестирования нейродвижков стали классические игры. Например, N + 1 уже писал о модели GameNGen, которая симулирует игровой процесс первого DOOM, и модели WHAMM, которая делает то же самое с Quake II. Но таких примеров гораздо больше: CS:GO и игры для ATARI, GTA 4 и Forza Horizon 5 и Bleeding Edge и прочее.
Причем некоторые из этих экспериментов доступны пользователям. Я сам успел поиграть в нейроверсии Quake II и GTA 4, но сейчас эти демо недоступны. На момент написания этого блога можно поиграть в Minecraft, GoldenEye 007 в режиме мультиплеера и Pokémon overworld.
Несмотря на различия нейродвижков в деталях, схема их обучения в целом одинакова. Сперва модель-энкодер, используя большой датасет из видеозаписей геймплея, переводит визуальную информацию во внутренние представления нейросети. Затем отдельная модель учится предсказывать, как меняется мир в зависимости от нажатых кнопок. На этом этапе закладываются правила игры: бочка взрывается от выстрела, дверь открывается при нажатии нужной клавиши, а неподвижный объект остается там, где ему положено быть согласно координатам игрока.
Когда приходит время генерировать кадр, Энкодер, предсказатель и модель, создающая игровые кадры, не всегда существуют отдельно друг от друга. Иногда это общий генеративный контур с несколькими модулями.
Технологии с тех пор ушли далеко вперед, но Minecraft так и остался удобным полигоном для новых экспериментов — как из-за популярности самой игры, так и из-за ее визуальной простоты. Недавно исследователи из Эдинбургского университета и Microsoft Research представили собственную нейроверсию игры, решив проблему короткой памяти. Их модель PERSIST кодирует не только отдельные кадры, но и трехмерное окружение вокруг игрока — и мир наконец перестает меняться, стоит лишь отвернуться.
Впрочем, за общим принципом скрывается большое разнообразие подходов — в источниках данных, архитектурах и устройстве памяти. Например, пока одни команды обучают модели на записях игр реальных пользователей, другие генерируют данные с помощью автономных агентов в виртуальных средах. На этом фоне особняком стоят модели мира (World Model) — архитектуры, позволяющие системе выстраивать внутреннюю модель среды с ее физикой и причинно-следственными связями.
В материале «И целого интернета мало» я уже рассказывал про модели мира в контексте больших языковых моделей. LLM выстраивают представление о реальности косвенно — через язык. Поскольку его логическая структура отражает онтологическую структуру мира, модель, обучаясь на текстах, усваивает вместе с языком некоторые закономерности окружающей действительности. Но это сконструированный мир — формальный, без настоящего знания о физике вещей, причинах и следствиях.
Датасеты для моделей мира устроены иначе: они сфокусированы на динамике и включают огромные массивы видео с разметкой действий, данные о состоянии среды и сенсоров — последнее особенно важно, например, для систем автономного транспорта. Здесь приходятся кстати коммерческие игровые движки вроде Unity или Unreal Engine: благодаря встроенной физике с их помощью можно быстро разворачивать виртуальные среды и населять их агентами, которые собирают нужные данные.
На момент подготовки материала существует несколько сильных решений: Lyra 2.0 от NVIDIA, Hunyuan-GameCraft от Tencent, Matrix-Game 3.0 от Skywork и Genie 3 от Google DeepMind. Первые три модели открытые, но для их локального развертывания потребуются специализированные видеокарты. Genie 3 доступна только подписчикам Google AI Ultra. Тем, кто хочет запустить играбельную модель мира на обычном железе, больше подойдет Waypoint-1.5 от Overworld — ей хватает некоторых видеокарт NVIDIA RTX.
Все перечисленные модели могут создавать детализированные виртуальные миры, отталкиваясь лишь от текстового промпта или одного изображения. И хотя нейродвижки универсальны, некоторые пользователи не удержались от того, чтобы воспроизвести на них любимые игры.
Например, на Genie 3 удалось сделать мир в духе The Legend of Zelda: Breath of the Wild. А у журналиста The Verge получилось воспроизвести геймплей еще двух игр Nintendo — Super Mario 64 и Metroid Prime. Но после того, как эта новость разошлась по соцсетям, Google ограничил генерацию в Genie 3, сославшись на «интересы сторонних правообладателей».
Также с помощью Hunyuan-GameCraft был нарисован The Witcher 3, а на официальной странице Matrix-Game 3.0 есть множество роликов, явно копирующих Cyberpunk 2077, GTA 5 и другие известные игры. Высокое качество воспроизведения реальных проектов не кажется удивительным, поскольку разработчики зачастую прямо пишут об использовании геймплея В данном случае подразумеваются высокобюджетные игры, которые иногда называют аналогами голливудских блокбастеров. Часто их обозначают неформальным рейтингом AAA, ААА+ или даже АААА.
Модели мира важны для нейродвижков еще по одной причине: без них практически невозможно реализовать многопользовательский режим. Большинство ранних моделей предсказывают следующий кадр лишь для одного игрока, и добавление второй перспективы требует пересмотра архитектуры. Одно из решений — синхронизировать видеопотоки обоих игроков, как это сделали авторы проекта Solaris в нейронном Minecraft для двух игроков: корреляция между потоками и образует то, что они называют video world model. Альтернативный подход реализован в нейродвижке Agora-1, где симуляция общего состояния мира и рендеринг индивидуальной картинки для каждого игрока разделены. Но к этому я, возможно, вернусь в другой раз.
Все это впечатляет, но стоит ли ждать, что нейродвижки заменят традиционный подход к созданию игр? Пока — вряд ли. Большинство эффектных роликов с генерацией сделаны самими разработчиками, которым есть что доказывать конкурентам. Если присмотреться, герои в них чаще всего двигаются по прямой с небольшой скоростью, почти не взаимодействуя с окружением, а сами записи редко длятся дольше минуты — дальше модель начинает терять контекст, а мир — связность.
Я убедился в этом лично, попробовав все доступные демо, включая Waypoint-1.5, запущенную на домашнем компьютере. В худшем случае мир превращается в сюрреалистическую кашу, в лучшем — просто теряет всякий смысл спустя несколько минут блужданий. Сложно представить, как при таком контекстном окне модель могла бы удержать согласованность хотя бы короткого квеста — не говоря уже об игровой сессии на несколько часов. Это признают и сами разработчики: Александре Муфарек (Alexandre Moufarek), руководитель команды Inception в Google DeepMind, на конференции GDC прямо сказал, что Genie 3 не претендует на замену традиционным играм.
Так для чего тогда все это? Прежде всего для быстрого прототипирования: нейросеть можно попросить смешать несколько стилей и набросать черновые варианты будущей игры, чтобы арт-директор или левел-дизайнер нашли в них источник вдохновения. Нейромиры также хорошо подходят для аттракционов или арт-инсталляций, где длинный контекст не нужен, — например, для прогулки внутри знаменитых картин.
Пожалуй, наиболее интересные способы применения моделей мира лежат за пределами игровой индустрии: в мае 2026 года Google объединили Genie 3 со Street View, чтобы обучать беспилотные автомобили поведению в незнакомых городах без физического присутствия. Технология явно в фокусе внимания исследователей — а значит, новые версии игровых нейродвижков не заставят себя ждать.