Суть такова

Как устроены игровые нейродвижки

Марат Хамадеев Научный писатель AIRI, физик-теоретик

Мнение редакции может не совпадать с мнением автора

Генеративный ИИ последовательно осваивает разные форматы контента: сначала он научился создавать текст, затем изображения и музыку, а потом и видео. Однако видеоигры оказались принципиально более сложной задачей для нейросетей. В отличие от картинки или видеоролика, игра устроена значительно . Тем не менее в последние годы появился новый класс моделей — нейродвижки, — которые учатся предсказывать следующий игровой кадр прямо по видеозаписям геймплея, не опираясь на традиционные ресурсы и правила. Разбираемся, как это работает и способны ли нейродвижки изменить геймдев.

Экономия ресурсов

Внедрение генеративного ИИ в разработку видеоигр может происходить на разных уровнях. Чаще всего речь идет о генерации текстур, или целых уровней. Нередко это вызывает резкое неприятие со стороны игрового сообщества. Достаточно вспомнить историю с Clair Obscur: Expedition 33, которая получила две награды на The Indie Game Awards 2025, но вскоре лишилась их из-за вскрывшегося факта использования генеративного ИИ.

Другой подход развивает NVIDIA. Их технология Deep Learning Super Sampling (DLSS) использует ИИ для и увеличения частоты кадров (у компании AMD есть аналогичная технология — FSR). Игроки в среднем воспринимали DLSS благосклонно, особенно четвертую версию. А вот пятая версия DLSS, представленная в марте 2026 года, вызвала волну критики: теперь у технологии выросли амбиции и нейросетевая обработка может заметно влиять на художественный стиль и внешность персонажей. Ситуацию усугубила и терминологическая путаница: сотрудники NVIDIA не могут прийти к единому мнению, считать ли DLSS 5 техникой рендеринга или реконструкции изображения.

Так или иначе, в обоих случаях ИИ выступает инструментом экономии: он берет на себя часть работы художников и геймдизайнеров или снижает нагрузку на графический процессор. Принцип создания геймплея при этом остается традиционным: игровой движок использует ресурсы и правила игры, чтобы обрабатывать ввод игрока, обновлять состояние игрового мира и кадр за кадром выводить результат на экран. Однако в последние годы стали появляться проекты, демонстрирующие принципиально новый подход к самому принципу работы игрового движка.

DOOM на нейросетях

Идея проста: на основе нескольких предыдущих кадров и действий игрока обученная нейросеть предсказывает следующий кадр. При этом модель не обращается к ресурсам, хранящимся на компьютере в явном виде — все, от текстур до карт уровней, закодировано в весах нейросети, полученных в ходе обучения на видеозаписях геймплея. Устоявшегося термина для такого подхода пока нет, но в русском языке это часто называют нейродвижком.

Первыми полигонами для тестирования нейродвижков стали классические игры. Например, N + 1 уже писал о модели GameNGen, которая симулирует игровой процесс первого DOOM, и модели WHAMM, которая делает то же самое с Quake II. Но таких примеров гораздо больше: CS:GO и игры для ATARI, GTA 4 и Forza Horizon 5 и Bleeding Edge и прочее.

Причем некоторые из этих экспериментов доступны пользователям. Я сам успел поиграть в нейроверсии Quake II и GTA 4, но сейчас эти демо недоступны. На момент написания этого блога можно поиграть в Minecraft, GoldenEye 007 в режиме мультиплеера и Pokémon overworld.

Несмотря на различия нейродвижков в деталях, схема их обучения в целом одинакова. Сперва модель-энкодер, используя большой датасет из видеозаписей геймплея, переводит визуальную информацию во внутренние представления нейросети. Затем отдельная модель учится предсказывать, как меняется мир в зависимости от нажатых кнопок. На этом этапе закладываются правила игры: бочка взрывается от выстрела, дверь открывается при нажатии нужной клавиши, а неподвижный объект остается там, где ему положено быть согласно координатам игрока.

Когда приходит время генерировать кадр, делает обратное: переводит внутренние представления в картинку на экране, опираясь на действия игрока и несколько предыдущих кадров. Здесь работает память о состоянии игрового мира — и здесь же проявляется главная слабость нейродвижков: память ограничена контекстным окном модели и может оказаться совсем короткой. Это хорошо это видно на примере Oasis — одного из первых нейродвижков, представленного в 2024 году и симулирующего Minecraft. В игре достаточно на мгновение отвернуться, а затем снова посмотреть в ту же сторону — и мир будет выглядеть по-другому.

Технологии с тех пор ушли далеко вперед, но Minecraft так и остался удобным полигоном для новых экспериментов — как из-за популярности самой игры, так и из-за ее визуальной простоты. Недавно исследователи из Эдинбургского университета и Microsoft Research представили собственную нейроверсию игры, решив проблему короткой памяти. Их модель PERSIST кодирует не только отдельные кадры, но и трехмерное окружение вокруг игрока — и мир наконец перестает меняться, стоит лишь отвернуться.

Мир как модель

Впрочем, за общим принципом скрывается большое разнообразие подходов — в источниках данных, архитектурах и устройстве памяти. Например, пока одни команды обучают модели на записях игр реальных пользователей, другие генерируют данные с помощью автономных агентов в виртуальных средах. На этом фоне особняком стоят модели мира (World Model) — архитектуры, позволяющие системе выстраивать внутреннюю модель среды с ее физикой и причинно-следственными связями.

В материале «И целого интернета мало» я уже рассказывал про модели мира в контексте больших языковых моделей. LLM выстраивают представление о реальности косвенно — через язык. Поскольку его логическая структура отражает онтологическую структуру мира, модель, обучаясь на текстах, усваивает вместе с языком некоторые закономерности окружающей действительности. Но это сконструированный мир — формальный, без настоящего знания о физике вещей, причинах и следствиях.

Датасеты для моделей мира устроены иначе: они сфокусированы на динамике и включают огромные массивы видео с разметкой действий, данные о состоянии среды и сенсоров — последнее особенно важно, например, для систем автономного транспорта. Здесь приходятся кстати коммерческие игровые движки вроде Unity или Unreal Engine: благодаря встроенной физике с их помощью можно быстро разворачивать виртуальные среды и населять их агентами, которые собирают нужные данные.

На момент подготовки материала существует несколько сильных решений: Lyra 2.0 от NVIDIA, Hunyuan-GameCraft от Tencent, Matrix-Game 3.0 от Skywork и Genie 3 от Google DeepMind. Первые три модели открытые, но для их локального развертывания потребуются специализированные видеокарты. Genie 3 доступна только подписчикам Google AI Ultra. Тем, кто хочет запустить играбельную модель мира на обычном железе, больше подойдет Waypoint-1.5 от Overworld — ей хватает некоторых видеокарт NVIDIA RTX.

Все перечисленные модели могут создавать детализированные виртуальные миры, отталкиваясь лишь от текстового промпта или одного изображения. И хотя нейродвижки универсальны, некоторые пользователи не удержались от того, чтобы воспроизвести на них любимые игры.

Например, на Genie 3 удалось сделать мир в духе The Legend of Zelda: Breath of the Wild. А у журналиста The Verge получилось воспроизвести геймплей еще двух игр Nintendo — Super Mario 64 и Metroid Prime. Но после того, как эта новость разошлась по соцсетям, Google ограничил генерацию в Genie 3, сославшись на «интересы сторонних правообладателей».

Также с помощью Hunyuan-GameCraft был нарисован The Witcher 3, а на официальной странице Matrix-Game 3.0 есть множество роликов, явно копирующих Cyberpunk 2077, GTA 5 и другие известные игры. Высокое качество воспроизведения реальных проектов не кажется удивительным, поскольку разработчики зачастую прямо пишут об использовании геймплея для обучения моделей.

Модели мира важны для нейродвижков еще по одной причине: без них практически невозможно реализовать многопользовательский режим. Большинство ранних моделей предсказывают следующий кадр лишь для одного игрока, и добавление второй перспективы требует пересмотра архитектуры. Одно из решений — синхронизировать видеопотоки обоих игроков, как это сделали авторы проекта Solaris в нейронном Minecraft для двух игроков: корреляция между потоками и образует то, что они называют video world model. Альтернативный подход реализован в нейродвижке Agora-1, где симуляция общего состояния мира и рендеринг индивидуальной картинки для каждого игрока разделены. Но к этому я, возможно, вернусь в другой раз.

Революция откладывается

Все это впечатляет, но стоит ли ждать, что нейродвижки заменят традиционный подход к созданию игр? Пока — вряд ли. Большинство эффектных роликов с генерацией сделаны самими разработчиками, которым есть что доказывать конкурентам. Если присмотреться, герои в них чаще всего двигаются по прямой с небольшой скоростью, почти не взаимодействуя с окружением, а сами записи редко длятся дольше минуты — дальше модель начинает терять контекст, а мир — связность.

Я убедился в этом лично, попробовав все доступные демо, включая Waypoint-1.5, запущенную на домашнем компьютере. В худшем случае мир превращается в сюрреалистическую кашу, в лучшем — просто теряет всякий смысл спустя несколько минут блужданий. Сложно представить, как при таком контекстном окне модель могла бы удержать согласованность хотя бы короткого квеста — не говоря уже об игровой сессии на несколько часов. Это признают и сами разработчики: Александре Муфарек (Alexandre Moufarek), руководитель команды Inception в Google DeepMind, на конференции GDC прямо сказал, что Genie 3 не претендует на замену традиционным играм.

Так для чего тогда все это? Прежде всего для быстрого прототипирования: нейросеть можно попросить смешать несколько стилей и набросать черновые варианты будущей игры, чтобы арт-директор или левел-дизайнер нашли в них источник вдохновения. Нейромиры также хорошо подходят для аттракционов или арт-инсталляций, где длинный контекст не нужен, — например, для прогулки внутри знаменитых картин.

Пожалуй, наиболее интересные способы применения моделей мира лежат за пределами игровой индустрии: в мае 2026 года Google объединили Genie 3 со Street View, чтобы обучать беспилотные автомобили поведению в незнакомых городах без физического присутствия. Технология явно в фокусе внимания исследователей — а значит, новые версии игровых нейродвижков не заставят себя ждать.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

Чат-боты уверенно дали проблематичные ответы на половину медицинских вопросов

«Искусственный интеллект: Краткая история будущего»