Diffusion Models Are Real-Time Game Engines
- GameNGen: el primer motor de juego impulsado por un modelo neuronal, que ofrece interacción en tiempo real con entornos complejos y alta calidad
- Simulación de DOOM: puede simular de forma interactiva el juego clásico DOOM a más de 20 cuadros por segundo en una sola TPU
- PSNR: logró 29.4 PSNR en la predicción del siguiente cuadro, similar a la compresión JPEG con pérdida
- Evaluadores humanos: los evaluadores humanos solo fueron ligeramente mejores que una adivinanza aleatoria al distinguir entre clips del juego y clips simulados
Video completo de gameplay
Recolección de datos mediante juego del agente
- Agente RL automatizado: como no es posible recopilar grandes volúmenes de datos de gameplay humano, en la primera etapa se entrena un agente RL automatizado para jugar, y se registran las acciones y observaciones de esos episodios de entrenamiento para usarlas como datos de entrenamiento del modelo generativo
Entrenamiento del modelo generativo de difusión
- Stable Diffusion v1.4: se reutiliza un modelo de difusión pequeño condicionado por secuencias de acciones y observaciones previas (cuadros)
- Adición de ruido gaussiano: durante el entrenamiento, se añade ruido gaussiano a los cuadros codificados para degradar los cuadros de contexto, permitiendo que la red corrija la información muestreada de cuadros anteriores. Esto es importante para mantener la estabilidad visual durante largos periodos
Ajuste fino del decodificador latente
- Autoencoder preentrenado de Stable Diffusion v1.4: comprime parches de 8x8 píxeles en 4 canales latentes, lo que provoca artefactos significativos al predecir cuadros del juego. Esto afecta especialmente a los detalles pequeños y al HUD de la barra inferior
- Entrenamiento del decodificador: para mejorar la calidad de imagen, se entrena solo el decodificador del autoencoder latente calculando la pérdida MSE sobre los píxeles del cuadro objetivo
Resumen de GN⁺
- GameNGen es el primer motor de juego que utiliza un modelo neuronal para interactuar en tiempo real con entornos de juego complejos
- A través de la simulación de DOOM, ofrece una predicción de cuadros de alta calidad, tan sofisticada que a los evaluadores humanos les resulta difícil distinguir entre el juego real y la simulación
- Reutiliza modelos existentes como Stable Diffusion v1.4 para mejorar la eficiencia, y mantiene la estabilidad visual mediante técnicas como la adición de ruido gaussiano
- Mediante el ajuste fino del decodificador latente, mejora la calidad de imagen y preserva los detalles de los cuadros del juego
1 comentarios
Opiniones de Hacker News
El modelo de difusión de Google que usa SD 1.4 incluye más causalidad, resultados y secuencia de lo esperado
Este paper no describe un sistema que reciba entrada del usuario en tiempo real y ajuste la salida
Sorprende que este modelo pueda renderizar a 20 fps
Siguen los intentos de hacer correr Doom en todo
Es divertido leer comentarios que dicen que esto no tiene sentido
Comparación entre los requisitos del sistema de Doom y Stable Diffusion v1
El papel de un motor de juego es renderizar el mundo
Aunque no se proporcionó una condición de texto, podría ser posible crear un juego nuevo solo con prompts de texto