Resumen de DIAMOND 💎
- DIAMOND es un agente de aprendizaje por refuerzo entrenado en un modelo de mundo por difusión.
- Este modelo da importancia a los detalles visuales en entornos de juego como Atari.
- DIAMOND también puede simular entornos 3D, por ejemplo CounterStrike: Global Offensive (CSGO).
Antecedentes y motivación de la investigación
- Los modelos de mundo son un enfoque prometedor para entrenar agentes de aprendizaje por refuerzo de manera segura y eficiente.
- Los modelos de mundo existentes modelan principalmente la dinámica del entorno usando secuencias de variables latentes discretas.
- Sin embargo, esta compresión puede ignorar detalles visuales importantes para el aprendizaje por refuerzo.
- Los modelos de difusión se han consolidado como el enfoque dominante en generación de imágenes.
- DIAMOND fue desarrollado inspirado en este cambio de paradigma.
Rendimiento y resultados de DIAMOND
- DIAMOND logró una puntuación promedio normalizada respecto a humanos de 1.46 en el benchmark Atari 100k.
- Este es el mejor rendimiento entre los agentes entrenados dentro de un modelo de mundo.
- El código de DIAMOND está publicado en GitHub.
Cómo funciona DIAMOND
- El modelo de difusión se entrena para predecir el siguiente frame del juego.
- Simula la respuesta del entorno considerando la acción del agente y los frames anteriores.
- La generación autorregresiva ayuda al agente a aprender el juego.
- Para un modelo de mundo rápido, es necesario reducir la cantidad de pasos de denoising.
- Los modelos basados en DDPM son inestables con pocos pasos de denoising, pero los basados en EDM son estables.
La importancia de los detalles visuales
- DIAMOND modela mejor los detalles visuales importantes.
- Captura mejores detalles visuales que IRIS, basado en tokens discretos.
- En Atari 100k muestra un rendimiento 46% mejor que el humano.
Resumen de GN⁺
- DIAMOND destaca la importancia de los detalles visuales en el aprendizaje por refuerzo.
- Usando modelos de difusión, puede capturar mejores detalles visuales.
- Muestra mejoras de rendimiento en juegos como Atari y CSGO.
- Puede ser un material interesante y útil para investigadores del área.
- Proyectos con funciones similares incluyen DreamerV2 y PlaNet.
1 comentarios
Comentarios en Hacker News
Un usuario menciona que el video enlazado es muy similar a sus sueños, y explica que tiene una experiencia parecida cuando intenta dar saltos altos en sueños
Explica que un modelo de 300M parámetros fue entrenado con 5M de frames durante 12 días en una GTX4090
Menciona que una gran empresa tecnológica hizo algo similar en 2015
Comenta que un trabajo a escala industrial, como con LLMs de gran tamaño, sería muy sorprendente
Explica que podría usarse para generar aproximaciones realistas de física en un motor de juego
Plantea la pregunta de si quienes realmente lo han probado construyen mapas de juego o si más bien es una experiencia alucinatoria extraña
Afirma entender el concepto básico de Stable Diffusion y se pregunta si existe investigación para intentar esto a nivel de activos 3D
Le resulta extraño que haya gente que no reconozca el "ruido infernal" en imágenes y videos de redes neuronales
Menciona trabajo hecho por el grupo de Schmidhuber en 2018 y comparte un enlace
Comenta que sería interesante entrenar el modelo con metraje real relacionado con GTA moderno para mejorar los visuales de juegos antiguos
Se pregunta si hay una forma de combinarlo con modelos de lenguaje, y sostiene que el lenguaje debería basarse en modelos del mundo
Considera que los modelos de lenguaje son ineficientes e imagina un "juego" entrenado como herramienta de ingeniería estructural
Explica que esta red podría ser parte de algo que entienda el mundo y prediga acciones útiles o responda preguntas
Se pregunta cómo reaccionaría este modelo, con un bucle fuerte, al usar una imagen o mapa nuevo como punto de partida