1 puntos por GN⁺ 2024-10-14 | 1 comentarios | Compartir por WhatsApp

Resumen de DIAMOND 💎

  • DIAMOND es un agente de aprendizaje por refuerzo entrenado en un modelo de mundo por difusión.
  • Este modelo da importancia a los detalles visuales en entornos de juego como Atari.
  • DIAMOND también puede simular entornos 3D, por ejemplo CounterStrike: Global Offensive (CSGO).

Antecedentes y motivación de la investigación

  • Los modelos de mundo son un enfoque prometedor para entrenar agentes de aprendizaje por refuerzo de manera segura y eficiente.
  • Los modelos de mundo existentes modelan principalmente la dinámica del entorno usando secuencias de variables latentes discretas.
  • Sin embargo, esta compresión puede ignorar detalles visuales importantes para el aprendizaje por refuerzo.
  • Los modelos de difusión se han consolidado como el enfoque dominante en generación de imágenes.
  • DIAMOND fue desarrollado inspirado en este cambio de paradigma.

Rendimiento y resultados de DIAMOND

  • DIAMOND logró una puntuación promedio normalizada respecto a humanos de 1.46 en el benchmark Atari 100k.
  • Este es el mejor rendimiento entre los agentes entrenados dentro de un modelo de mundo.
  • El código de DIAMOND está publicado en GitHub.

Cómo funciona DIAMOND

  • El modelo de difusión se entrena para predecir el siguiente frame del juego.
  • Simula la respuesta del entorno considerando la acción del agente y los frames anteriores.
  • La generación autorregresiva ayuda al agente a aprender el juego.
  • Para un modelo de mundo rápido, es necesario reducir la cantidad de pasos de denoising.
  • Los modelos basados en DDPM son inestables con pocos pasos de denoising, pero los basados en EDM son estables.

La importancia de los detalles visuales

  • DIAMOND modela mejor los detalles visuales importantes.
  • Captura mejores detalles visuales que IRIS, basado en tokens discretos.
  • En Atari 100k muestra un rendimiento 46% mejor que el humano.

Resumen de GN⁺

  • DIAMOND destaca la importancia de los detalles visuales en el aprendizaje por refuerzo.
  • Usando modelos de difusión, puede capturar mejores detalles visuales.
  • Muestra mejoras de rendimiento en juegos como Atari y CSGO.
  • Puede ser un material interesante y útil para investigadores del área.
  • Proyectos con funciones similares incluyen DreamerV2 y PlaNet.

1 comentarios

 
GN⁺ 2024-10-14
Comentarios en Hacker News
  • Un usuario menciona que el video enlazado es muy similar a sus sueños, y explica que tiene una experiencia parecida cuando intenta dar saltos altos en sueños

  • Explica que un modelo de 300M parámetros fue entrenado con 5M de frames durante 12 días en una GTX4090

  • Menciona que una gran empresa tecnológica hizo algo similar en 2015

  • Comenta que un trabajo a escala industrial, como con LLMs de gran tamaño, sería muy sorprendente

  • Explica que podría usarse para generar aproximaciones realistas de física en un motor de juego

    • Generar fragmentos de gameplay usando un motor físico pesado y entrenar al modelo para que aproxime la física
    • Sugiere que podría haber varios motores físicos especializados
  • Plantea la pregunta de si quienes realmente lo han probado construyen mapas de juego o si más bien es una experiencia alucinatoria extraña

  • Afirma entender el concepto básico de Stable Diffusion y se pregunta si existe investigación para intentar esto a nivel de activos 3D

  • Le resulta extraño que haya gente que no reconozca el "ruido infernal" en imágenes y videos de redes neuronales

  • Menciona trabajo hecho por el grupo de Schmidhuber en 2018 y comparte un enlace

  • Comenta que sería interesante entrenar el modelo con metraje real relacionado con GTA moderno para mejorar los visuales de juegos antiguos

  • Se pregunta si hay una forma de combinarlo con modelos de lenguaje, y sostiene que el lenguaje debería basarse en modelos del mundo

  • Considera que los modelos de lenguaje son ineficientes e imagina un "juego" entrenado como herramienta de ingeniería estructural

  • Explica que esta red podría ser parte de algo que entienda el mundo y prediga acciones útiles o responda preguntas

  • Se pregunta cómo reaccionaría este modelo, con un bucle fuerte, al usar una imagen o mapa nuevo como punto de partida