1 puntos por GN⁺ 2024-07-06 | 1 comentarios | Compartir por WhatsApp

Diffusion Forcing

Introducción a Diffusion Forcing

  • "Diffusion Forcing" es un nombre derivado de "teacher forcing" y "diffusion models"
  • Diffusion Forcing puede aprovechar las principales fortalezas tanto de los modelos de predicción del siguiente token como de los modelos de difusión de secuencia completa
  • Con un solo entrenamiento, puede operar con flexibilidad en distintos tiempos de muestreo

Cómo funciona Diffusion Forcing

  • Entrena la difusión de secuencias, pero aplicando un nivel de ruido diferente a cada token
  • El ruido de la difusión puede verse como enmascaramiento en distintos niveles
  • En el momento del muestreo, se pueden usar diferentes niveles de ruido a lo largo de toda la secuencia para lograr un comportamiento flexible

Predicción de video

  • La predicción de video con Diffusion Forcing ofrece resultados estables y consistentes
  • En los datasets DMLab y Minecraft, Diffusion Forcing muestra un rendimiento superior a los métodos existentes

Estabilización de rollouts infinitos sin sliding window

  • Diffusion Forcing puede hacer rollout de videos mucho más largos que la longitud máxima de secuencia con la que fue entrenado
  • Puede hacer rollout de una RNN sin sliding window
  • En los datasets DMLab y Minecraft, puede hacer rollout de más de 2000 frames

Diffusion Planning

  • Diffusion Forcing puede usarse como planner utilizando guidance en tiempo de prueba
  • Define cada token como [a_t, o_{t+1}] para modelar explícitamente la relación causal
  • Puede actualizarse mediante inferencia posterior después de que se realizan nuevas observaciones

Aprendizaje por imitación de largo plazo

  • Muchas tareas del mundo real no tienen propiedad de Markov y requieren memoria de largo plazo
  • Muestra resultados exitosos en una tarea donde un brazo robótico intercambia dos slots de frutas
  • Diffusion Forcing puede operar de forma robusta frente a perturbaciones no vistas durante la prueba

Opinión de GN⁺

  • Diffusion Forcing combina las ventajas de los modelos de predicción del siguiente token y de los modelos de difusión de secuencia completa, permitiendo un muestreo flexible
  • Muestra un rendimiento superior al de los métodos existentes en predicción de video y rollouts, lo que aumenta su potencial de aplicaciones prácticas
  • Su éxito en aprendizaje por imitación de largo plazo demuestra la fuerte capacidad de control por retroalimentación de Diffusion Forcing
  • El efecto de estabilización de Diffusion Forcing amplía sus posibilidades de uso en distintas longitudes de secuencia
  • Al adoptar esta nueva tecnología, es necesario considerar la complejidad del modelo y el costo computacional

1 comentarios

 
GN⁺ 2024-07-06
Opiniones en Hacker News
  • Se propone un nuevo enfoque que combina la idea de enmascarado de secuencias con modelos de difusión

    • Rastrea el nivel de "incertidumbre" de cada píxel y lo usa como nivel de "ruido" del modelo de difusión
    • Permite fijar primero partes específicas de la imagen, por lo que puede aplicarse a la resolución de laberintos
    • También se usó para controlar un brazo robótico
    • El título subestima la idea; esto es una forma de hacer "enmascarado fraccional"
    • Hay mucha curiosidad sobre la base de código; por ejemplo, cómo configuran la tarea de seguimiento de laberintos y la de extensión de video, y cómo conectan el brazo robótico
    • La arquitectura en sí necesita más investigación y explicación
  • Se preguntan si existe alguna investigación o herramienta que permita combinar LLM existentes de generación de texto con técnicas de difusión sin un nuevo preentrenamiento

    • Hay enfoques similares como Tree of Thoughts y MCTS, pero buscan algo más cercano a la generación a nivel de token
    • Se preguntan si podría funcionar con modelos pequeños como GPT / Phi 3 / Gwen
  • Russ está investigando difusión; parece que podría tener mucha aplicación en robótica

  • Como alguien que trabaja en este campo, sienten que la investigación fue presentada de una forma muy críptica

    • Se preguntan cuál es exactamente el problema que intenta resolver y si propone un nuevo modelo generativo
  • Se preguntan si se les escapó algo sobre el tiempo de entrenamiento; añadir ruido por token parece que haría el entrenamiento mucho más lento

    • Es un artículo muy interesante
  • Es una investigación muy interesante, pero se preguntan por qué se llama "diffusion forcing"