Diffusion Forcing
Introducción a Diffusion Forcing
- "Diffusion Forcing" es un nombre derivado de "teacher forcing" y "diffusion models"
- Diffusion Forcing puede aprovechar las principales fortalezas tanto de los modelos de predicción del siguiente token como de los modelos de difusión de secuencia completa
- Con un solo entrenamiento, puede operar con flexibilidad en distintos tiempos de muestreo
Cómo funciona Diffusion Forcing
- Entrena la difusión de secuencias, pero aplicando un nivel de ruido diferente a cada token
- El ruido de la difusión puede verse como enmascaramiento en distintos niveles
- En el momento del muestreo, se pueden usar diferentes niveles de ruido a lo largo de toda la secuencia para lograr un comportamiento flexible
Predicción de video
- La predicción de video con Diffusion Forcing ofrece resultados estables y consistentes
- En los datasets DMLab y Minecraft, Diffusion Forcing muestra un rendimiento superior a los métodos existentes
Estabilización de rollouts infinitos sin sliding window
- Diffusion Forcing puede hacer rollout de videos mucho más largos que la longitud máxima de secuencia con la que fue entrenado
- Puede hacer rollout de una RNN sin sliding window
- En los datasets DMLab y Minecraft, puede hacer rollout de más de 2000 frames
Diffusion Planning
- Diffusion Forcing puede usarse como planner utilizando guidance en tiempo de prueba
- Define cada token como [a_t, o_{t+1}] para modelar explícitamente la relación causal
- Puede actualizarse mediante inferencia posterior después de que se realizan nuevas observaciones
Aprendizaje por imitación de largo plazo
- Muchas tareas del mundo real no tienen propiedad de Markov y requieren memoria de largo plazo
- Muestra resultados exitosos en una tarea donde un brazo robótico intercambia dos slots de frutas
- Diffusion Forcing puede operar de forma robusta frente a perturbaciones no vistas durante la prueba
Opinión de GN⁺
- Diffusion Forcing combina las ventajas de los modelos de predicción del siguiente token y de los modelos de difusión de secuencia completa, permitiendo un muestreo flexible
- Muestra un rendimiento superior al de los métodos existentes en predicción de video y rollouts, lo que aumenta su potencial de aplicaciones prácticas
- Su éxito en aprendizaje por imitación de largo plazo demuestra la fuerte capacidad de control por retroalimentación de Diffusion Forcing
- El efecto de estabilización de Diffusion Forcing amplía sus posibilidades de uso en distintas longitudes de secuencia
- Al adoptar esta nueva tecnología, es necesario considerar la complejidad del modelo y el costo computacional
1 comentarios
Opiniones en Hacker News
Se propone un nuevo enfoque que combina la idea de enmascarado de secuencias con modelos de difusión
Se preguntan si existe alguna investigación o herramienta que permita combinar LLM existentes de generación de texto con técnicas de difusión sin un nuevo preentrenamiento
Russ está investigando difusión; parece que podría tener mucha aplicación en robótica
Como alguien que trabaja en este campo, sienten que la investigación fue presentada de una forma muy críptica
Se preguntan si se les escapó algo sobre el tiempo de entrenamiento; añadir ruido por token parece que haría el entrenamiento mucho más lento
Es una investigación muy interesante, pero se preguntan por qué se llama "diffusion forcing"