- Los modelos de difusión definen un proceso en el que los datos se convierten gradualmente en ruido, y luego restauran ese proceso en sentido inverso para generar datos a partir del ruido, como una arquitectura de modelo generativo
- El núcleo del modelo es aprender un campo de velocidad (velocity field) que cambia con el tiempo, para construir una trayectoria generativa continua que transforma una distribución simple en la distribución de los datos
- Hay tres perspectivas principales: variacional (variational), basada en puntaje (score-based) y basada en flujos (flow-based), cada una explicada respectivamente en términos de eliminación de ruido, aprendizaje del gradiente probabilístico y transformación continua
- Sobre esta base, se discuten extensiones de investigación como generación controlable, muestreo eficiente y mapeo directo entre tiempos (flow-map)
- Se enfatiza su importancia como texto teórico fundamental para comprender de forma integrada los principios matemáticos y las distintas formulaciones de los modelos de difusión
Conceptos básicos de los modelos de difusión
- Los modelos de difusión se componen de un proceso hacia adelante (forward process) que contamina gradualmente los datos con ruido, y un proceso inverso (reverse process) que restaura ese proceso para generar datos a partir del ruido
- El proceso hacia adelante define un conjunto continuo de distribuciones intermedias que conecta la distribución de los datos con una distribución simple de ruido
- El proceso inverso reconstruye esas mismas distribuciones intermedias y transforma el ruido en datos
- El objetivo del modelo es aprender este proceso inverso para reproducir la trayectoria de transformación del ruido a los datos
Tres perspectivas matemáticas
- Perspectiva variacional (Variational View)
- Inspirada en los autoencoders variacionales (VAE), aprende un objetivo de restauración pequeño (denoising objective) que elimina ruido de forma gradual
- La restauración de cada etapa se acumula para convertir globalmente el ruido en datos
- Perspectiva basada en puntaje (Score-Based View)
- Tiene sus raíces en los modelos basados en energía (Energy-Based Model), y aprende el gradiente de la distribución de los datos (gradient)
- Calcula la dirección para mover las muestras hacia regiones de mayor probabilidad
- Perspectiva basada en flujos (Flow-Based View)
- De forma similar a los flujos normalizantes (Normalizing Flow), interpreta el proceso generativo como una trayectoria continua que va del ruido a los datos siguiendo un campo de velocidad (velocity field)
Estructura común y base matemática
- Las tres perspectivas comparten el hecho de aprender un campo de velocidad dependiente del tiempo (time-dependent velocity field)
- Este campo de velocidad cumple la función de transportar una distribución previa simple (prior) hacia la distribución de los datos
- El muestreo se expresa como el proceso de resolver una ecuación diferencial (differential equation) para convertir ruido en datos
- Sobre este marco matemático se discuten métodos numéricos para muestreo eficiente, generación controlable (guidance) y mapeo directo entre momentos arbitrarios (flow-map)
Público objetivo y propósito
- Está dirigido a investigadores, estudiantes de posgrado y profesionales con conocimientos básicos de deep learning y modelado generativo
- El objetivo es permitir una comprensión clara de los fundamentos teóricos de los modelos de difusión y la relación entre sus distintas formulaciones
- Con ello, ofrece una base para aplicar modelos existentes con confianza y explorar nuevas direcciones de investigación
Prefacio y panorama de la estructura
- Los modelos de difusión se han consolidado como un paradigma generativo central en múltiples áreas, como machine learning, visión por computadora y procesamiento de lenguaje natural
- Esta obra organiza una gran cantidad de investigación desde las perspectivas de principios teóricos, objetivos de aprendizaje, diseño de samplers e ideas matemáticas
- Estructura principal
- Part A & B: fundamentos de los modelos de difusión, así como el origen y la relación entre las tres perspectivas
- En capítulos posteriores se abordan el muestreo eficiente, la generación controlable y la expansión hacia modelos generativos independientes
- Cada capítulo puede leerse de forma selectiva, y quienes ya estén familiarizados con los conceptos básicos pueden omitir las introducciones relacionadas con VAE, EBM, Normalizing Flow
Agradecimientos
- El profesor Dohyun Kwon de la Universidad de Seúl y KIAS revisó parte del capítulo 7 y contribuyó a mejorar la precisión matemática y la expresión
- Sus comentarios y discusiones ayudaron a elevar la calidad del manuscrito final
1 comentarios
Opinión de Hacker News
Si prefieres aprender con videos, recomiendo las clases de CS236 Deep Generative Models de Stefano Ermon
Todas las clases se pueden ver en la lista de reproducción de YouTube, y el material del curso está organizado en el sitio oficial
Me pregunto si este artículo no será un post duplicado del que publiqué hace unos días
Enlace al post anterior
Según el HN FAQ, se puede volver a publicar una pequeña cantidad de artículos que no hayan recibido atención en más de un año
Además, las consultas sobre moderación deben enviarse a hn@ycombinator.com en vez de ponerlas en los comentarios
Busqué "Fokker-Planck" en el documento y aparece 97 veces
Con eso me basta para pensar que vale la pena leerlo
Me pregunto si habrá algún material sobre transformer que cubra este tema con un alcance y profundidad parecidos
Honestamente, me intimida que haya tanta matemática
Leyendo esto, me da la impresión de que la IA actual en realidad se parece más a brute force que a algo verdaderamente inteligente
Tal vez el cerebro humano también sea una máquina que hace brute force durante toda la vida
Pero la inteligencia artificial al final se siente como un resultado sin alma, como un saborizante artificial
El poder de la estadística se basa en estructura profunda y selección
Los humanos no hacemos brute force durante toda la vida, pero la evolución construyó esa estructura a lo largo de miles de millones de años, y
encima de eso comprimió durante millones de años un algoritmo de metaaprendizaje
¿¡470 páginas!? Son tantas que por un momento me dio cortocircuito mental 😆