Principios de los modelos de difusión

(arxiv.org)

4 puntos por GN⁺ 2025-11-11 | 1 comentarios | Compartir por WhatsApp

Los modelos de difusión definen un proceso en el que los datos se convierten gradualmente en ruido, y luego restauran ese proceso en sentido inverso para generar datos a partir del ruido, como una arquitectura de modelo generativo
El núcleo del modelo es aprender un campo de velocidad (velocity field) que cambia con el tiempo, para construir una trayectoria generativa continua que transforma una distribución simple en la distribución de los datos
Hay tres perspectivas principales: variacional (variational), basada en puntaje (score-based) y basada en flujos (flow-based), cada una explicada respectivamente en términos de eliminación de ruido, aprendizaje del gradiente probabilístico y transformación continua
Sobre esta base, se discuten extensiones de investigación como generación controlable, muestreo eficiente y mapeo directo entre tiempos (flow-map)
Se enfatiza su importancia como texto teórico fundamental para comprender de forma integrada los principios matemáticos y las distintas formulaciones de los modelos de difusión

Conceptos básicos de los modelos de difusión

Los modelos de difusión se componen de un proceso hacia adelante (forward process) que contamina gradualmente los datos con ruido, y un proceso inverso (reverse process) que restaura ese proceso para generar datos a partir del ruido
- El proceso hacia adelante define un conjunto continuo de distribuciones intermedias que conecta la distribución de los datos con una distribución simple de ruido
- El proceso inverso reconstruye esas mismas distribuciones intermedias y transforma el ruido en datos
El objetivo del modelo es aprender este proceso inverso para reproducir la trayectoria de transformación del ruido a los datos

Tres perspectivas matemáticas

Perspectiva variacional (Variational View)
- Inspirada en los autoencoders variacionales (VAE), aprende un objetivo de restauración pequeño (denoising objective) que elimina ruido de forma gradual
- La restauración de cada etapa se acumula para convertir globalmente el ruido en datos
Perspectiva basada en puntaje (Score-Based View)
- Tiene sus raíces en los modelos basados en energía (Energy-Based Model), y aprende el gradiente de la distribución de los datos (gradient)
- Calcula la dirección para mover las muestras hacia regiones de mayor probabilidad
Perspectiva basada en flujos (Flow-Based View)
- De forma similar a los flujos normalizantes (Normalizing Flow), interpreta el proceso generativo como una trayectoria continua que va del ruido a los datos siguiendo un campo de velocidad (velocity field)

Estructura común y base matemática

Las tres perspectivas comparten el hecho de aprender un campo de velocidad dependiente del tiempo (time-dependent velocity field)
- Este campo de velocidad cumple la función de transportar una distribución previa simple (prior) hacia la distribución de los datos
- El muestreo se expresa como el proceso de resolver una ecuación diferencial (differential equation) para convertir ruido en datos
Sobre este marco matemático se discuten métodos numéricos para muestreo eficiente, generación controlable (guidance) y mapeo directo entre momentos arbitrarios (flow-map)

Público objetivo y propósito

Está dirigido a investigadores, estudiantes de posgrado y profesionales con conocimientos básicos de deep learning y modelado generativo
El objetivo es permitir una comprensión clara de los fundamentos teóricos de los modelos de difusión y la relación entre sus distintas formulaciones
Con ello, ofrece una base para aplicar modelos existentes con confianza y explorar nuevas direcciones de investigación

Prefacio y panorama de la estructura

Los modelos de difusión se han consolidado como un paradigma generativo central en múltiples áreas, como machine learning, visión por computadora y procesamiento de lenguaje natural
Esta obra organiza una gran cantidad de investigación desde las perspectivas de principios teóricos, objetivos de aprendizaje, diseño de samplers e ideas matemáticas
Estructura principal
- Part A & B: fundamentos de los modelos de difusión, así como el origen y la relación entre las tres perspectivas
- En capítulos posteriores se abordan el muestreo eficiente, la generación controlable y la expansión hacia modelos generativos independientes
Cada capítulo puede leerse de forma selectiva, y quienes ya estén familiarizados con los conceptos básicos pueden omitir las introducciones relacionadas con VAE, EBM, Normalizing Flow

Agradecimientos

El profesor Dohyun Kwon de la Universidad de Seúl y KIAS revisó parte del capítulo 7 y contribuyó a mejorar la precisión matemática y la expresión
Sus comentarios y discusiones ayudaron a elevar la calidad del manuscrito final

1 comentarios

GN⁺ 2025-11-11

Opinión de Hacker News

Si prefieres aprender con videos, recomiendo las clases de CS236 Deep Generative Models de Stefano Ermon
Todas las clases se pueden ver en la lista de reproducción de YouTube, y el material del curso está organizado en el sitio oficial
- Es una lástima que Stanford ya no ofrezca esta materia CS236. Ya van 2 años sin abrirla
Me pregunto si este artículo no será un post duplicado del que publiqué hace unos días
Enlace al post anterior
- Sí, es duplicado, pero en algunos casos se permite
  Según el HN FAQ, se puede volver a publicar una pequeña cantidad de artículos que no hayan recibido atención en más de un año
  Además, las consultas sobre moderación deben enviarse a hn@ycombinator.com en vez de ponerlas en los comentarios
Busqué "Fokker-Planck" en el documento y aparece 97 veces
Con eso me basta para pensar que vale la pena leerlo
- Pero a mí solo me salen 26 resultados. ¿Cuál es el criterio? Me da risa :D
Me pregunto si habrá algún material sobre transformer que cubra este tema con un alcance y profundidad parecidos
Honestamente, me intimida que haya tanta matemática
- Hace la broma de si no será “scated” en vez de “scared”
Leyendo esto, me da la impresión de que la IA actual en realidad se parece más a brute force que a algo verdaderamente inteligente
Tal vez el cerebro humano también sea una máquina que hace brute force durante toda la vida
Pero la inteligencia artificial al final se siente como un resultado sin alma, como un saborizante artificial
- Me da la impresión de que quizá eres físico. Creo que también hay cierta belleza en el proceso de ejecutar RG flow a la inversa
  El poder de la estadística se basa en estructura profunda y selección
- Decir “siempre” es demasiado tajante. Algún día podría mejorar
- Creo que la inteligencia es el manifold que estos algoritmos de brute force aprenden
  Los humanos no hacemos brute force durante toda la vida, pero la evolución construyó esa estructura a lo largo de miles de millones de años, y
  encima de eso comprimió durante millones de años un algoritmo de metaaprendizaje
¿¡470 páginas!? Son tantas que por un momento me dio cortocircuito mental 😆

Principios de los modelos de difusión

Conceptos básicos de los modelos de difusión

Tres perspectivas matemáticas

Estructura común y base matemática

Público objetivo y propósito

Prefacio y panorama de la estructura

Agradecimientos

Lecturas relacionadas

1 comentarios

Opinión de Hacker News