I-DLM - modelo de lenguaje difusivo introspectivo (Introspective Diffusion Language Models)

(introspective-diffusion.github.io)

1 puntos por GN⁺ 14 일 전 | 1 comentarios | Compartir por WhatsApp

I-DLM es el primer caso en que un modelo de lenguaje basado en difusión logra simultáneamente calidad al nivel de un modelo AR (Autoregressive) y velocidad de generación en paralelo
Mediante Introspective Strided Decoding (ISD), en una sola pasada hacia adelante genera nuevos tokens y verifica tokens anteriores al mismo tiempo
I-DLM-8B mejora frente a LLaDA-2.1-mini (16B) con la mitad de los parámetros, con +26 puntos en AIME-24 y +15 puntos en LiveCodeBench-v6
Usa Gated LoRA para implementar aceleración sin pérdida a nivel de bits (lossless) y es totalmente compatible con la infraestructura de SGLang
Demuestra que los modelos de lenguaje por difusión pueden desplegarse de forma práctica a gran escala mediante aprendizaje de autoconsistencia y optimización de decodificación paralela

Resumen general

I-DLM (Introspective Diffusion Language Model) es un modelo que mantiene la capacidad de generación paralela de tokens de los modelos de lenguaje por difusión (DLM) existentes, mientras resuelve el problema de autoconsistencia introspectiva (introspective consistency) para alcanzar calidad al nivel de modelos AR
Mediante Introspective Strided Decoding (ISD), genera nuevos tokens mientras verifica los anteriores en una sola pasada hacia adelante
I-DLM-8B es el primer DLM que alcanza la misma calidad que modelos AR de escala comparable; con la mitad de los parámetros que LLaDA-2.1-mini (16B), mejora +26 puntos en AIME-24 y +15 puntos en LiveCodeBench-v6
En entornos de alta concurrencia (C=64), logra 2.9~4.1 veces más rendimiento (throughput) y, mediante Gated LoRA, admite aceleración sin pérdida a nivel de bits (lossless)

Por qué se necesita la Introspective Consistency

Los modelos AR realizan generación y autoverificación al mismo tiempo en una sola pasada hacia adelante, pero los DLM existentes solo aprenden denoising, por lo que carecen de autoconsistencia suficiente
Tres cuellos de botella de los DLM existentes
- Baja autoconsistencia: SDAR 0.699 vs I-DLM 0.984
- Cómputo ineficiente: TiDAR aprox. 7.8 veces de sobrecarga vs I-DLM aprox. 2.5 veces
- Desajuste de infraestructura: SDAR slope=84 vs I-DLM=549

Metodología de I-DLM

Entrenamiento de Introspective-Consistency
- Convierte un modelo AR preentrenado mediante atención causal (causal attention), logit shift y un objetivo all-masked
Introspective Strided Decoding (ISD)
- En una sola pasada hacia adelante, realiza en paralelo la generación de N tokens y la verificación de tokens anteriores
- Verifica los resultados generados usando un criterio de aceptación p/q (acceptance criterion)
Serving compatible con AR
- Puede integrarse directamente en la infraestructura de SGLang gracias a una estructura estricta de atención causal
- Funciona en el mismo entorno de serving que un modelo AR, sin infraestructura personalizada adicional

Resultados de rendimiento

I-DLM es el primer DLM con calidad equivalente a la de un modelo AR de la misma escala, y supera a los DLM existentes a lo largo de 15 benchmarks
Principales resultados en benchmarks
- Conocimiento y razonamiento: ARC-C 96.8, MMLU-Pro 79.7, GPQA-D 62.1
- Matemáticas: AIME-24 83.3, AIME-25 80.0, MATH-500 97.6
- Código: HumanEval 96.3, MBPP 94.6, LCB-v6 57.1
- Seguimiento de instrucciones: IFEval 84.7
- I-DLM-32B registró un rendimiento superior a LLaDA-2.1-flash (100B)

Throughput

Con tamaños de lote de 1 a 64, logra 2.9~4.1 veces más throughput que LLaDA-2.1-mini y SDAR
En entornos memory-bound, TPF (Token Per Forward) aproxima la mejora real de velocidad
- I-DLM(N=4, p=0.9): TPF≈2.9, eficiencia 1.22
- SDAR(N=4, p=0.5): TPF≈1.1, eficiencia 0.31
Una eficiencia mayor que 1 significa que la decodificación paralela reduce el cómputo total frente a AR

Speedup Factor Explorer

Tasa de aceptación p=0.9, sobrecarga α de R-ISD LoRA=1.12
Fórmulas aproximadas de mejora de velocidad:
- Memory-bound: Speedup ≈ TPF = (2+p+...+pN-2)/(2-pN-1)
- R-ISD (sin pérdida): Speedup ≈ TPF/α
- Gated LoRA se activa solo en posiciones MASK, garantizando identidad bit a bit con la salida AR

Documentación y recursos

Se ofrece documentación web para todo el proceso de instalación, entrenamiento, inferencia, serving, R-ISD sin pérdida, modelos y benchmarks
Installation
- Clonar el repositorio de GitHub y luego ejecutar install.sh
Quick Start
- Después de iniciar el servidor SGLang, se puede solicitar una finalización de chat mediante API REST
Training
- Entrena combinando secuencias totalmente enmascaradas con secuencias limpias
- 4.5B tokens, 8×H100 GPU, 2 epochs, currículo de stride (N=2→3)
Inference & ISD
- Propone nuevos tokens (q) en posiciones MASK y verifica (p) en posiciones limpias
- Garantiza la distribución AR con el criterio de aceptación min(1, p(x)/q(x))
- Con stride N=4, TPF=2.96, cerca de 3 veces de mejora de velocidad
Serving (SGLang)
- Paged KV cache**,** captura de gráficos CUDA (+42~76%), bucle de decodificación stationary-batch (+11~21%), propuesta Argmax (+11~15%), kernel de atención solo paged (+10~14%)
  - El sistema completo mejora el throughput en 2.1~2.5 veces frente a la base
Lossless R-ISD
- Aplica Gated LoRA (rank=128) solo en posiciones MASK
- La salida es completamente idéntica a la del modelo AR base
- Sobrecarga de aproximadamente 1.12 veces
Model Zoo
- I-DLM-8B: basado en Qwen3-8B, equivalente en calidad a AR
- I-DLM-32B: basado en Qwen3-32B, supera a LLaDA-2.1-flash (100B)
- I-DLM-8B-LoRA: con Gated LoRA (rank=128) aplicado
Benchmarks
- Evaluado en 15 benchmarks (conocimiento, matemáticas, código y seguimiento de instrucciones)
- Incluye scripts para reproducibilidad

Información de cita

Paper: Introspective Diffusion Language Models (arXiv:2604.11035, 2026)
Instituciones de investigación: Together AI, UIUC, Princeton, Stanford, UT Austin
Autores: Yifan Yu y otros 14

Conclusión

I-DLM es el primer caso en que un modelo de lenguaje basado en difusión logra al mismo tiempo la calidad y la velocidad de un modelo AR
Supera las limitaciones de la generación paralela mediante aprendizaje de autoconsistencia y decodificación ISD
Demuestra viabilidad de despliegue práctico gracias a su compatibilidad con SGLang, aceleración sin pérdida y alta escalabilidad de throughput

1 comentarios

GN⁺ 14 일 전

Opiniones en Hacker News

Si entendí bien, este es un enfoque bastante sorprendente
Tomaron un autoregressor de Qwen y lo modificaron con varias técnicas para que funcione como un diffuser, y mostró un rendimiento muy superior al de los diffusers existentes
Mediante adaptadores LoRA, pueden alinear la salida con la distribución del modelo base, logrando resultados idénticos a nivel de bytes con la misma semilla y, aun así, casi el doble de velocidad
No soy un experto sino más bien un experimentador entusiasta, pero esto realmente parece un avance muy interesante
- Es para entusiasmarse. Este paper afirma que tendió un puente entre la calidad AR y la decodificación paralela. En particular, el modo auxiliar LoRA sin pérdida es lo más impresionante
- No entiendo cómo se puede comparar sin generar directamente la salida del modelo base. Si es así, me pregunto cuál sería el sentido de esa comparación
- En realidad, esto se parece más a una variante de multi-token prediction y speculative decoding que a diffusion
  No hay proceso de denoising y sigue manteniendo una estructura causal
  En concreto, se entrena para predecir varios tokens a la vez usando múltiples tokens MASK, y en inferencia los genera en paralelo para acelerar el proceso
  Por ejemplo, se agregan 5 MASK después de “what is 2+2” para predecir de una vez los siguientes 5 tokens
  Esto permite hacer operaciones matrix-matrix en vez de matrix-vector, por lo que la eficiencia de memoria es mayor
  Sin embargo, cuanto más aumenta k (la cantidad de tokens predichos), más cae la calidad, y el paper ya muestra degradación en k=8
  Al final, es self-speculative decoding basado en predicción de 4 tokens; no elimina por completo las limitaciones existentes, pero sí es una forma de entrenamiento interesante
  Hay una explicación relacionada en una publicación anterior
Me gustaría saber en qué se diferencia frente a DFlash o DDTree
El año pasado vi por un momento que las respuestas de Gemini aparecían gradualmente como si fueran diffusion
No sé si era un experimento o solo un efecto visual, pero fue algo interesante
Me pregunto si aquí hay alguien que esté experimentando seriamente con Diffusion para generación de texto
- Parece que Inception Labs lleva bastante tiempo investigando este campo
  La velocidad es sorprendente, pero la latencia del primer token y la calidad de salida siguen siendo desafíos
  Si la velocidad y la precisión suben un poco más, parece que podría volverse bastante práctico para modelos de bajo costo o tareas asíncronas
  Además, también sería interesante probar difundir textos más largos de una sola vez para forzar una mayor capacidad de razonamiento
- Por ahora se está explorando en el mundo de los local LLM para speculative decoding
  Para más contexto, ver el artículo de Emergent Mind
- Mercury 2 es muy atractivo para experimentos de UX en términos de latencia y precio
  Funciona mucho más fluido que el antiguo Gemini Flash Lite, así que sirve bien para tareas como etiquetado automático o generación de enlaces
  Aun así, todavía le falta rendimiento de llamadas a herramientas al nivel de Haiku 3.5
  Para tareas con suficiente entrada y salida corta, dLLM encaja bien, y también parece prometedor en áreas como el autocompletado en pestañas
- Yo también lo probé, y requiere un enfoque intuitivo distinto al de un LLM común. En ciertos problemas encaja muy bien
- Estoy implementando WeDLM en Swift, pero todavía le falta rendimiento
  Genera de izquierda a derecha, pero la difusión solo ocurre dentro de una ventana deslizante. Como la ventana es de unos 16 tokens, la diferencia no es tan grande
No soy un experto, pero si es Diffusion, ¿no debería generar toda la salida de una vez?
Sin embargo, el modelo I-LDM parece usar el contexto previo para generar el siguiente bloque
- La generación por bloques da una gran mejora de velocidad
  Por ejemplo, si genera de a dos tokens, se obtiene una mejora de velocidad de casi 2x
  A medida que crece el tamaño del bloque, la velocidad total de generación aumenta lo suficiente como para que no haya mucha diferencia con generarlo todo de una vez
  Al final, lo importante es cuánto se puede reducir la pérdida de calidad, y este paper parece resolver bien esa parte
Me pregunto si para usar este modelo hay que pasarse a sglang, o si vLLM ya lo soporta
Desde hace tiempo pienso que una arquitectura diffusion basada en bloques es el futuro de los LLM
Una estructura que ajuste dinámicamente la velocidad de generación y permita autocorregirse durante la generación; siento que podría convertirse en algo como un sistema de memoria de corto plazo humano
No conozco bien los principios matemáticos, pero ojalá evolucione en esa dirección
Viendo las notas de lanzamiento

2025-04-12: publicación del código y lanzamiento de I-DLM-8B, 32B, 8B-LoRA
la fecha parece antigua, así que me pregunto si será una versión vieja
- Es simplemente un error tipográfico en el año. Confirmé que en realidad se subió a HuggingFace hace solo unos días
Me pregunto si este modelo ya se puede usar ahora mismo
Me pregunto si un modelo diffusion podría generar un bloque, hacer revisión interna (introspection) de ese resultado y luego volver a generarlo, permitiendo una especie de razonamiento iterativo
- Sí. Se puede implementar volviendo a ingresar la primera salida al modelo para reevaluarla como si fuera un modelo de inferencia AR

I-DLM - modelo de lenguaje difusivo introspectivo (Introspective Diffusion Language Models)

Resumen general

Por qué se necesita la Introspective Consistency

Metodología de I-DLM

Entrenamiento de Introspective-Consistency

Introspective Strided Decoding (ISD)

Serving compatible con AR

Resultados de rendimiento

Principales resultados en benchmarks

Throughput

Speedup Factor Explorer

Fórmulas aproximadas de mejora de velocidad:

Documentación y recursos

Installation

Quick Start

Training

Inference & ISD

Serving (SGLang)

Paged KV cache**,** captura de gráficos CUDA (+42~76%), bucle de decodificación stationary-batch (+11~21%), propuesta Argmax (+11~15%), kernel de atención solo paged (+10~14%)

Lossless R-ISD

Model Zoo

Benchmarks

Información de cita

Conclusión

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News

Paged KV cache, captura de gráficos CUDA (+42~76%), bucle de decodificación stationary-batch (+11~21%), propuesta Argmax (+11~15%), kernel de atención solo paged (+10~14%)