I-DLM - modelo de lenguaje difusivo introspectivo (Introspective Diffusion Language Models)
(introspective-diffusion.github.io)- I-DLM es el primer caso en que un modelo de lenguaje basado en difusión logra simultáneamente calidad al nivel de un modelo AR (Autoregressive) y velocidad de generación en paralelo
- Mediante Introspective Strided Decoding (ISD), en una sola pasada hacia adelante genera nuevos tokens y verifica tokens anteriores al mismo tiempo
- I-DLM-8B mejora frente a LLaDA-2.1-mini (16B) con la mitad de los parámetros, con +26 puntos en AIME-24 y +15 puntos en LiveCodeBench-v6
- Usa Gated LoRA para implementar aceleración sin pérdida a nivel de bits (lossless) y es totalmente compatible con la infraestructura de SGLang
- Demuestra que los modelos de lenguaje por difusión pueden desplegarse de forma práctica a gran escala mediante aprendizaje de autoconsistencia y optimización de decodificación paralela
Resumen general
- I-DLM (Introspective Diffusion Language Model) es un modelo que mantiene la capacidad de generación paralela de tokens de los modelos de lenguaje por difusión (DLM) existentes, mientras resuelve el problema de autoconsistencia introspectiva (introspective consistency) para alcanzar calidad al nivel de modelos AR
- Mediante Introspective Strided Decoding (ISD), genera nuevos tokens mientras verifica los anteriores en una sola pasada hacia adelante
- I-DLM-8B es el primer DLM que alcanza la misma calidad que modelos AR de escala comparable; con la mitad de los parámetros que LLaDA-2.1-mini (16B), mejora +26 puntos en AIME-24 y +15 puntos en LiveCodeBench-v6
- En entornos de alta concurrencia (C=64), logra 2.9~4.1 veces más rendimiento (throughput) y, mediante Gated LoRA, admite aceleración sin pérdida a nivel de bits (lossless)
Por qué se necesita la Introspective Consistency
- Los modelos AR realizan generación y autoverificación al mismo tiempo en una sola pasada hacia adelante, pero los DLM existentes solo aprenden denoising, por lo que carecen de autoconsistencia suficiente
- Tres cuellos de botella de los DLM existentes
- Baja autoconsistencia: SDAR 0.699 vs I-DLM 0.984
- Cómputo ineficiente: TiDAR aprox. 7.8 veces de sobrecarga vs I-DLM aprox. 2.5 veces
- Desajuste de infraestructura: SDAR slope=84 vs I-DLM=549
Metodología de I-DLM
-
Entrenamiento de Introspective-Consistency
- Convierte un modelo AR preentrenado mediante atención causal (causal attention), logit shift y un objetivo all-masked
-
Introspective Strided Decoding (ISD)
- En una sola pasada hacia adelante, realiza en paralelo la generación de N tokens y la verificación de tokens anteriores
- Verifica los resultados generados usando un criterio de aceptación p/q (acceptance criterion)
-
Serving compatible con AR
- Puede integrarse directamente en la infraestructura de SGLang gracias a una estructura estricta de atención causal
- Funciona en el mismo entorno de serving que un modelo AR, sin infraestructura personalizada adicional
Resultados de rendimiento
- I-DLM es el primer DLM con calidad equivalente a la de un modelo AR de la misma escala, y supera a los DLM existentes a lo largo de 15 benchmarks
-
Principales resultados en benchmarks
- Conocimiento y razonamiento: ARC-C 96.8, MMLU-Pro 79.7, GPQA-D 62.1
- Matemáticas: AIME-24 83.3, AIME-25 80.0, MATH-500 97.6
- Código: HumanEval 96.3, MBPP 94.6, LCB-v6 57.1
- Seguimiento de instrucciones: IFEval 84.7
- I-DLM-32B registró un rendimiento superior a LLaDA-2.1-flash (100B)
Throughput
- Con tamaños de lote de 1 a 64, logra 2.9~4.1 veces más throughput que LLaDA-2.1-mini y SDAR
- En entornos memory-bound, TPF (Token Per Forward) aproxima la mejora real de velocidad
- I-DLM(N=4, p=0.9): TPF≈2.9, eficiencia 1.22
- SDAR(N=4, p=0.5): TPF≈1.1, eficiencia 0.31
- Una eficiencia mayor que 1 significa que la decodificación paralela reduce el cómputo total frente a AR
Speedup Factor Explorer
- Tasa de aceptación p=0.9, sobrecarga α de R-ISD LoRA=1.12
-
Fórmulas aproximadas de mejora de velocidad:
- Memory-bound:
Speedup ≈ TPF = (2+p+...+pN-2)/(2-pN-1) - R-ISD (sin pérdida):
Speedup ≈ TPF/α - Gated LoRA se activa solo en posiciones MASK, garantizando identidad bit a bit con la salida AR
- Memory-bound:
Documentación y recursos
- Se ofrece documentación web para todo el proceso de instalación, entrenamiento, inferencia, serving, R-ISD sin pérdida, modelos y benchmarks
-
Installation
- Clonar el repositorio de GitHub y luego ejecutar
install.sh
- Clonar el repositorio de GitHub y luego ejecutar
-
Quick Start
- Después de iniciar el servidor SGLang, se puede solicitar una finalización de chat mediante API REST
-
Training
- Entrena combinando secuencias totalmente enmascaradas con secuencias limpias
- 4.5B tokens, 8×H100 GPU, 2 epochs, currículo de stride (N=2→3)
-
Inference & ISD
- Propone nuevos tokens (q) en posiciones MASK y verifica (p) en posiciones limpias
- Garantiza la distribución AR con el criterio de aceptación
min(1, p(x)/q(x)) - Con stride N=4, TPF=2.96, cerca de 3 veces de mejora de velocidad
-
Serving (SGLang)
-
Paged KV cache**,** captura de gráficos CUDA (+42~76%), bucle de decodificación stationary-batch (+11~21%), propuesta Argmax (+11~15%), kernel de atención solo paged (+10~14%)
- El sistema completo mejora el throughput en 2.1~2.5 veces frente a la base
-
-
Lossless R-ISD
- Aplica Gated LoRA (rank=128) solo en posiciones MASK
- La salida es completamente idéntica a la del modelo AR base
- Sobrecarga de aproximadamente 1.12 veces
-
Model Zoo
- I-DLM-8B: basado en Qwen3-8B, equivalente en calidad a AR
- I-DLM-32B: basado en Qwen3-32B, supera a LLaDA-2.1-flash (100B)
- I-DLM-8B-LoRA: con Gated LoRA (rank=128) aplicado
-
Benchmarks
- Evaluado en 15 benchmarks (conocimiento, matemáticas, código y seguimiento de instrucciones)
- Incluye scripts para reproducibilidad
Información de cita
- Paper: Introspective Diffusion Language Models (arXiv:2604.11035, 2026)
- Instituciones de investigación: Together AI, UIUC, Princeton, Stanford, UT Austin
- Autores: Yifan Yu y otros 14
Conclusión
- I-DLM es el primer caso en que un modelo de lenguaje basado en difusión logra al mismo tiempo la calidad y la velocidad de un modelo AR
- Supera las limitaciones de la generación paralela mediante aprendizaje de autoconsistencia y decodificación ISD
- Demuestra viabilidad de despliegue práctico gracias a su compatibilidad con SGLang, aceleración sin pérdida y alta escalabilidad de throughput
1 comentarios
Opiniones en Hacker News
Si entendí bien, este es un enfoque bastante sorprendente
Tomaron un autoregressor de Qwen y lo modificaron con varias técnicas para que funcione como un diffuser, y mostró un rendimiento muy superior al de los diffusers existentes
Mediante adaptadores LoRA, pueden alinear la salida con la distribución del modelo base, logrando resultados idénticos a nivel de bytes con la misma semilla y, aun así, casi el doble de velocidad
No soy un experto sino más bien un experimentador entusiasta, pero esto realmente parece un avance muy interesante
No hay proceso de denoising y sigue manteniendo una estructura causal
En concreto, se entrena para predecir varios tokens a la vez usando múltiples tokens MASK, y en inferencia los genera en paralelo para acelerar el proceso
Por ejemplo, se agregan 5 MASK después de “what is 2+2” para predecir de una vez los siguientes 5 tokens
Esto permite hacer operaciones matrix-matrix en vez de matrix-vector, por lo que la eficiencia de memoria es mayor
Sin embargo, cuanto más aumenta k (la cantidad de tokens predichos), más cae la calidad, y el paper ya muestra degradación en k=8
Al final, es self-speculative decoding basado en predicción de 4 tokens; no elimina por completo las limitaciones existentes, pero sí es una forma de entrenamiento interesante
Hay una explicación relacionada en una publicación anterior
Me gustaría saber en qué se diferencia frente a DFlash o DDTree
El año pasado vi por un momento que las respuestas de Gemini aparecían gradualmente como si fueran diffusion
No sé si era un experimento o solo un efecto visual, pero fue algo interesante
Me pregunto si aquí hay alguien que esté experimentando seriamente con Diffusion para generación de texto
La velocidad es sorprendente, pero la latencia del primer token y la calidad de salida siguen siendo desafíos
Si la velocidad y la precisión suben un poco más, parece que podría volverse bastante práctico para modelos de bajo costo o tareas asíncronas
Además, también sería interesante probar difundir textos más largos de una sola vez para forzar una mayor capacidad de razonamiento
Para más contexto, ver el artículo de Emergent Mind
Funciona mucho más fluido que el antiguo Gemini Flash Lite, así que sirve bien para tareas como etiquetado automático o generación de enlaces
Aun así, todavía le falta rendimiento de llamadas a herramientas al nivel de Haiku 3.5
Para tareas con suficiente entrada y salida corta, dLLM encaja bien, y también parece prometedor en áreas como el autocompletado en pestañas
Genera de izquierda a derecha, pero la difusión solo ocurre dentro de una ventana deslizante. Como la ventana es de unos 16 tokens, la diferencia no es tan grande
No soy un experto, pero si es Diffusion, ¿no debería generar toda la salida de una vez?
Sin embargo, el modelo I-LDM parece usar el contexto previo para generar el siguiente bloque
Por ejemplo, si genera de a dos tokens, se obtiene una mejora de velocidad de casi 2x
A medida que crece el tamaño del bloque, la velocidad total de generación aumenta lo suficiente como para que no haya mucha diferencia con generarlo todo de una vez
Al final, lo importante es cuánto se puede reducir la pérdida de calidad, y este paper parece resolver bien esa parte
Me pregunto si para usar este modelo hay que pasarse a sglang, o si vLLM ya lo soporta
Desde hace tiempo pienso que una arquitectura diffusion basada en bloques es el futuro de los LLM
Una estructura que ajuste dinámicamente la velocidad de generación y permita autocorregirse durante la generación; siento que podría convertirse en algo como un sistema de memoria de corto plazo humano
No conozco bien los principios matemáticos, pero ojalá evolucione en esa dirección
Viendo las notas de lanzamiento
Me pregunto si este modelo ya se puede usar ahora mismo
Me pregunto si un modelo diffusion podría generar un bloque, hacer revisión interna (introspection) de ese resultado y luego volver a generarlo, permitiendo una especie de razonamiento iterativo