1 puntos por GN⁺ 14 일 전 | 1 comentarios | Compartir por WhatsApp
  • I-DLM es el primer caso en que un modelo de lenguaje basado en difusión logra simultáneamente calidad al nivel de un modelo AR (Autoregressive) y velocidad de generación en paralelo
  • Mediante Introspective Strided Decoding (ISD), en una sola pasada hacia adelante genera nuevos tokens y verifica tokens anteriores al mismo tiempo
  • I-DLM-8B mejora frente a LLaDA-2.1-mini (16B) con la mitad de los parámetros, con +26 puntos en AIME-24 y +15 puntos en LiveCodeBench-v6
  • Usa Gated LoRA para implementar aceleración sin pérdida a nivel de bits (lossless) y es totalmente compatible con la infraestructura de SGLang
  • Demuestra que los modelos de lenguaje por difusión pueden desplegarse de forma práctica a gran escala mediante aprendizaje de autoconsistencia y optimización de decodificación paralela

Resumen general

  • I-DLM (Introspective Diffusion Language Model) es un modelo que mantiene la capacidad de generación paralela de tokens de los modelos de lenguaje por difusión (DLM) existentes, mientras resuelve el problema de autoconsistencia introspectiva (introspective consistency) para alcanzar calidad al nivel de modelos AR
  • Mediante Introspective Strided Decoding (ISD), genera nuevos tokens mientras verifica los anteriores en una sola pasada hacia adelante
  • I-DLM-8B es el primer DLM que alcanza la misma calidad que modelos AR de escala comparable; con la mitad de los parámetros que LLaDA-2.1-mini (16B), mejora +26 puntos en AIME-24 y +15 puntos en LiveCodeBench-v6
  • En entornos de alta concurrencia (C=64), logra 2.9~4.1 veces más rendimiento (throughput) y, mediante Gated LoRA, admite aceleración sin pérdida a nivel de bits (lossless)

Por qué se necesita la Introspective Consistency

  • Los modelos AR realizan generación y autoverificación al mismo tiempo en una sola pasada hacia adelante, pero los DLM existentes solo aprenden denoising, por lo que carecen de autoconsistencia suficiente
  • Tres cuellos de botella de los DLM existentes
    • Baja autoconsistencia: SDAR 0.699 vs I-DLM 0.984
    • Cómputo ineficiente: TiDAR aprox. 7.8 veces de sobrecarga vs I-DLM aprox. 2.5 veces
    • Desajuste de infraestructura: SDAR slope=84 vs I-DLM=549

Metodología de I-DLM

  • Entrenamiento de Introspective-Consistency

    • Convierte un modelo AR preentrenado mediante atención causal (causal attention), logit shift y un objetivo all-masked
  • Introspective Strided Decoding (ISD)

    • En una sola pasada hacia adelante, realiza en paralelo la generación de N tokens y la verificación de tokens anteriores
    • Verifica los resultados generados usando un criterio de aceptación p/q (acceptance criterion)
  • Serving compatible con AR

    • Puede integrarse directamente en la infraestructura de SGLang gracias a una estructura estricta de atención causal
    • Funciona en el mismo entorno de serving que un modelo AR, sin infraestructura personalizada adicional

Resultados de rendimiento

  • I-DLM es el primer DLM con calidad equivalente a la de un modelo AR de la misma escala, y supera a los DLM existentes a lo largo de 15 benchmarks
  • Principales resultados en benchmarks

    • Conocimiento y razonamiento: ARC-C 96.8, MMLU-Pro 79.7, GPQA-D 62.1
    • Matemáticas: AIME-24 83.3, AIME-25 80.0, MATH-500 97.6
    • Código: HumanEval 96.3, MBPP 94.6, LCB-v6 57.1
    • Seguimiento de instrucciones: IFEval 84.7
    • I-DLM-32B registró un rendimiento superior a LLaDA-2.1-flash (100B)

Throughput

  • Con tamaños de lote de 1 a 64, logra 2.9~4.1 veces más throughput que LLaDA-2.1-mini y SDAR
  • En entornos memory-bound, TPF (Token Per Forward) aproxima la mejora real de velocidad
    • I-DLM(N=4, p=0.9): TPF≈2.9, eficiencia 1.22
    • SDAR(N=4, p=0.5): TPF≈1.1, eficiencia 0.31
  • Una eficiencia mayor que 1 significa que la decodificación paralela reduce el cómputo total frente a AR

Speedup Factor Explorer

  • Tasa de aceptación p=0.9, sobrecarga α de R-ISD LoRA=1.12
  • Fórmulas aproximadas de mejora de velocidad:

    • Memory-bound: Speedup ≈ TPF = (2+p+...+pN-2)/(2-pN-1)
    • R-ISD (sin pérdida): Speedup ≈ TPF/α
    • Gated LoRA se activa solo en posiciones MASK, garantizando identidad bit a bit con la salida AR

Documentación y recursos

  • Se ofrece documentación web para todo el proceso de instalación, entrenamiento, inferencia, serving, R-ISD sin pérdida, modelos y benchmarks
  • Installation

    • Clonar el repositorio de GitHub y luego ejecutar install.sh
  • Quick Start

    • Después de iniciar el servidor SGLang, se puede solicitar una finalización de chat mediante API REST
  • Training

    • Entrena combinando secuencias totalmente enmascaradas con secuencias limpias
    • 4.5B tokens, 8×H100 GPU, 2 epochs, currículo de stride (N=2→3)
  • Inference & ISD

    • Propone nuevos tokens (q) en posiciones MASK y verifica (p) en posiciones limpias
    • Garantiza la distribución AR con el criterio de aceptación min(1, p(x)/q(x))
    • Con stride N=4, TPF=2.96, cerca de 3 veces de mejora de velocidad
  • Serving (SGLang)

    • Paged KV cache**,** captura de gráficos CUDA (+42~76%), bucle de decodificación stationary-batch (+11~21%), propuesta Argmax (+11~15%), kernel de atención solo paged (+10~14%)

      • El sistema completo mejora el throughput en 2.1~2.5 veces frente a la base
  • Lossless R-ISD

    • Aplica Gated LoRA (rank=128) solo en posiciones MASK
    • La salida es completamente idéntica a la del modelo AR base
    • Sobrecarga de aproximadamente 1.12 veces
  • Model Zoo

    • I-DLM-8B: basado en Qwen3-8B, equivalente en calidad a AR
    • I-DLM-32B: basado en Qwen3-32B, supera a LLaDA-2.1-flash (100B)
    • I-DLM-8B-LoRA: con Gated LoRA (rank=128) aplicado
  • Benchmarks

    • Evaluado en 15 benchmarks (conocimiento, matemáticas, código y seguimiento de instrucciones)
    • Incluye scripts para reproducibilidad

Información de cita

  • Paper: Introspective Diffusion Language Models (arXiv:2604.11035, 2026)
  • Instituciones de investigación: Together AI, UIUC, Princeton, Stanford, UT Austin
  • Autores: Yifan Yu y otros 14

Conclusión

  • I-DLM es el primer caso en que un modelo de lenguaje basado en difusión logra al mismo tiempo la calidad y la velocidad de un modelo AR
  • Supera las limitaciones de la generación paralela mediante aprendizaje de autoconsistencia y decodificación ISD
  • Demuestra viabilidad de despliegue práctico gracias a su compatibilidad con SGLang, aceleración sin pérdida y alta escalabilidad de throughput

1 comentarios

 
GN⁺ 14 일 전
Opiniones en Hacker News
  • Si entendí bien, este es un enfoque bastante sorprendente
    Tomaron un autoregressor de Qwen y lo modificaron con varias técnicas para que funcione como un diffuser, y mostró un rendimiento muy superior al de los diffusers existentes
    Mediante adaptadores LoRA, pueden alinear la salida con la distribución del modelo base, logrando resultados idénticos a nivel de bytes con la misma semilla y, aun así, casi el doble de velocidad
    No soy un experto sino más bien un experimentador entusiasta, pero esto realmente parece un avance muy interesante

    • Es para entusiasmarse. Este paper afirma que tendió un puente entre la calidad AR y la decodificación paralela. En particular, el modo auxiliar LoRA sin pérdida es lo más impresionante
    • No entiendo cómo se puede comparar sin generar directamente la salida del modelo base. Si es así, me pregunto cuál sería el sentido de esa comparación
    • En realidad, esto se parece más a una variante de multi-token prediction y speculative decoding que a diffusion
      No hay proceso de denoising y sigue manteniendo una estructura causal
      En concreto, se entrena para predecir varios tokens a la vez usando múltiples tokens MASK, y en inferencia los genera en paralelo para acelerar el proceso
      Por ejemplo, se agregan 5 MASK después de “what is 2+2” para predecir de una vez los siguientes 5 tokens
      Esto permite hacer operaciones matrix-matrix en vez de matrix-vector, por lo que la eficiencia de memoria es mayor
      Sin embargo, cuanto más aumenta k (la cantidad de tokens predichos), más cae la calidad, y el paper ya muestra degradación en k=8
      Al final, es self-speculative decoding basado en predicción de 4 tokens; no elimina por completo las limitaciones existentes, pero sí es una forma de entrenamiento interesante
      Hay una explicación relacionada en una publicación anterior
  • Me gustaría saber en qué se diferencia frente a DFlash o DDTree

  • El año pasado vi por un momento que las respuestas de Gemini aparecían gradualmente como si fueran diffusion
    No sé si era un experimento o solo un efecto visual, pero fue algo interesante

  • Me pregunto si aquí hay alguien que esté experimentando seriamente con Diffusion para generación de texto

    • Parece que Inception Labs lleva bastante tiempo investigando este campo
      La velocidad es sorprendente, pero la latencia del primer token y la calidad de salida siguen siendo desafíos
      Si la velocidad y la precisión suben un poco más, parece que podría volverse bastante práctico para modelos de bajo costo o tareas asíncronas
      Además, también sería interesante probar difundir textos más largos de una sola vez para forzar una mayor capacidad de razonamiento
    • Por ahora se está explorando en el mundo de los local LLM para speculative decoding
      Para más contexto, ver el artículo de Emergent Mind
    • Mercury 2 es muy atractivo para experimentos de UX en términos de latencia y precio
      Funciona mucho más fluido que el antiguo Gemini Flash Lite, así que sirve bien para tareas como etiquetado automático o generación de enlaces
      Aun así, todavía le falta rendimiento de llamadas a herramientas al nivel de Haiku 3.5
      Para tareas con suficiente entrada y salida corta, dLLM encaja bien, y también parece prometedor en áreas como el autocompletado en pestañas
    • Yo también lo probé, y requiere un enfoque intuitivo distinto al de un LLM común. En ciertos problemas encaja muy bien
    • Estoy implementando WeDLM en Swift, pero todavía le falta rendimiento
      Genera de izquierda a derecha, pero la difusión solo ocurre dentro de una ventana deslizante. Como la ventana es de unos 16 tokens, la diferencia no es tan grande
  • No soy un experto, pero si es Diffusion, ¿no debería generar toda la salida de una vez?
    Sin embargo, el modelo I-LDM parece usar el contexto previo para generar el siguiente bloque

    • La generación por bloques da una gran mejora de velocidad
      Por ejemplo, si genera de a dos tokens, se obtiene una mejora de velocidad de casi 2x
      A medida que crece el tamaño del bloque, la velocidad total de generación aumenta lo suficiente como para que no haya mucha diferencia con generarlo todo de una vez
      Al final, lo importante es cuánto se puede reducir la pérdida de calidad, y este paper parece resolver bien esa parte
  • Me pregunto si para usar este modelo hay que pasarse a sglang, o si vLLM ya lo soporta

  • Desde hace tiempo pienso que una arquitectura diffusion basada en bloques es el futuro de los LLM
    Una estructura que ajuste dinámicamente la velocidad de generación y permita autocorregirse durante la generación; siento que podría convertirse en algo como un sistema de memoria de corto plazo humano
    No conozco bien los principios matemáticos, pero ojalá evolucione en esa dirección

  • Viendo las notas de lanzamiento

    2025-04-12: publicación del código y lanzamiento de I-DLM-8B, 32B, 8B-LoRA
    la fecha parece antigua, así que me pregunto si será una versión vieja

    • Es simplemente un error tipográfico en el año. Confirmé que en realidad se subió a HuggingFace hace solo unos días
  • Me pregunto si este modelo ya se puede usar ahora mismo

  • Me pregunto si un modelo diffusion podría generar un bloque, hacer revisión interna (introspection) de ese resultado y luego volver a generarlo, permitiendo una especie de razonamiento iterativo

    • Sí. Se puede implementar volviendo a ingresar la primera salida al modelo para reevaluarla como si fuera un modelo de inferencia AR