Mercury 2: LLM de inferencia ultrarrápida basado en difusión

(inceptionlabs.ai)

7 puntos por GN⁺ 2026-02-26 | 1 comentarios | Compartir por WhatsApp

Un modelo de lenguaje que utiliza un método de generación paralela basado en difusión (diffusion) para superar los límites de velocidad de los LLM de decodificación secuencial
Con una estructura de refinamiento paralelo (parallel refinement) que genera y corrige varios tokens a la vez, logra una velocidad de respuesta más de 5 veces superior
Con 1,009 tokens/segundo de procesamiento, contexto de 128K, salida JSON y uso de herramientas, está optimizado para aplicaciones en tiempo real
Demuestra eficiencia en entornos sensibles a la latencia, como asistencia de programación, bucles de agentes, interfaces de voz y pipelines de búsqueda·RAG
Totalmente compatible con la API de OpenAI, por lo que puede integrarse de inmediato sin modificar la infraestructura existente

Resumen de Mercury 2

Mercury 2 es el modelo de lenguaje de inferencia más rápido del mundo
- Su objetivo es ofrecer capacidad de respuesta inmediata en entornos de IA en producción
El cuello de botella de los LLM existentes es su estructura de decodificación secuencial autorregresiva (one token at a time)
- Esto provoca una acumulación de latencia en flujos de trabajo de IA basados en bucles repetitivos

Arquitectura de inferencia en tiempo real basada en difusión

Mercury 2 adopta un método de refinamiento paralelo (parallel refinement) en lugar de la decodificación secuencial
- Genera varios tokens simultáneamente y converge en pocas etapas
- En vez de funcionar como una “máquina de escribir”, revisa repetidamente un borrador completo como si fuera un “editor”
Como resultado, implementa una velocidad de generación más de 5 veces superior y una nueva curva de velocidad
La inferencia basada en difusión permite razonamiento de alta calidad minimizando la latencia y el costo

Rendimiento y especificaciones

Velocidad: 1,009 tokens/segundo en GPU NVIDIA Blackwell
Precio: $0.25 por millón de tokens de entrada, $0.75 por millón de tokens de salida
Calidad: un nivel competitivo frente a los principales modelos optimizados para velocidad
Funciones: razonamiento ajustable (tunable reasoning), contexto de 128K, uso de herramientas, salida alineada con esquema JSON
Optimización de latencia: latencia p95, capacidad de respuesta consistente en entornos de alta concurrencia y mantenimiento estable del rendimiento
Un representante de NVIDIA mencionó que Mercury 2, combinado con la infraestructura de IA de NVIDIA, superó los 1,000 tokens/segundo

Casos de uso en producción

1. Programación y edición

Ofrece respuestas inmediatas dentro del ciclo de trabajo del desarrollador para autocompletado, refactorización y agentes de código
El cofundador de Zed, Max Brunsfeld, destacó una “velocidad de sugerencias tan rápida como parte del pensamiento”

2. Bucles de agentes

Reduce la latencia de las llamadas en flujos de trabajo de agentes que requieren invocaciones de razonamiento de múltiples etapas
Viant utiliza Mercury 2 para optimización de campañas en tiempo real y refuerzo de sistemas autónomos de publicidad
Wispr Flow está evaluando la velocidad de Mercury 2 en conversación en tiempo real y refinamiento de transcripciones
Skyvern afirmó que es “al menos dos veces más rápido que GPT-5.2”

3. Voz e interacción en tiempo real

Las interfaces de voz tienen los límites de latencia más estrictos
Happyverse AI implementó avatares conversacionales naturales en tiempo real con Mercury 2
OpenCall mencionó la posibilidad de construir agentes de voz más reactivos gracias a baja latencia y alta calidad

4. Búsqueda y pipelines RAG

Hace posible la inferencia en tiempo real al reducir la latencia acumulada de procesos de búsqueda múltiple, reordenamiento y resumen
SearchBlox, en colaboración con Mercury 2, implementó IA de búsqueda en tiempo real,
proporcionando inteligencia en segundos en diversos ámbitos como atención al cliente, riesgo y comercio electrónico

Despliegue e integración

Mercury 2 está disponible de inmediato y es totalmente compatible con la API de OpenAI
Puede integrarse en sistemas existentes sin modificar el código
En evaluaciones empresariales, ofrece soporte para adecuación de cargas de trabajo, validación de rendimiento y diseño de evaluaciones
Frase oficial: “Mercury 2 is live. Welcome to diffusion.”

1 comentarios

GN⁺ 2026-02-26

Comentarios en Hacker News

Me parece interesante el concepto de medir la inteligencia (métrica) por segundo
Por ejemplo, considerar juntos la inteligencia por token y la cantidad de tokens por segundo
Personalmente, si Sonnet 4.6 fuera 5 veces más rápido que Opus 4.6, probablemente usaría Sonnet la mayor parte del tiempo
En la generación anterior, la línea Sonnet no era lo bastante buena, pero ahora la ventaja de iteración que da la velocidad es tan grande que la situación cambió
Antes usaba OpenAI Deep Research, pero o3-thinking + búsqueda web era mucho más rápido y suficientemente inteligente
- Creo que la velocidad en sí misma es un eje de calidad
  Si desarrollas una API sobre hardware como Cerebras o Groq, la velocidad de iteración y el costo quedan en otro nivel por completo
  Incluso en una nota de investigación que escribí recientemente, se muestra que dividir el trabajo entre modelos AR para la planificación y modelos de diffusion para la generación mejora mucho el rendimiento
- Si a esta métrica se le agregara la eficiencia por unidad de hardware, sería más realista
  Por ejemplo, si bastan 5 toneladas de carbón, pero usas 30 para mejorar 0.0000000001%, eso no es progreso real
- Está apareciendo una nueva familia de modelos orientados a la iteración rápida de agentes
  Modelos como Composer o las versiones Flash son ejemplos, y Mercury 2 también se posiciona como un modelo fuerte dentro de esa categoría
- Parece que pronto podremos hacer benchmarks reales
  Los modelos rápidos permiten iterar más rápido, y los modelos grandes son más precisos en el primer intento
  Actualmente me gusta Opus 4.6, pero quiero ver con datos la diferencia de eficiencia frente a Sonnet
- Me encanta de verdad el concepto de “Intelligence per second”
  Esa es justamente la razón por la que me gustaba Gemini 3 Flash: era suficientemente inteligente y ridículamente rápido
Hice una prueba simple y, al preguntarle por “los logros de Maradona”, Mercury 2 escribió mal “Dieadona”
Es una pregunta que incluso un modelo local de 3B respondería perfectamente, pero Mercury 2 es lento y comete muchos errores
Mercury 2 genera respuestas con un método de refinamiento paralelo (parallel refinement)
Es una estructura que genera varios tokens al mismo tiempo y converge en unas pocas etapas; en vez de una máquina de escribir, funciona más como un editor que va puliendo un borrador completo
Se está investigando cómo unificar DDPM y SGM mediante SDE, y me pregunto si cada capa del transformer podría verse como una etapa de diffusion
Si las L capas del transformer correspondieran a las L etapas de refinamiento de diffusion, quizá sería posible un fitting mutuo entre ambos modelos
Como cofundador y Chief Scientist de Inception, doy la bienvenida a preguntas técnicas sobre Mercury 2 o los diffusion LM
- Me gustaría saber cómo funciona el KV cache en modelos diffusion
  Quiero entender si permite reducir la latencia o el costo, si sigue una curva similar al caché autoregresivo, o si simplemente no aplica
- Los modelos diffusion parecen hacer reasoning por bloques de texto; me gustaría saber cómo manejan la dependencia de información entre bloques
  También sería interesante ver si se puede aplicar longitud de bloque dinámica
- Tengo curiosidad por el funcionamiento real del Voice AI mencionado en la presentación
  En la mayoría de los sistemas de voz, más que la latencia total de respuesta importa el TTFT (time-to-first-token)
  Quisiera saber cuánto mejora el TTFT de Mercury 2 frente a otros modelos de reasoning
- He experimentado un fenómeno de bucle parecido al de transformers débiles
  Ver ejemplo
  Tengo curiosidad por la causa de este fenómeno
- También me gustaría saber si tienen planes de evolucionar hacia un modelo drifting para lograr más velocidad
Lo que más me llama la atención es que ya aparecieron modelos capaces de generar miles de tokens por segundo
Si esto sigue así, incluso usando multi-shot prompting o nudging el usuario ni lo notará, lo que podría reducir problemas de alucinaciones o respuestas no deterministas
- Nosotros pensamos lo mismo
  Mercury 2 hace posible la iteración rápida en tareas de agentes
  Un solo intento puede ser menos preciso, pero gracias al corto tiempo de ejecución se puede mejorar mucho más rápido
- Incluso los modelos generales son bastante rápidos con batch inference
  Por ejemplo, GPT-OSS 20B llega a unos 2k tok/s con bs=64 en una sola 3090
Todavía no me convencen los modelos diffusion
Google y otros también lo intentaron, pero en la mayoría de los casos quedaron rezagados en la frontera de Pareto
Ver comparación de precio/rendimiento
- Hay una objeción a mirarlo solo desde Pareto
  A igualdad de calidad, Mercury es más de 5 veces más rápido que modelos AR similares
  Su inteligencia absoluta todavía está por debajo de Opus o Gemini Pro, pero en velocidad de inferencia tiene una ventaja importante
- La diffusion de texto todavía tiene mucho margen de desarrollo
  Es un terreno mucho menos explorado que los transformers autoregresivos, así que hay bastante headroom técnico
- Este modelo parece perfecto para tareas de edición rápida (edit)
  Si existiera una versión “Mercury Edit”, como Fast Apply de Morph, me encantaría probarla
El enfoque basado en diffusion es muy interesante
Los transformers tradicionales generan tokens de forma secuencial, mientras que diffusion puede refinar iterativamente toda la salida
Si de verdad resolvieron el problema de la latencia, eso podría abrir nuevas posibilidades para tareas complejas de reasoning
Me pregunto si existe algún LLM diffusion de pesos abiertos que pueda correrse en hardware local
Me gustaría ver directamente la diferencia de rendimiento en un entorno con GPU de consumo
Mercury 2 falló en la Car Wash Test
En vez de apuntar a un modelo de reasoning general, quizá sería mejor enfocarlo a casos de uso específicos (por ejemplo, agentes de código) y compararlo con modelos SOTA de ese campo, como Qwen3-Coder-Next
- Personalmente prefiero un modelo lento pero preciso antes que uno rápido pero con muchos errores
  Incluso si la sesión tarda más, la precisión importa más
Si este modelo se implementara en un chip Talaas, me pregunto si podría generar más de 50,000 tokens por segundo
- Si se integrara en un circuito estilo ASIC sin latencia de memoria, parece que prácticamente cualquier modelo podría lograr una mejora enorme de velocidad

Mercury 2: LLM de inferencia ultrarrápida basado en difusión

Resumen de Mercury 2

Arquitectura de inferencia en tiempo real basada en difusión

Rendimiento y especificaciones

Casos de uso en producción

1. Programación y edición

2. Bucles de agentes

3. Voz e interacción en tiempo real

4. Búsqueda y pipelines RAG

Despliegue e integración

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News