- Un modelo de lenguaje que utiliza un método de generación paralela basado en difusión (diffusion) para superar los límites de velocidad de los LLM de decodificación secuencial
- Con una estructura de refinamiento paralelo (parallel refinement) que genera y corrige varios tokens a la vez, logra una velocidad de respuesta más de 5 veces superior
- Con 1,009 tokens/segundo de procesamiento, contexto de 128K, salida JSON y uso de herramientas, está optimizado para aplicaciones en tiempo real
- Demuestra eficiencia en entornos sensibles a la latencia, como asistencia de programación, bucles de agentes, interfaces de voz y pipelines de búsqueda·RAG
- Totalmente compatible con la API de OpenAI, por lo que puede integrarse de inmediato sin modificar la infraestructura existente
Resumen de Mercury 2
- Mercury 2 es el modelo de lenguaje de inferencia más rápido del mundo
- Su objetivo es ofrecer capacidad de respuesta inmediata en entornos de IA en producción
- El cuello de botella de los LLM existentes es su estructura de decodificación secuencial autorregresiva (one token at a time)
- Esto provoca una acumulación de latencia en flujos de trabajo de IA basados en bucles repetitivos
Arquitectura de inferencia en tiempo real basada en difusión
- Mercury 2 adopta un método de refinamiento paralelo (parallel refinement) en lugar de la decodificación secuencial
- Genera varios tokens simultáneamente y converge en pocas etapas
- En vez de funcionar como una “máquina de escribir”, revisa repetidamente un borrador completo como si fuera un “editor”
- Como resultado, implementa una velocidad de generación más de 5 veces superior y una nueva curva de velocidad
- La inferencia basada en difusión permite razonamiento de alta calidad minimizando la latencia y el costo
Rendimiento y especificaciones
- Velocidad: 1,009 tokens/segundo en GPU NVIDIA Blackwell
- Precio: $0.25 por millón de tokens de entrada, $0.75 por millón de tokens de salida
- Calidad: un nivel competitivo frente a los principales modelos optimizados para velocidad
- Funciones: razonamiento ajustable (tunable reasoning), contexto de 128K, uso de herramientas, salida alineada con esquema JSON
- Optimización de latencia: latencia p95, capacidad de respuesta consistente en entornos de alta concurrencia y mantenimiento estable del rendimiento
- Un representante de NVIDIA mencionó que Mercury 2, combinado con la infraestructura de IA de NVIDIA, superó los 1,000 tokens/segundo
Casos de uso en producción
1. Programación y edición
- Ofrece respuestas inmediatas dentro del ciclo de trabajo del desarrollador para autocompletado, refactorización y agentes de código
- El cofundador de Zed, Max Brunsfeld, destacó una “velocidad de sugerencias tan rápida como parte del pensamiento”
2. Bucles de agentes
- Reduce la latencia de las llamadas en flujos de trabajo de agentes que requieren invocaciones de razonamiento de múltiples etapas
- Viant utiliza Mercury 2 para optimización de campañas en tiempo real y refuerzo de sistemas autónomos de publicidad
- Wispr Flow está evaluando la velocidad de Mercury 2 en conversación en tiempo real y refinamiento de transcripciones
- Skyvern afirmó que es “al menos dos veces más rápido que GPT-5.2”
3. Voz e interacción en tiempo real
- Las interfaces de voz tienen los límites de latencia más estrictos
- Happyverse AI implementó avatares conversacionales naturales en tiempo real con Mercury 2
- OpenCall mencionó la posibilidad de construir agentes de voz más reactivos gracias a baja latencia y alta calidad
4. Búsqueda y pipelines RAG
- Hace posible la inferencia en tiempo real al reducir la latencia acumulada de procesos de búsqueda múltiple, reordenamiento y resumen
- SearchBlox, en colaboración con Mercury 2, implementó IA de búsqueda en tiempo real,
proporcionando inteligencia en segundos en diversos ámbitos como atención al cliente, riesgo y comercio electrónico
Despliegue e integración
- Mercury 2 está disponible de inmediato y es totalmente compatible con la API de OpenAI
- Puede integrarse en sistemas existentes sin modificar el código
- En evaluaciones empresariales, ofrece soporte para adecuación de cargas de trabajo, validación de rendimiento y diseño de evaluaciones
- Frase oficial: “Mercury 2 is live. Welcome to diffusion.”
1 comentarios
Comentarios en Hacker News
Me parece interesante el concepto de medir la inteligencia (métrica) por segundo
Por ejemplo, considerar juntos la inteligencia por token y la cantidad de tokens por segundo
Personalmente, si Sonnet 4.6 fuera 5 veces más rápido que Opus 4.6, probablemente usaría Sonnet la mayor parte del tiempo
En la generación anterior, la línea Sonnet no era lo bastante buena, pero ahora la ventaja de iteración que da la velocidad es tan grande que la situación cambió
Antes usaba OpenAI Deep Research, pero o3-thinking + búsqueda web era mucho más rápido y suficientemente inteligente
Si desarrollas una API sobre hardware como Cerebras o Groq, la velocidad de iteración y el costo quedan en otro nivel por completo
Incluso en una nota de investigación que escribí recientemente, se muestra que dividir el trabajo entre modelos AR para la planificación y modelos de diffusion para la generación mejora mucho el rendimiento
Por ejemplo, si bastan 5 toneladas de carbón, pero usas 30 para mejorar 0.0000000001%, eso no es progreso real
Modelos como Composer o las versiones Flash son ejemplos, y Mercury 2 también se posiciona como un modelo fuerte dentro de esa categoría
Los modelos rápidos permiten iterar más rápido, y los modelos grandes son más precisos en el primer intento
Actualmente me gusta Opus 4.6, pero quiero ver con datos la diferencia de eficiencia frente a Sonnet
Esa es justamente la razón por la que me gustaba Gemini 3 Flash: era suficientemente inteligente y ridículamente rápido
Hice una prueba simple y, al preguntarle por “los logros de Maradona”, Mercury 2 escribió mal “Dieadona”
Es una pregunta que incluso un modelo local de 3B respondería perfectamente, pero Mercury 2 es lento y comete muchos errores
Mercury 2 genera respuestas con un método de refinamiento paralelo (parallel refinement)
Es una estructura que genera varios tokens al mismo tiempo y converge en unas pocas etapas; en vez de una máquina de escribir, funciona más como un editor que va puliendo un borrador completo
Se está investigando cómo unificar DDPM y SGM mediante SDE, y me pregunto si cada capa del transformer podría verse como una etapa de diffusion
Si las L capas del transformer correspondieran a las L etapas de refinamiento de diffusion, quizá sería posible un fitting mutuo entre ambos modelos
Como cofundador y Chief Scientist de Inception, doy la bienvenida a preguntas técnicas sobre Mercury 2 o los diffusion LM
Quiero entender si permite reducir la latencia o el costo, si sigue una curva similar al caché autoregresivo, o si simplemente no aplica
También sería interesante ver si se puede aplicar longitud de bloque dinámica
En la mayoría de los sistemas de voz, más que la latencia total de respuesta importa el TTFT (time-to-first-token)
Quisiera saber cuánto mejora el TTFT de Mercury 2 frente a otros modelos de reasoning
Ver ejemplo
Tengo curiosidad por la causa de este fenómeno
Lo que más me llama la atención es que ya aparecieron modelos capaces de generar miles de tokens por segundo
Si esto sigue así, incluso usando multi-shot prompting o nudging el usuario ni lo notará, lo que podría reducir problemas de alucinaciones o respuestas no deterministas
Mercury 2 hace posible la iteración rápida en tareas de agentes
Un solo intento puede ser menos preciso, pero gracias al corto tiempo de ejecución se puede mejorar mucho más rápido
Por ejemplo, GPT-OSS 20B llega a unos 2k tok/s con bs=64 en una sola 3090
Todavía no me convencen los modelos diffusion
Google y otros también lo intentaron, pero en la mayoría de los casos quedaron rezagados en la frontera de Pareto
Ver comparación de precio/rendimiento
A igualdad de calidad, Mercury es más de 5 veces más rápido que modelos AR similares
Su inteligencia absoluta todavía está por debajo de Opus o Gemini Pro, pero en velocidad de inferencia tiene una ventaja importante
Es un terreno mucho menos explorado que los transformers autoregresivos, así que hay bastante headroom técnico
Si existiera una versión “Mercury Edit”, como Fast Apply de Morph, me encantaría probarla
El enfoque basado en diffusion es muy interesante
Los transformers tradicionales generan tokens de forma secuencial, mientras que diffusion puede refinar iterativamente toda la salida
Si de verdad resolvieron el problema de la latencia, eso podría abrir nuevas posibilidades para tareas complejas de reasoning
Me pregunto si existe algún LLM diffusion de pesos abiertos que pueda correrse en hardware local
Me gustaría ver directamente la diferencia de rendimiento en un entorno con GPU de consumo
Mercury 2 falló en la Car Wash Test
En vez de apuntar a un modelo de reasoning general, quizá sería mejor enfocarlo a casos de uso específicos (por ejemplo, agentes de código) y compararlo con modelos SOTA de ese campo, como Qwen3-Coder-Next
Incluso si la sesión tarda más, la precisión importa más
Si este modelo se implementara en un chip Talaas, me pregunto si podría generar más de 50,000 tokens por segundo