7 puntos por GN⁺ 2026-02-26 | 1 comentarios | Compartir por WhatsApp
  • Un modelo de lenguaje que utiliza un método de generación paralela basado en difusión (diffusion) para superar los límites de velocidad de los LLM de decodificación secuencial
  • Con una estructura de refinamiento paralelo (parallel refinement) que genera y corrige varios tokens a la vez, logra una velocidad de respuesta más de 5 veces superior
  • Con 1,009 tokens/segundo de procesamiento, contexto de 128K, salida JSON y uso de herramientas, está optimizado para aplicaciones en tiempo real
  • Demuestra eficiencia en entornos sensibles a la latencia, como asistencia de programación, bucles de agentes, interfaces de voz y pipelines de búsqueda·RAG
  • Totalmente compatible con la API de OpenAI, por lo que puede integrarse de inmediato sin modificar la infraestructura existente

Resumen de Mercury 2

  • Mercury 2 es el modelo de lenguaje de inferencia más rápido del mundo
    • Su objetivo es ofrecer capacidad de respuesta inmediata en entornos de IA en producción
  • El cuello de botella de los LLM existentes es su estructura de decodificación secuencial autorregresiva (one token at a time)
    • Esto provoca una acumulación de latencia en flujos de trabajo de IA basados en bucles repetitivos

Arquitectura de inferencia en tiempo real basada en difusión

  • Mercury 2 adopta un método de refinamiento paralelo (parallel refinement) en lugar de la decodificación secuencial
    • Genera varios tokens simultáneamente y converge en pocas etapas
    • En vez de funcionar como una “máquina de escribir”, revisa repetidamente un borrador completo como si fuera un “editor”
  • Como resultado, implementa una velocidad de generación más de 5 veces superior y una nueva curva de velocidad
  • La inferencia basada en difusión permite razonamiento de alta calidad minimizando la latencia y el costo

Rendimiento y especificaciones

  • Velocidad: 1,009 tokens/segundo en GPU NVIDIA Blackwell
  • Precio: $0.25 por millón de tokens de entrada, $0.75 por millón de tokens de salida
  • Calidad: un nivel competitivo frente a los principales modelos optimizados para velocidad
  • Funciones: razonamiento ajustable (tunable reasoning), contexto de 128K, uso de herramientas, salida alineada con esquema JSON
  • Optimización de latencia: latencia p95, capacidad de respuesta consistente en entornos de alta concurrencia y mantenimiento estable del rendimiento
  • Un representante de NVIDIA mencionó que Mercury 2, combinado con la infraestructura de IA de NVIDIA, superó los 1,000 tokens/segundo

Casos de uso en producción

1. Programación y edición

  • Ofrece respuestas inmediatas dentro del ciclo de trabajo del desarrollador para autocompletado, refactorización y agentes de código
  • El cofundador de Zed, Max Brunsfeld, destacó una “velocidad de sugerencias tan rápida como parte del pensamiento

2. Bucles de agentes

  • Reduce la latencia de las llamadas en flujos de trabajo de agentes que requieren invocaciones de razonamiento de múltiples etapas
  • Viant utiliza Mercury 2 para optimización de campañas en tiempo real y refuerzo de sistemas autónomos de publicidad
  • Wispr Flow está evaluando la velocidad de Mercury 2 en conversación en tiempo real y refinamiento de transcripciones
  • Skyvern afirmó que es “al menos dos veces más rápido que GPT-5.2

3. Voz e interacción en tiempo real

  • Las interfaces de voz tienen los límites de latencia más estrictos
  • Happyverse AI implementó avatares conversacionales naturales en tiempo real con Mercury 2
  • OpenCall mencionó la posibilidad de construir agentes de voz más reactivos gracias a baja latencia y alta calidad

4. Búsqueda y pipelines RAG

  • Hace posible la inferencia en tiempo real al reducir la latencia acumulada de procesos de búsqueda múltiple, reordenamiento y resumen
  • SearchBlox, en colaboración con Mercury 2, implementó IA de búsqueda en tiempo real,
    proporcionando inteligencia en segundos en diversos ámbitos como atención al cliente, riesgo y comercio electrónico

Despliegue e integración

  • Mercury 2 está disponible de inmediato y es totalmente compatible con la API de OpenAI
  • Puede integrarse en sistemas existentes sin modificar el código
  • En evaluaciones empresariales, ofrece soporte para adecuación de cargas de trabajo, validación de rendimiento y diseño de evaluaciones
  • Frase oficial: “Mercury 2 is live. Welcome to diffusion.

1 comentarios

 
GN⁺ 2026-02-26
Comentarios en Hacker News
  • Me parece interesante el concepto de medir la inteligencia (métrica) por segundo
    Por ejemplo, considerar juntos la inteligencia por token y la cantidad de tokens por segundo
    Personalmente, si Sonnet 4.6 fuera 5 veces más rápido que Opus 4.6, probablemente usaría Sonnet la mayor parte del tiempo
    En la generación anterior, la línea Sonnet no era lo bastante buena, pero ahora la ventaja de iteración que da la velocidad es tan grande que la situación cambió
    Antes usaba OpenAI Deep Research, pero o3-thinking + búsqueda web era mucho más rápido y suficientemente inteligente

    • Creo que la velocidad en sí misma es un eje de calidad
      Si desarrollas una API sobre hardware como Cerebras o Groq, la velocidad de iteración y el costo quedan en otro nivel por completo
      Incluso en una nota de investigación que escribí recientemente, se muestra que dividir el trabajo entre modelos AR para la planificación y modelos de diffusion para la generación mejora mucho el rendimiento
    • Si a esta métrica se le agregara la eficiencia por unidad de hardware, sería más realista
      Por ejemplo, si bastan 5 toneladas de carbón, pero usas 30 para mejorar 0.0000000001%, eso no es progreso real
    • Está apareciendo una nueva familia de modelos orientados a la iteración rápida de agentes
      Modelos como Composer o las versiones Flash son ejemplos, y Mercury 2 también se posiciona como un modelo fuerte dentro de esa categoría
    • Parece que pronto podremos hacer benchmarks reales
      Los modelos rápidos permiten iterar más rápido, y los modelos grandes son más precisos en el primer intento
      Actualmente me gusta Opus 4.6, pero quiero ver con datos la diferencia de eficiencia frente a Sonnet
    • Me encanta de verdad el concepto de “Intelligence per second”
      Esa es justamente la razón por la que me gustaba Gemini 3 Flash: era suficientemente inteligente y ridículamente rápido
  • Hice una prueba simple y, al preguntarle por “los logros de Maradona”, Mercury 2 escribió mal “Dieadona”
    Es una pregunta que incluso un modelo local de 3B respondería perfectamente, pero Mercury 2 es lento y comete muchos errores

  • Mercury 2 genera respuestas con un método de refinamiento paralelo (parallel refinement)
    Es una estructura que genera varios tokens al mismo tiempo y converge en unas pocas etapas; en vez de una máquina de escribir, funciona más como un editor que va puliendo un borrador completo
    Se está investigando cómo unificar DDPM y SGM mediante SDE, y me pregunto si cada capa del transformer podría verse como una etapa de diffusion
    Si las L capas del transformer correspondieran a las L etapas de refinamiento de diffusion, quizá sería posible un fitting mutuo entre ambos modelos

  • Como cofundador y Chief Scientist de Inception, doy la bienvenida a preguntas técnicas sobre Mercury 2 o los diffusion LM

    • Me gustaría saber cómo funciona el KV cache en modelos diffusion
      Quiero entender si permite reducir la latencia o el costo, si sigue una curva similar al caché autoregresivo, o si simplemente no aplica
    • Los modelos diffusion parecen hacer reasoning por bloques de texto; me gustaría saber cómo manejan la dependencia de información entre bloques
      También sería interesante ver si se puede aplicar longitud de bloque dinámica
    • Tengo curiosidad por el funcionamiento real del Voice AI mencionado en la presentación
      En la mayoría de los sistemas de voz, más que la latencia total de respuesta importa el TTFT (time-to-first-token)
      Quisiera saber cuánto mejora el TTFT de Mercury 2 frente a otros modelos de reasoning
    • He experimentado un fenómeno de bucle parecido al de transformers débiles
      Ver ejemplo
      Tengo curiosidad por la causa de este fenómeno
    • También me gustaría saber si tienen planes de evolucionar hacia un modelo drifting para lograr más velocidad
  • Lo que más me llama la atención es que ya aparecieron modelos capaces de generar miles de tokens por segundo
    Si esto sigue así, incluso usando multi-shot prompting o nudging el usuario ni lo notará, lo que podría reducir problemas de alucinaciones o respuestas no deterministas

    • Nosotros pensamos lo mismo
      Mercury 2 hace posible la iteración rápida en tareas de agentes
      Un solo intento puede ser menos preciso, pero gracias al corto tiempo de ejecución se puede mejorar mucho más rápido
    • Incluso los modelos generales son bastante rápidos con batch inference
      Por ejemplo, GPT-OSS 20B llega a unos 2k tok/s con bs=64 en una sola 3090
  • Todavía no me convencen los modelos diffusion
    Google y otros también lo intentaron, pero en la mayoría de los casos quedaron rezagados en la frontera de Pareto
    Ver comparación de precio/rendimiento

    • Hay una objeción a mirarlo solo desde Pareto
      A igualdad de calidad, Mercury es más de 5 veces más rápido que modelos AR similares
      Su inteligencia absoluta todavía está por debajo de Opus o Gemini Pro, pero en velocidad de inferencia tiene una ventaja importante
    • La diffusion de texto todavía tiene mucho margen de desarrollo
      Es un terreno mucho menos explorado que los transformers autoregresivos, así que hay bastante headroom técnico
    • Este modelo parece perfecto para tareas de edición rápida (edit)
      Si existiera una versión “Mercury Edit”, como Fast Apply de Morph, me encantaría probarla
  • El enfoque basado en diffusion es muy interesante
    Los transformers tradicionales generan tokens de forma secuencial, mientras que diffusion puede refinar iterativamente toda la salida
    Si de verdad resolvieron el problema de la latencia, eso podría abrir nuevas posibilidades para tareas complejas de reasoning

  • Me pregunto si existe algún LLM diffusion de pesos abiertos que pueda correrse en hardware local
    Me gustaría ver directamente la diferencia de rendimiento en un entorno con GPU de consumo

  • Mercury 2 falló en la Car Wash Test
    En vez de apuntar a un modelo de reasoning general, quizá sería mejor enfocarlo a casos de uso específicos (por ejemplo, agentes de código) y compararlo con modelos SOTA de ese campo, como Qwen3-Coder-Next

    • Personalmente prefiero un modelo lento pero preciso antes que uno rápido pero con muchos errores
      Incluso si la sesión tarda más, la precisión importa más
  • Si este modelo se implementara en un chip Talaas, me pregunto si podría generar más de 50,000 tokens por segundo

    • Si se integrara en un circuito estilo ASIC sin latencia de memoria, parece que prácticamente cualquier modelo podría lograr una mejora enorme de velocidad