4 puntos por GN⁺ 6 일 전 | 1 comentarios | Compartir por WhatsApp
  • Modelo de 1 billón (1T) de parámetros que supera por primera vez una velocidad de decodificación de 1000 tokens/s
  • Alcanzó esa velocidad usando solo GPU commodity, no hardware dedicado, y logró una salida de 1000+ tps en un único nodo estándar de 8 GPU
  • La tecnología clave es un codesign modelo-sistema que combina cuantización FP4 y DFlash speculative decoding
  • La API se ofrecerá por solicitud y por tiempo limitado, y promete casi 10 veces más velocidad de generación por 3 veces el precio
  • Superar los 1000 tps no es solo una mejora de velocidad, sino un punto de inflexión que cambia el propio paradigma de las aplicaciones de IA, como los Coding Agents y la toma de decisiones en tiempo real

Lanzamiento de Xiaomi MiMo-V2.5-Pro-UltraSpeed

  • En colaboración con TileRT, superó por primera vez una velocidad de decodificación de 1000 tokens/s en un modelo de 1 billón de parámetros, ofreciendo una velocidad suficiente para respuestas en tiempo real e iteración inmediata
  • En comparaciones de velocidad de generación en tiempo real, alcanzó hasta alrededor de 1200 tokens/s
  • Presenta la idea de que, cuando un modelo se vuelve lo suficientemente rápido, deja de ser una herramienta que espera y pasa a funcionar como una extensión del pensamiento (extension of thinking)

Disponibilidad por tiempo limitado y mediante solicitud

  • La API se lanza con un precio promocional limitado, y ofrece casi 10 veces la velocidad de generación por un costo 3 veces mayor que MiMo-V2.5-Pro (solo API, sin soporte para Token Plan)
  • Debido a las limitaciones de recursos de inferencia de alta velocidad, operará por solicitud y por tiempo limitado; solo los usuarios aprobados podrán usar la API entre el 9 de junio de 2026 y el 23 de junio a las 23:59 (UTC+8)
  • Cómo solicitar acceso

    • La plataforma API está en platform.xiaomimimo.com/ultraspeed; enviar una solicitud no garantiza aprobación, y tendrán prioridad las empresas y los desarrolladores profesionales con necesidades reales de negocio
    • El acceso al modelo estándar se ofrece a través de la serie MiMo-V2.5
  • Experiencia Chat (gratis durante la prueba)

    • Los usuarios aprobados recibirán acceso gratuito a Chat durante 2 semanas; el punto de entrada es ultraspeed.xiaomimimo.com
    • Máximo de 10 ingresos a la cola por día por cuenta, hasta 30 minutos por sesión, con liberación automática tras más de 5 minutos de inactividad

1000 tokens/s — un cambio de paradigma más allá de la velocidad

  • Alcanzar 1000 tps a escala 1T no es simplemente una máquina de escribir más rápida, sino un cambio que sacude de raíz el paradigma mismo de las aplicaciones de IA
  • La velocidad se convierte directamente en inteligencia

    • Dentro del mismo tiempo real (wall-clock), se pueden ejecutar en paralelo decenas de rutas de inferencia (Best-of-N / Tree Search), con verificación automática y autocorrección en segundo plano para mejorar directamente la calidad del razonamiento
  • Se libera el límite de productividad de los Coding Agents

    • Antes, la latencia de inferencia era el cuello de botella y los desarrolladores debían esperar frente a la pantalla; con 1000 tps, la velocidad de generación de código y la eficiencia productiva se aceleran a nivel de cambio de paradigma
  • Entrada en bucles de decisión en tiempo real

    • Con ciclos de "think-respond" a nivel de milisegundos, un modelo insignia de 1T puede integrarse en escenarios sensibles al tiempo como generación de señales de trading cuantitativo de alta frecuencia, bloqueo inmediato de transacciones anómalas, pujas inteligentes y conversación en tiempo real
    • También plantea que, al aplicarse a situaciones de vida o muerte como asistencia quirúrgica o análisis de imágenes médicas, cada segundo ganado al acortar el análisis de lesiones y la predicción de riesgos da al cirujano un margen adicional de maniobra

Codesign extremo entre modelo y sistema

  • Lograr 1000+ tps en un modelo 1T no es resultado de una sola técnica, sino del codesign extremo entre el equipo de modelos MiMo y el equipo de sistemas TileRT

  • A diferencia de la dependencia habitual de hardware dedicado para alcanzar velocidades similares, como Wafer-Scale de Cerebras o la arquitectura personalizada con SRAM on-chip de Groq, esto se logró en GPU commodity solo mediante codesign modelo-sistema

  • Del lado del modelo, se redujo el tamaño del modelo y la carga de acceso a memoria con cuantización FP4 orientada al cuello de botella de ancho de banda, y al mismo tiempo se introdujo DFlash, basado en predicción paralela con enmascarado por bloques, para aumentar la longitud de tokens aceptados en cada etapa de verificación

  • Del lado del sistema, TileRT proporciona un motor de compilación y kernels de cómputo adaptados a las características de ese algoritmo, haciendo posible una salida de 1000+ tps en un único nodo commodity estándar de 8 GPU

  • 3.1 Cuantización FP4

    • A escala 1T, la inferencia tradicional de 8 bits (FP8/INT8) y 16 bits genera una presión excesiva sobre memoria y ancho de banda, por lo que reducir el ancho de bits contribuye directamente a la velocidad de decodificación
    • Se adoptó el formato FP4 (MXFP4), validado como prácticamente sin pérdida; sin embargo, aplicarlo de forma simple a todo el modelo provoca degradación en inferencia compleja, lógica y generación de código
    • En una arquitectura MoE (Mixture of Experts), solo se cuantizaron selectivamente a FP4 los Experts, que concentran la mayor parte de los parámetros y presentan la mayor tolerancia a la cuantización, mientras que el resto de los módulos mantuvieron su precisión original
    • Con FP4 QAT (Quantization-Aware Training) se redujo el tamaño del modelo y se maximizó el aprovechamiento del ancho de banda del hardware, manteniendo un rendimiento general prácticamente equivalente al original
  • 3.2 DFlash Speculative Decoding

    • El speculative decoding tradicional funciona con un modelo draft pequeño que predice los siguientes tokens y un modelo grande que los verifica; la calidad del draft determina la tasa de aceptación, pero cuanto más fuerte es el draft, mayor es el costo computacional, lo que crea una tensión estructural
    • DFlash llena un bloque completo enmascarado del draft model en un solo forward pass, eliminando la restricción serial del "autoregressive drafting"
    • Usa el optimizador de segundo orden Muon y self-distillation del modelo para comprimir el overhead de la etapa draft cerca del mínimo teórico
      • El draft model usa únicamente Sliding Window Attention (SWA), alineándose de forma natural con el diseño SWA de la serie MiMo-V2 y eliminando por completo la dependencia de prefijo, lo que reduce el cómputo por predicción de proporcional a la longitud del contexto a constante
      • Durante el entrenamiento, el muestreo de señales de máscara se baja a shards locales de GPU, de modo que una sola secuencia genera decenas de miles de señales de entrenamiento independientes en un paso, evitando el overhead de comunicación entre dispositivos
    • El tamaño del bloque se limita a 8 para reducir el overhead de verificación y aumentar la concurrencia; una alta longitud de aceptación se traduce directamente en mayor throughput de inferencia
    • Longitud promedio de aceptación (Acceptance Length) por escenario
      • Coding 6.30 (en algunas muestras hasta 7.14; se aceptan 6 o 7 de 8 draft tokens)
      • Math / Reasoning 5.56
      • Agent 4.29
    • En escenarios de conversación general, donde la semántica es más dispersa y la incertidumbre mayor, la tasa de aceptación todavía es baja y sigue en optimización continua
  • 3.3 Kernels / sistema de inferencia ultrabaja latencia de TileRT

    • A una frecuencia de operación de 1000 tokens/s, la vida útil de cada operador se comprime al nivel de microsegundos, y los "operator boundaries" de los sistemas tradicionales de inferencia emergen como un cuello de botella clave
    • Cada inicio de ejecución de operador, sincronización de hardware y viaje de ida y vuelta a memoria global interrumpe el flujo de ejecución, generando visibles "Execution Gaps"
    • Innovación del modelo de ejecución de TileRT a nivel de paradigma

      • Persistent Engine Kernel: elimina el esquema de inicio por operador y mantiene todo el pipeline de cómputo residente y fluyendo permanentemente dentro de la GPU, logrando una superposición extrema (overlap) entre movimiento de datos y cómputo
      • Warp Specialization (colaboración de pipeline heterogéneo): descompone con mayor granularidad física, a nivel de tile, la comunicación, el movimiento de datos y el cómputo tensorial, rompiendo el modelo homogéneo de lock-step y convirtiendo la GPU en un sistema de ejecución heterogéneo ajustado con precisión
    • Fusión profunda hardware-software a escala de microsegundos (Codesign)

      • La capa del modelo adopta cuantización FP4 mixta para los Experts de MoE y DFlash speculative decoding alineado con SWA para una arquitectura de 1 billón de parámetros; TileRT se acopla estrechamente a esas características algorítmicas y al método de cuantización para ofrecer un motor de compilación y kernels de cómputo personalizados
      • Ambos equipos realizaron trade-offs de ingeniería conjuntos basados en la física del hardware para hacer converger suavemente la presión de ejecución dentro de los límites del hardware
      • TileRT es un equipo de arquitectura de sistemas enfocado en infraestructura de IA de próxima generación e inferencia de ultrabaja latencia, y busca una utilización extrema del cómputo en entornos heterogéneos complejos mediante avances full-stack en persistent kernel, tile pipeline y colaboración heterogénea

Videos de demostración adicionales

  • Demo que crea el juego Snake en 10 segundos
  • Demo que recrea una interfaz de MacOS en 1 minuto

Open source y perspectivas

  • Se publicó como open source en HuggingFace el checkpoint MiMo-V2.5-Pro-FP4-DFlash, que incluye pesos cuantizados en FP4 y parámetros del modelo DFlash
  • Se está preparando el soporte UltraSpeed para MiMo-V2.5

1 comentarios

 
GN⁺ 6 일 전
Comentarios de Hacker News
  • La IA rápida es realmente interesante, pero también bastante inquietante. Incluso ahora Claude es más rápido que yo en algunas tareas, pero todavía andamos más o menos parejos
    Llevo 1 hora ejecutando un prompt para ordenar un PR y parece que tardará varias horas más; si eso se resolviera casi al instante, sería difícil imaginar cómo cambiaría el flujo de trabajo. A veces empiezo a hacer multitarea por culpa de los prompts lentos y luego me arrepiento. En cambio, si una IA pudiera terminar en segundos o minutos cosas que antes llevaban horas o días, sería un cambio total del juego, y no sé dónde terminaríamos parados

    • Uso Deepseek-v4-pro como modelo principal y a veces es bastante irritante. Le dejo encargos fáciles y pienso “se lo dejo al agente y me echo una siesta”, pero antes de siquiera levantarme frente a la computadora ya escribió todo el código
    • He usado groq y GPT OSS, y el 20B corre a 1000 TPS y el 120B a 800 TPS, así que la velocidad se siente casi mágica
      Todavía no he probado los 3000 TPS de Cerebras, pero sí probé una demo de un modelo de 15,000 TPS cuyo nombre no recuerdo. No sé si eso marque una diferencia real en el trabajo del día a día, pero ver cómo se llena la pantalla de texto en un instante de verdad impresiona. Es muy útil para pequeñas verificaciones, como mostrar un diff y confirmar si el cambio coincide con lo que querías, y si puedes hacer esas comprobaciones rápidas muchas veces, ayuda bastante porque permite hacer muchas revisiones concentradas sin interrumpirte
    • Si la latencia baja lo suficiente, no hay razón para hacer multitarea. Puedes pedir una cosa a la vez y ver el resultado enseguida, y esa es una forma de trabajar bastante buena
      En tareas que no son intensivas en cómputo, las interfaces interactivas siempre han funcionado así. La mayor parte del tiempo los programas están ociosos esperando a que el usuario presione un botón. No hace falta que nosotros esperemos al programa ni que estemos ocupados haciendo malabares con varios platos. Pero no basta con LLM más rápidos; también hacen falta compilación y pruebas rápidas
    • El siguiente cuello de botella es el compilador, así que también podemos modelarlo con un LLM. Solo se equivoca como un 15% :)
      Hablando en serio, usar Cerebras a unos 2k tokens/s y con latencia muy baja se siente como echarle un vistazo al futuro. Te lleva a rediseñar el flujo de trabajo en torno a tareas que puedan ocurrir sin una revisión manual pesada, por ejemplo especificando claramente las condiciones de éxito. Pocos de mis problemas encajan bien en eso, pero siento que hacia allá vamos. Claro, los modelos rápidos normalmente no son los de mejor rendimiento, pero si llegamos a tener alta calidad y pensamiento casi instantáneo, sería un game changer para el que de verdad no estamos preparados
    • Tiene dos caras. Si le pides algo a Gemini 3.5 Flash, casi de inmediato te da un resultado y funciona bien, y esa velocidad a veces da un poco de miedo
      Pero si le pides otra clase de cosas, también puede irse por cualquier lado. Antes podías interrumpir con un “espera, eso no”, pero para cuando ves el texto en pantalla y reaccionas, ya hizo cambios grandes. A menos que le hagas hacer commit en cada edición, es difícil evitar que se equivoque tan rápido como acierta, y si tiene muchos permisos, también puede cometer errores en APIs remotas
  • No termino de entender la conversación sobre productividad. Desde la perspectiva de un empleado común, no importa tanto que algo que antes tomaba 2 días ahora pueda hacerse en 2 horas. No es como que puedas usar el tiempo sobrante como quieras; igual tienes que trabajar 8 horas al día
    Antes estaba la satisfacción de meterte a fondo en un problema durante 2 días para construir algo, y ahora eso se convierte en tirar de la máquina tragamonedas esperando que con el prompt correcto salga la respuesta correcta. Para nosotros, yo diría que es peor. Claro, para las empresas y los ejecutivos es exactamente al revés, y seguro les encanta toda la situación de la IA

    • Si divides el trabajo para la IA en bloques pequeños, puedes mantener el control de la arquitectura y deja de parecer una tragamonedas. Igual sigues leyendo código y a veces incluso escribiéndolo tú mismo
      No es que no la use mucho, sino que es el precio que pagas por ganar más velocidad. Si le lanzas una tarea grande a la IA y vuelves una hora después, puede que descubras que perdiste una hora y no obtuviste nada
    • En mi caso, los modelos lentos hacen más difícil manejar el contexto y el paralelismo de tareas. Es mucho mejor hacer una sola tarea hasta terminarla, descansar y luego pasar a la siguiente
      Ahora mismo tengo tres tareas corriendo en paralelo en tres pestañas, y tener que cambiar de contexto constantemente es mucho más doloroso. Con modelos más rápidos, ya no haría falta empezar una tarea nueva mientras esperas
    • Como con cualquier tecnología, hay formas tontas y formas inteligentes de usarla. Tratarla como una “tragamonedas que da la respuesta correcta” es una forma tonta. Puede funcionar por un rato, pero como cualquiera puede hacer lo mismo, no dura mucho
      Nadie te impide usar esta tecnología para profundizar más en los problemas que antes. Ese es el uso inteligente
    • No sé de qué mundo sale eso de que los empleados trabajan 8 horas al día. Tal vez registren 8 horas de entrada, pero no trabajan todo ese tiempo
    • Nuestra capacidad para evaluar la calidad de los resultados se está quedando más atrás que nuestra capacidad para producirlos. No veo que la “respuesta correcta” sea necesariamente el resultado que parece más plausible
  • Si se combinan la optimización de precio y velocidad de los proveedores chinos con los aumentos de precio de las empresas estadounidenses, el tablero cambiará pronto. Muchas empresas ya están teniendo problemas con sus facturas de IA

    • Los modelos chinos son suficientemente buenos y baratos.
      Uso la suscripción anual de GitHub Copilot, y Microsoft cambió recientemente la facturación a un esquema basado en tokens. Todavía cobran por unidades de solicitudes premium, pero GPT 5.4 pasó de 1x a 6x
    • Como no me sobra el dinero, últimamente estoy usando lo más posible DeepSeek v4 Flash, GLM 5.1, etc., en lugar de Claude o GPT
    • Otro problema es que todos los modelos de EE. UU. son de código cerrado. Si fueras una gran empresa, quizá no querrías que tu organización quedara rehén de OpenAI o Anthropic.
      De verdad no entiendo qué foso defensivo tienen los laboratorios de modelos de EE. UU. Si dicen que la mejora recursiva de sí mismos está a la vuelta de la esquina, y aun así los laboratorios chinos están apenas un poco por detrás de los modelos líderes de EE. UU., entonces ¿cuál es el foso defensivo de los laboratorios estadounidenses? ¿Que los modelos de EE. UU. hacen mejor la mejora recursiva de sí mismos que los modelos chinos de código abierto? Puede que yo esté totalmente equivocado, pero si hubiera puesto dinero en OpenAI o Anthropic, querría sacarlo todo ahora mismo. Creo que hay una probabilidad bastante alta de que se acerque a 0 en los próximos años
    • Un problema aún mayor es la consistencia del modelo. No hay forma de saber si Anthropic, cobrando precio de Opus, va a enrutar la solicitud a un modelo más barato.
      Por eso no se puede predecir el costo del trabajo. Puede que tengas que reiniciar varias veces y pagar cada vez. Encima, también tienes que volver a mandar prompts para calcular si el modelo es real o falso, así que el uso de tokens aumenta
    • Me da curiosidad la estructura económica que impulsa estas decisiones de precio. No sé si las empresas chinas están subsidiando más sus modelos que las estadounidenses, o si esto es resultado de diferencias en las políticas energéticas entre países
  • Si MiMo es tan barato como Deepseek, según la discusión anterior https://news.ycombinator.com/item?id=48282814, incluso multiplicando por 3 por la ultravelocidad, sigue siendo impactantemente barato

    • No es que MiMo y DeepSeek sean baratos, sino que Anthropic y OpenAI son caros en relación con el valor que ofrecen
  • La versión de velocidad normal de MiMo V2.5 Pro sigue siendo el modelo abierto con pesos para coding de tipo agente más fuerte que hemos probado. Es interesante que reciba mucha menos atención que lanzamientos con menor rendimiento.
    El precio del “fast mode” aquí también es muy competitivo. Los datos están en https://gertlabs.com/rankings

    • ¿Por qué deepseek v4 pro sale mucho más abajo que flash? ¿Dónde está mimo 2.5?
  • Puede sonar a publicidad, pero existe el crecimiento exponencial. Vamos a llegar a una etapa en la que creemos casi al instante varios programas desde un prompt y elijamos el mejor.
    Las discusiones sobre elegir la librería con el mejor nombre de método de azúcar sintáctica se verán tan raras como proponer que escribamos la entrada en ensamblador

    • Suena como un crecimiento exponencial de software basura. No es que antes no hubiera basura producida en masa en ingeniería de software, pero ahora va a desbordarse de forma explosiva
    • Hubo una época en la que salía un nuevo framework de frontend cada 3 meses. Ahora casi se detuvo y a nadie le importa
    • No estoy tan seguro. Los ingenieros todavía pueden hacer software a la vieja usanza. Por ejemplo, tardando meses en construir algo como Obsidian o Ghostty, cuidando línea por línea del código, las dependencias y una buena arquitectura.
      Es la forma realmente tradicional, y si el producto es bueno, tendrá éxito
    • Yo lo veo con más esperanza. A medida que la IA mejora y se vuelve más rápida, se puede mejorar código más rápido y de forma iterativa, incluso código que antes se evitaba por la cantidad de trabajo que implicaba.
      De hecho, gracias a la IA hice varias veces un nivel de refactorización que normalmente habría sido impensable. No solo por la carga de trabajo, sino porque a veces ni siquiera sabes si va a funcionar, así que hay una doble fricción. Con IA, puedes lanzar una refactorización mientras te tomas un café y ver dónde se atasca. En general, la IA hará que la humanidad se exprese a sí misma de forma más extrema. Para bien y para mal. Aunque creo que habrá más de lo malo
    • La tendencia exponencial llevará en pocos años a una computación totalmente en memoria, y eso será 100 veces más eficiente. Eso significa que serán posibles modelos al menos 10 veces más grandes, mucho más inteligentes y aun así muy rápidos.
      En los pequeños negocios, se terminarán saltando el código por completo y renderizarán la UI directamente a velocidad conversacional a partir de datos de contexto y prompts. Será algo parecido a lo que hace Google Genie en juegos, pero mucho más preciso
  • Esto va a ser realmente potente en voz. Gracias a la capacidad de razonamiento, los LLM se vuelven mucho más inteligentes, pero en voz el presupuesto de latencia es tan ajustado que normalmente no se puede gastar ese tiempo

  • Cerebras está probando Kimi K2.6 a 3000t/s, solo por invitación. Tengo ganas de ver cuándo el hardware rápido se vuelva más común en los modelos frontier.
    Los modelos de Nvidia diseñados para ajustarse a la velocidad pueden ser un buen complemento para cerrar esa brecha

    • El texto original dice que, hasta ahora, para alcanzar este tipo de velocidad hacía falta hardware especializado y muy caro como el de Cerebras.
      La novedad de este resultado es que, con hardware estándar —es decir, un solo servidor con 8 GPU—, superaron los 1000 token/s en un modelo de más de 1 billón de parámetros
    • Me gustaría ver la fuente. En el sitio web de Cerebras dice 1000t/s https://www.cerebras.ai/blog/which-is-faster-gemini-3-5-flas...
    • Cerebras tuvo suerte de salir a bolsa el mes pasado. Si hubiera sido ahora, habría sido distinto
    • Cerebras actualmente no ofrece descuento por prefix caching, así que en cargas de trabajo de tipo agente, el costo de uso se vuelve sqr(n_turns) veces más caro
  • Interesante. Los modelos frontier se han vuelto bastante impresionantes, pero todos siguen siendo un poco lentos para la programación interactiva con humano en el bucle. Así que eso empuja hacia vibe coding y a ejecutar varios agentes en paralelo. Un agente rápido se siente más como un compañero
    Durante un tiempo usé Cerebras GLM 4.7 para varias tareas. No es un modelo especialmente inteligente, pero la experiencia de tener un prototipo en vivo del sitio abierto y escribir “sube un poco la fuente. No, no tanto” para ver cómo cambia en tiempo real es excelente. Y MiMo 2.5 es mucho más capaz que GLM 4.7

    • Probé GLM 4.7 como agente para escribir código, y fue extremadamente malo incluso con scripts simples de 200 a 1000 líneas. Tuve que dejar de usar los modelos ofrecidos por Cerebras, y los modelos inteligentes solo están en el plan enterprise
    • MiMo 2.5 no es el mismo modelo que MiMo 2.5 Pro
      GLM 5.1 es la iteración más reciente de z.ai y uno de los modelos de código con pesos abiertos más populares. Si lo has usado, da curiosidad cómo se compara GLM 5.1, que sigue siendo más caro que MiMo 2.5 Pro incluso después de la reciente rebaja de precio del 70%
  • 1k TPS también es excelente, pero es más interesante cuántos comentarios generados por IA hay en este hilo