- Modelo de 1 billón (1T) de parámetros que supera por primera vez una velocidad de decodificación de 1000 tokens/s
- Alcanzó esa velocidad usando solo GPU commodity, no hardware dedicado, y logró una salida de 1000+ tps en un único nodo estándar de 8 GPU
- La tecnología clave es un codesign modelo-sistema que combina cuantización FP4 y DFlash speculative decoding
- La API se ofrecerá por solicitud y por tiempo limitado, y promete casi 10 veces más velocidad de generación por 3 veces el precio
- Superar los 1000 tps no es solo una mejora de velocidad, sino un punto de inflexión que cambia el propio paradigma de las aplicaciones de IA, como los Coding Agents y la toma de decisiones en tiempo real
Lanzamiento de Xiaomi MiMo-V2.5-Pro-UltraSpeed
- En colaboración con TileRT, superó por primera vez una velocidad de decodificación de 1000 tokens/s en un modelo de 1 billón de parámetros, ofreciendo una velocidad suficiente para respuestas en tiempo real e iteración inmediata
- En comparaciones de velocidad de generación en tiempo real, alcanzó hasta alrededor de 1200 tokens/s
- Presenta la idea de que, cuando un modelo se vuelve lo suficientemente rápido, deja de ser una herramienta que espera y pasa a funcionar como una extensión del pensamiento (extension of thinking)
Disponibilidad por tiempo limitado y mediante solicitud
- La API se lanza con un precio promocional limitado, y ofrece casi 10 veces la velocidad de generación por un costo 3 veces mayor que MiMo-V2.5-Pro (solo API, sin soporte para Token Plan)
- Debido a las limitaciones de recursos de inferencia de alta velocidad, operará por solicitud y por tiempo limitado; solo los usuarios aprobados podrán usar la API entre el 9 de junio de 2026 y el 23 de junio a las 23:59 (UTC+8)
-
Cómo solicitar acceso
- La plataforma API está en platform.xiaomimimo.com/ultraspeed; enviar una solicitud no garantiza aprobación, y tendrán prioridad las empresas y los desarrolladores profesionales con necesidades reales de negocio
- El acceso al modelo estándar se ofrece a través de la serie MiMo-V2.5
-
Experiencia Chat (gratis durante la prueba)
- Los usuarios aprobados recibirán acceso gratuito a Chat durante 2 semanas; el punto de entrada es ultraspeed.xiaomimimo.com
- Máximo de 10 ingresos a la cola por día por cuenta, hasta 30 minutos por sesión, con liberación automática tras más de 5 minutos de inactividad
1000 tokens/s — un cambio de paradigma más allá de la velocidad
- Alcanzar 1000 tps a escala 1T no es simplemente una máquina de escribir más rápida, sino un cambio que sacude de raíz el paradigma mismo de las aplicaciones de IA
-
La velocidad se convierte directamente en inteligencia
- Dentro del mismo tiempo real (wall-clock), se pueden ejecutar en paralelo decenas de rutas de inferencia (Best-of-N / Tree Search), con verificación automática y autocorrección en segundo plano para mejorar directamente la calidad del razonamiento
-
Se libera el límite de productividad de los Coding Agents
- Antes, la latencia de inferencia era el cuello de botella y los desarrolladores debían esperar frente a la pantalla; con 1000 tps, la velocidad de generación de código y la eficiencia productiva se aceleran a nivel de cambio de paradigma
-
Entrada en bucles de decisión en tiempo real
- Con ciclos de "think-respond" a nivel de milisegundos, un modelo insignia de 1T puede integrarse en escenarios sensibles al tiempo como generación de señales de trading cuantitativo de alta frecuencia, bloqueo inmediato de transacciones anómalas, pujas inteligentes y conversación en tiempo real
- También plantea que, al aplicarse a situaciones de vida o muerte como asistencia quirúrgica o análisis de imágenes médicas, cada segundo ganado al acortar el análisis de lesiones y la predicción de riesgos da al cirujano un margen adicional de maniobra
Codesign extremo entre modelo y sistema
-
Lograr 1000+ tps en un modelo 1T no es resultado de una sola técnica, sino del codesign extremo entre el equipo de modelos MiMo y el equipo de sistemas TileRT
-
A diferencia de la dependencia habitual de hardware dedicado para alcanzar velocidades similares, como Wafer-Scale de Cerebras o la arquitectura personalizada con SRAM on-chip de Groq, esto se logró en GPU commodity solo mediante codesign modelo-sistema
-
Del lado del modelo, se redujo el tamaño del modelo y la carga de acceso a memoria con cuantización FP4 orientada al cuello de botella de ancho de banda, y al mismo tiempo se introdujo DFlash, basado en predicción paralela con enmascarado por bloques, para aumentar la longitud de tokens aceptados en cada etapa de verificación
-
Del lado del sistema, TileRT proporciona un motor de compilación y kernels de cómputo adaptados a las características de ese algoritmo, haciendo posible una salida de 1000+ tps en un único nodo commodity estándar de 8 GPU
-
3.1 Cuantización FP4
- A escala 1T, la inferencia tradicional de 8 bits (FP8/INT8) y 16 bits genera una presión excesiva sobre memoria y ancho de banda, por lo que reducir el ancho de bits contribuye directamente a la velocidad de decodificación
- Se adoptó el formato FP4 (MXFP4), validado como prácticamente sin pérdida; sin embargo, aplicarlo de forma simple a todo el modelo provoca degradación en inferencia compleja, lógica y generación de código
- En una arquitectura MoE (Mixture of Experts), solo se cuantizaron selectivamente a FP4 los Experts, que concentran la mayor parte de los parámetros y presentan la mayor tolerancia a la cuantización, mientras que el resto de los módulos mantuvieron su precisión original
- Con FP4 QAT (Quantization-Aware Training) se redujo el tamaño del modelo y se maximizó el aprovechamiento del ancho de banda del hardware, manteniendo un rendimiento general prácticamente equivalente al original
-
3.2 DFlash Speculative Decoding
- El speculative decoding tradicional funciona con un modelo draft pequeño que predice los siguientes tokens y un modelo grande que los verifica; la calidad del draft determina la tasa de aceptación, pero cuanto más fuerte es el draft, mayor es el costo computacional, lo que crea una tensión estructural
- DFlash llena un bloque completo enmascarado del draft model en un solo forward pass, eliminando la restricción serial del "autoregressive drafting"
- Usa el optimizador de segundo orden Muon y self-distillation del modelo para comprimir el overhead de la etapa draft cerca del mínimo teórico
- El draft model usa únicamente Sliding Window Attention (SWA), alineándose de forma natural con el diseño SWA de la serie MiMo-V2 y eliminando por completo la dependencia de prefijo, lo que reduce el cómputo por predicción de proporcional a la longitud del contexto a constante
- Durante el entrenamiento, el muestreo de señales de máscara se baja a shards locales de GPU, de modo que una sola secuencia genera decenas de miles de señales de entrenamiento independientes en un paso, evitando el overhead de comunicación entre dispositivos
- El tamaño del bloque se limita a 8 para reducir el overhead de verificación y aumentar la concurrencia; una alta longitud de aceptación se traduce directamente en mayor throughput de inferencia
- Longitud promedio de aceptación (Acceptance Length) por escenario
- Coding 6.30 (en algunas muestras hasta 7.14; se aceptan 6 o 7 de 8 draft tokens)
- Math / Reasoning 5.56
- Agent 4.29
- En escenarios de conversación general, donde la semántica es más dispersa y la incertidumbre mayor, la tasa de aceptación todavía es baja y sigue en optimización continua
-
3.3 Kernels / sistema de inferencia ultrabaja latencia de TileRT
- A una frecuencia de operación de 1000 tokens/s, la vida útil de cada operador se comprime al nivel de microsegundos, y los "operator boundaries" de los sistemas tradicionales de inferencia emergen como un cuello de botella clave
- Cada inicio de ejecución de operador, sincronización de hardware y viaje de ida y vuelta a memoria global interrumpe el flujo de ejecución, generando visibles "Execution Gaps"
-
Innovación del modelo de ejecución de TileRT a nivel de paradigma
- Persistent Engine Kernel: elimina el esquema de inicio por operador y mantiene todo el pipeline de cómputo residente y fluyendo permanentemente dentro de la GPU, logrando una superposición extrema (overlap) entre movimiento de datos y cómputo
- Warp Specialization (colaboración de pipeline heterogéneo): descompone con mayor granularidad física, a nivel de tile, la comunicación, el movimiento de datos y el cómputo tensorial, rompiendo el modelo homogéneo de lock-step y convirtiendo la GPU en un sistema de ejecución heterogéneo ajustado con precisión
-
Fusión profunda hardware-software a escala de microsegundos (Codesign)
- La capa del modelo adopta cuantización FP4 mixta para los Experts de MoE y DFlash speculative decoding alineado con SWA para una arquitectura de 1 billón de parámetros; TileRT se acopla estrechamente a esas características algorítmicas y al método de cuantización para ofrecer un motor de compilación y kernels de cómputo personalizados
- Ambos equipos realizaron trade-offs de ingeniería conjuntos basados en la física del hardware para hacer converger suavemente la presión de ejecución dentro de los límites del hardware
- TileRT es un equipo de arquitectura de sistemas enfocado en infraestructura de IA de próxima generación e inferencia de ultrabaja latencia, y busca una utilización extrema del cómputo en entornos heterogéneos complejos mediante avances full-stack en persistent kernel, tile pipeline y colaboración heterogénea
Videos de demostración adicionales
- Demo que crea el juego Snake en 10 segundos
- Demo que recrea una interfaz de MacOS en 1 minuto
Open source y perspectivas
- Se publicó como open source en HuggingFace el checkpoint MiMo-V2.5-Pro-FP4-DFlash, que incluye pesos cuantizados en FP4 y parámetros del modelo DFlash
- Se está preparando el soporte UltraSpeed para MiMo-V2.5
1 comentarios
Comentarios de Hacker News
La IA rápida es realmente interesante, pero también bastante inquietante. Incluso ahora Claude es más rápido que yo en algunas tareas, pero todavía andamos más o menos parejos
Llevo 1 hora ejecutando un prompt para ordenar un PR y parece que tardará varias horas más; si eso se resolviera casi al instante, sería difícil imaginar cómo cambiaría el flujo de trabajo. A veces empiezo a hacer multitarea por culpa de los prompts lentos y luego me arrepiento. En cambio, si una IA pudiera terminar en segundos o minutos cosas que antes llevaban horas o días, sería un cambio total del juego, y no sé dónde terminaríamos parados
Todavía no he probado los 3000 TPS de Cerebras, pero sí probé una demo de un modelo de 15,000 TPS cuyo nombre no recuerdo. No sé si eso marque una diferencia real en el trabajo del día a día, pero ver cómo se llena la pantalla de texto en un instante de verdad impresiona. Es muy útil para pequeñas verificaciones, como mostrar un diff y confirmar si el cambio coincide con lo que querías, y si puedes hacer esas comprobaciones rápidas muchas veces, ayuda bastante porque permite hacer muchas revisiones concentradas sin interrumpirte
En tareas que no son intensivas en cómputo, las interfaces interactivas siempre han funcionado así. La mayor parte del tiempo los programas están ociosos esperando a que el usuario presione un botón. No hace falta que nosotros esperemos al programa ni que estemos ocupados haciendo malabares con varios platos. Pero no basta con LLM más rápidos; también hacen falta compilación y pruebas rápidas
Hablando en serio, usar Cerebras a unos 2k tokens/s y con latencia muy baja se siente como echarle un vistazo al futuro. Te lleva a rediseñar el flujo de trabajo en torno a tareas que puedan ocurrir sin una revisión manual pesada, por ejemplo especificando claramente las condiciones de éxito. Pocos de mis problemas encajan bien en eso, pero siento que hacia allá vamos. Claro, los modelos rápidos normalmente no son los de mejor rendimiento, pero si llegamos a tener alta calidad y pensamiento casi instantáneo, sería un game changer para el que de verdad no estamos preparados
Pero si le pides otra clase de cosas, también puede irse por cualquier lado. Antes podías interrumpir con un “espera, eso no”, pero para cuando ves el texto en pantalla y reaccionas, ya hizo cambios grandes. A menos que le hagas hacer commit en cada edición, es difícil evitar que se equivoque tan rápido como acierta, y si tiene muchos permisos, también puede cometer errores en APIs remotas
No termino de entender la conversación sobre productividad. Desde la perspectiva de un empleado común, no importa tanto que algo que antes tomaba 2 días ahora pueda hacerse en 2 horas. No es como que puedas usar el tiempo sobrante como quieras; igual tienes que trabajar 8 horas al día
Antes estaba la satisfacción de meterte a fondo en un problema durante 2 días para construir algo, y ahora eso se convierte en tirar de la máquina tragamonedas esperando que con el prompt correcto salga la respuesta correcta. Para nosotros, yo diría que es peor. Claro, para las empresas y los ejecutivos es exactamente al revés, y seguro les encanta toda la situación de la IA
No es que no la use mucho, sino que es el precio que pagas por ganar más velocidad. Si le lanzas una tarea grande a la IA y vuelves una hora después, puede que descubras que perdiste una hora y no obtuviste nada
Ahora mismo tengo tres tareas corriendo en paralelo en tres pestañas, y tener que cambiar de contexto constantemente es mucho más doloroso. Con modelos más rápidos, ya no haría falta empezar una tarea nueva mientras esperas
Nadie te impide usar esta tecnología para profundizar más en los problemas que antes. Ese es el uso inteligente
Si se combinan la optimización de precio y velocidad de los proveedores chinos con los aumentos de precio de las empresas estadounidenses, el tablero cambiará pronto. Muchas empresas ya están teniendo problemas con sus facturas de IA
Uso la suscripción anual de GitHub Copilot, y Microsoft cambió recientemente la facturación a un esquema basado en tokens. Todavía cobran por unidades de solicitudes premium, pero GPT 5.4 pasó de 1x a 6x
De verdad no entiendo qué foso defensivo tienen los laboratorios de modelos de EE. UU. Si dicen que la mejora recursiva de sí mismos está a la vuelta de la esquina, y aun así los laboratorios chinos están apenas un poco por detrás de los modelos líderes de EE. UU., entonces ¿cuál es el foso defensivo de los laboratorios estadounidenses? ¿Que los modelos de EE. UU. hacen mejor la mejora recursiva de sí mismos que los modelos chinos de código abierto? Puede que yo esté totalmente equivocado, pero si hubiera puesto dinero en OpenAI o Anthropic, querría sacarlo todo ahora mismo. Creo que hay una probabilidad bastante alta de que se acerque a 0 en los próximos años
Por eso no se puede predecir el costo del trabajo. Puede que tengas que reiniciar varias veces y pagar cada vez. Encima, también tienes que volver a mandar prompts para calcular si el modelo es real o falso, así que el uso de tokens aumenta
Si MiMo es tan barato como Deepseek, según la discusión anterior https://news.ycombinator.com/item?id=48282814, incluso multiplicando por 3 por la ultravelocidad, sigue siendo impactantemente barato
La versión de velocidad normal de MiMo V2.5 Pro sigue siendo el modelo abierto con pesos para coding de tipo agente más fuerte que hemos probado. Es interesante que reciba mucha menos atención que lanzamientos con menor rendimiento.
El precio del “fast mode” aquí también es muy competitivo. Los datos están en https://gertlabs.com/rankings
Puede sonar a publicidad, pero existe el crecimiento exponencial. Vamos a llegar a una etapa en la que creemos casi al instante varios programas desde un prompt y elijamos el mejor.
Las discusiones sobre elegir la librería con el mejor nombre de método de azúcar sintáctica se verán tan raras como proponer que escribamos la entrada en ensamblador
Es la forma realmente tradicional, y si el producto es bueno, tendrá éxito
De hecho, gracias a la IA hice varias veces un nivel de refactorización que normalmente habría sido impensable. No solo por la carga de trabajo, sino porque a veces ni siquiera sabes si va a funcionar, así que hay una doble fricción. Con IA, puedes lanzar una refactorización mientras te tomas un café y ver dónde se atasca. En general, la IA hará que la humanidad se exprese a sí misma de forma más extrema. Para bien y para mal. Aunque creo que habrá más de lo malo
En los pequeños negocios, se terminarán saltando el código por completo y renderizarán la UI directamente a velocidad conversacional a partir de datos de contexto y prompts. Será algo parecido a lo que hace Google Genie en juegos, pero mucho más preciso
Esto va a ser realmente potente en voz. Gracias a la capacidad de razonamiento, los LLM se vuelven mucho más inteligentes, pero en voz el presupuesto de latencia es tan ajustado que normalmente no se puede gastar ese tiempo
Cerebras está probando Kimi K2.6 a 3000t/s, solo por invitación. Tengo ganas de ver cuándo el hardware rápido se vuelva más común en los modelos frontier.
Los modelos de Nvidia diseñados para ajustarse a la velocidad pueden ser un buen complemento para cerrar esa brecha
La novedad de este resultado es que, con hardware estándar —es decir, un solo servidor con 8 GPU—, superaron los 1000 token/s en un modelo de más de 1 billón de parámetros
Interesante. Los modelos frontier se han vuelto bastante impresionantes, pero todos siguen siendo un poco lentos para la programación interactiva con humano en el bucle. Así que eso empuja hacia vibe coding y a ejecutar varios agentes en paralelo. Un agente rápido se siente más como un compañero
Durante un tiempo usé Cerebras GLM 4.7 para varias tareas. No es un modelo especialmente inteligente, pero la experiencia de tener un prototipo en vivo del sitio abierto y escribir “sube un poco la fuente. No, no tanto” para ver cómo cambia en tiempo real es excelente. Y MiMo 2.5 es mucho más capaz que GLM 4.7
GLM 5.1 es la iteración más reciente de z.ai y uno de los modelos de código con pesos abiertos más populares. Si lo has usado, da curiosidad cómo se compara GLM 5.1, que sigue siendo más caro que MiMo 2.5 Pro incluso después de la reciente rebaja de precio del 70%
1k TPS también es excelente, pero es más interesante cuántos comentarios generados por IA hay en este hilo