Dos enfoques distintos para la inferencia rápida de LLM

(seangoedecke.com)

6 puntos por GN⁺ 2026-02-16 | 1 comentarios | Compartir por WhatsApp

Anthropic y OpenAI presentaron cada una un “modo rápido” para sus mejores modelos de programación, mejorando de forma notable la velocidad de inferencia
Anthropic ofrece hasta 2.5 veces más velocidad de procesamiento de tokens usando el mismo modelo Opus 4.6 y reduciendo el tamaño del lote
OpenAI introdujo GPT-5.3-Codex-Spark, un nuevo modelo basado en chips de Cerebras, que genera más de 1000 tokens por segundo, aunque con menor precisión
Ambos enfoques usan principios técnicos completamente distintos: inferencia con lotes pequeños frente a inferencia en memoria sobre chips gigantes
La inferencia rápida es técnicamente impresionante, pero también se señala que la precisión importa más que la velocidad, y que su viabilidad económica y utilidad práctica siguen siendo inciertas

Estructura del modo rápido de Anthropic

El enfoque de Anthropic consiste en reducir el tamaño del lote para minimizar la latencia
- El principal cuello de botella de las GPU es la transferencia de memoria, y agrupar solicitudes de varios usuarios en lotes mejora el rendimiento total, pero aumenta el tiempo de espera
- El modo rápido se parece a un “autobús que sale de inmediato”, procesando la solicitud en cuanto el usuario la envía
Este enfoque ofrece 2.5 veces más velocidad a un costo 6 veces mayor
- Como desaparece la espera por el lote, se reduce la latencia hasta el primer token
- Sin embargo, el rendimiento total de la GPU disminuye
Algunos usuarios señalaron que, después del primer token, la latencia no suele ser tan grande, y que el efecto de usar lotes pequeños se parece más a una mejora en la velocidad de ejecución por menor carga de cómputo

Estructura del modo rápido de OpenAI

OpenAI adopta un enfoque completamente distinto usando chips de Cerebras
- En lugar del modelo existente, utiliza GPT-5.3-Codex-Spark, un modelo destilado
- Spark es menos sofisticado que el original, pero logra una velocidad de inferencia más de 15 veces superior
El chip de Cerebras es un chip gigante de escala wafer de 70 pulgadas cuadradas con 44 GB de SRAM integrados
- Carga el modelo completo en SRAM y realiza inferencia en memoria sin acceso a memoria externa
- Esto marca una gran diferencia frente a los pocos decenas de MB de SRAM de una GPU
Se estima que el modelo Spark está distribuido mediante sharding entre varios chips de Cerebras, y que esta configuración es un factor clave en la mejora de velocidad

Comparación técnica y evaluación

Anthropic mantiene el modelo existente y simplemente ajusta la política de lotes
OpenAI logra una mejora de rendimiento más fundamental combinando una nueva arquitectura de hardware y un nuevo diseño de modelo
Ejecutar un modelo sobre chips de Cerebras representa un desafío técnico complejo, y entrenar el modelo Spark tampoco es una tarea sencilla
Los enfoques de ambas empresas muestran cómo se puede alcanzar el mismo objetivo de aumentar la velocidad por caminos técnicos distintos, y el de OpenAI resulta más impresionante desde el punto de vista técnico

Significado y límites de la inferencia rápida

Con los anuncios de ambas empresas, parece que la “inferencia rápida de IA” será el próximo eje de competencia, pero en la práctica también tiene un fuerte componente de respuesta estratégica
- Anthropic parece haber reaccionado rápidamente al anuncio de OpenAI
- OpenAI está en una fase de publicación de resultados experimentales de su colaboración con Cerebras
Los modelos rápidos pero menos sofisticados tienen limitaciones en su uso real
- Como los usuarios terminan dedicando más tiempo a corregir errores del modelo, la precisión importa más que la velocidad
Aun así, este tipo de modelos de “baja precisión y alta velocidad” podría usarse como componente subordinado dentro de sistemas de IA
- Ej.: el uso de Haiku en Claude Code, o la posible integración interna de Spark en OpenAI

Debate de la comunidad y observaciones adicionales

En Hacker News se presentaron varias opiniones sobre las características de rendimiento del batching y los cuellos de botella en la comunicación entre chips
- Algunos sostienen que con continuous batching casi no hay tiempo de espera
- Otros responden que la interconexión entre chips sí afecta la velocidad de inferencia
El trade-off entre tamaño de lote y latencia sigue existiendo
Anthropic indicó que la latencia hasta el primer token todavía puede ser lenta, y OpenAI busca minimizarla con conexiones persistentes basadas en WebSocket
En conjunto, la estructura de la inferencia rápida de LLM es compleja y difícil de explicar con un modelo simple

1 comentarios

GN⁺ 2026-02-16

Opiniones de Hacker News

La gente está malinterpretando el fast mode de Anthropic. Parece que es por el nombre.
En realidad, es más costoso y funciona de forma más inteligente en problemas difíciles.
El enfoque de parallel distill and refine de este paper encaja exactamente.
La estructura genera varias rutas en paralelo y luego las destila (distill) y refina (refine) rápidamente para dar un resultado.
Este método consume más tokens, pero permite salidas más rápidas y más inteligentes.
El speculative decoding no tiene relación con mejorar la calidad, y el batching simple aumenta la velocidad pero reduce el costo.
Gemini Deepthink y GPT-5.2-pro también hacen una inferencia paralela similar, pero calculan todas las rutas completas antes de refinar el resultado.
- Según la documentación oficial de Anthropic, el fast mode es exactamente el modelo Opus 4.6, y solo cambia la configuración de la API para priorizar la velocidad. La calidad es la misma.
La idea de hacer inferencia cargando todo el modelo en memoria con los 44GB de SRAM de los chips de Cerebras es interesante.
El tamaño de GPT-5.3-Codex-Spark estaría limitado no por la memoria de un solo chip, sino por la cantidad de chips que se pueden conectar.
Como Cerebras puede soportar modelos de más de 40B incluso más rápido, es muy probable que Spark esté más cerca de GLM 4.7 (355B parámetros, 32B activos).
Ver la página de precios de Cerebras
- Si se fragmenta el modelo, la velocidad cae muchísimo. La ventaja de un chip wafer-scale es el ancho de banda de memoria on-chip, y si renuncias a eso pierde sentido.
  Las soluciones de Groq, TPU y Nvidia son mejores en términos de eficiencia energética.
- Dado que Cerebras puede ejecutar más rápido modelos mayores a 40B, cuesta confiar en la afirmación del artículo original.
- Si conectas chips en serie, solo aumenta la latencia, pero el throughput no baja.
- Incluso con SRAM pequeña, como en los chips de Groq, se pueden ejecutar modelos grandes. Así que conectar chips no implica automáticamente una caída de velocidad.
Es muy probable que Anthropic enrute las solicitudes fast al hardware más nuevo.
Opera equipos de distintas generaciones, como TPU y GPU, y se estima que el fast mode se procesará solo en las máquinas más rápidas.
- El ancho de banda de memoria del GB200 es 2.4 veces más rápido que el del H100. Por eso, es muy posible que el fast mode sea simplemente una diferencia de hardware.
  Técnicas como speculative decoding ya se usan, así que no parece que sea por mejoras de batching.
Como dice la afirmación final del artículo, puede que ahora mismo la precisión sea más importante que la velocidad.
Pero si, gracias a la colaboración OpenAI–Cerebras, modelos grandes como Codex-5.3 pueden ejecutarse directamente sobre el chip,
entonces sería posible tener modelos rápidos y precisos, al nivel de reemplazar tareas de atención al cliente.
- Aun así, para ejecutar un modelo de 5~7TB con 40GB de SRAM se necesitaría energía a escala de varios megavatios. Cerebras consume muchísima energía.
  Cuando aparezca silicio dedicado para LLM, llegará una era mucho más eficiente.
- Si todavía no se resuelve el problema de la degradación de calidad al entrenar con datos generados por IA, actualizar los modelos será cada vez más difícil.
El problema de tener que esperar al batching ya fue resuelto con continuous batching.
Gracias a esta tecnología, Claude Code pudo ofrecerse a bajo costo.
Texto relacionado
La analogía del autobús es un poco rara. En realidad, el fast mode funciona haciendo que ocupe una mayor proporción del batch para aumentar el throughput.
Viendo el volumen de tráfico de Anthropic, se espera que los batches se llenen casi de inmediato.
Me da curiosidad por qué ChatGPT responde apenas se envía un mensaje.
Que no necesite esperar por un batch podría deberse a que tiene muchísimo tráfico, o a que la entrada se pretransmite por WebSocket al GPU.
Mucha gente confunde la diferencia entre SRAM y HBM.
HBM está basada en DRAM: tiene más capacidad, pero es más lenta; SRAM es mucho más rápida, pero cara.
Cerebras integra 44GB de SRAM gigantesca en un solo chip para obtener una velocidad extrema.
Pero como el diseño no es simple, el rendimiento real depende de varios factores.
- Los 80GB de HBM de Nvidia son memoria externa, mientras que los 44GB de Cerebras son SRAM interna.
  Es posible que OpenAI haya diseñado el modelo para que encaje en 44GB, o que haya conectado varios chips en forma de cadena.
En la IA de voz en tiempo real, la latencia es clave.
Las personas sienten raro esperar más de 800ms, así que el tiempo disponible para la inferencia del LLM es de unos 400~500ms.
Con la velocidad de Sonnet (80 tok/s), es difícil incluso una sola oración, pero con la velocidad de Cerebras o Groq (más de 1000 tok/s) se pueden manejar más de 400 tokens.
Por eso, ajustar modelos pequeños de forma especializada por dominio puede ser más eficiente que usar modelos grandes.
El enfoque council, que combina varios agentes pequeños, es una manera de lograr tanto velocidad como calidad.
Además, con speculative decoding se pueden predecir de antemano respuestas frecuentes y preparar el TTS, lo que permitiría respuestas de menos de 200ms en el 60% de las conversaciones.
- Como OpenAI es el único gran laboratorio que se enfoca en modelos de voz, parece probable que siga avanzando más en esta dirección.

Dos enfoques distintos para la inferencia rápida de LLM

Estructura del modo rápido de Anthropic

Estructura del modo rápido de OpenAI

Comparación técnica y evaluación

Significado y límites de la inferencia rápida

Debate de la comunidad y observaciones adicionales

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News