Grok 4 Fast

(x.ai)

4 puntos por GN⁺ 2025-09-21 | 2 comentarios | Compartir por WhatsApp

Grok 4 Fast, presentado por xAI, es un modelo de razonamiento de nueva generación que, basado en los avances de entrenamiento de Grok 4, maximiza la eficiencia de costos y la velocidad
Este modelo cuenta con una ventana de contexto de 2M tokens, búsqueda web y en X, y una arquitectura unificada de reasoning / non-reasoning, lo que lo hace adecuado para uso en tiempo real
En benchmarks, ofrece un rendimiento similar al de Grok 4 mientras usa en promedio 40% menos tokens, logrando el mismo nivel de desempeño a un costo mucho menor
Además, gracias al aprendizaje por refuerzo para uso de herramientas, muestra un alto desempeño en ejecución de código, navegación web y más, y obtuvo el primer lugar en LMArena Search Arena

Avance en inteligencia costo-eficiente

Grok 4 Fast muestra un rendimiento superior al de Grok 3 Mini y al mismo tiempo reduce considerablemente el costo por tokens
- En promedio, logra un rendimiento similar al de Grok 4 usando 40% menos 'Thinking Tokens'
- Ejemplos de puntajes en benchmarks (pass@1):
  - Grok 4 Fast: 85.7%, 92.0%, 93.3%, 20.0%, 80.0%
  - Frente a modelos competidores (como GPT-5), obtiene resultados equivalentes o superiores
Muestra resultados cercanos a Grok 4 en diversos benchmarks de razonamiento como GPQA, AIME, HMMT y LiveCodeBench
Junto con una mejora del 40% en eficiencia de tokens, Grok 4 Fast reduce significativamente el precio por token
Al alcanzar el mismo rendimiento, su precio se reduce en 98% frente a Grok 4, logrando la 'mejor relación precio-inteligencia (SOTA Price-to-Intelligence Ratio)' entre los modelos públicos
- Su buen desempeño también fue validado en evaluaciones externas del Artificial Analysis Intelligence Index, una entidad independiente

Uso nativo de herramientas y búsqueda SOTA

Fue entrenado con aprendizaje por refuerzo para uso de herramientas (RL), por lo que puede ejecutar código o navegar la web automáticamente cuando hace falta
Puede explorar en tiempo real la web y X, realizando búsquedas multi-hop y procesando incluso medios (imágenes y video), con capacidades de búsqueda agéntica
Logra un rendimiento superior al de Grok 4 en varios benchmarks como BrowseComp, SimpleQA y X Bench Deepsearch(zh)

Resultados de post-training en dominio general

En Search Arena de LMArena, Grok 4 Fast (menlo) ocupó el primer lugar con Elo 1163, aventajando por 17 puntos a los modelos competidores
En Text Arena, grok-4-fast (nombre clave tahoe) quedó en el puesto 8, con una ventaja abrumadora frente a otros modelos comparables (puesto 18 o inferior)
En tareas reales de búsqueda y texto, muestra una eficiencia superior incluso a la de modelos grandes

Modelo unificado de Reasoning y Non-Reasoning

Los modos reasoning / non-reasoning, que antes requerían modelos separados, ahora se integran en una arquitectura única
- Con solo el system prompt se puede cambiar entre el modo reasoning (pensamiento profundo) y non-reasoning (respuesta rápida)
- La reducción de la latencia end-to-end y del costo por tokens lo hace adecuado para aplicaciones en tiempo real
En la API de xAI, los desarrolladores pueden ajustar con precisión la velocidad y la profundidad

Despliegue y política de precios

Grok 4 Fast ya está disponible y se ofrece gratis por tiempo limitado en OpenRouter y Vercel AI Gateway
También está disponible en la API de xAI en dos versiones, grok-4-fast-reasoning y grok-4-fast-non-reasoning, ambas con soporte para ventana de contexto de 2M tokens
El precio comienza en $0.20/1M para tokens de entrada y $0.50/1M para tokens de salida, con tarifa doble por encima de 128k tokens
Los tokens de entrada en caché se ofrecen a $0.05/1M, lo que ayuda a reducir costos

Planes a futuro

Está previsto seguir mejorando el modelo de manera continua con base en el feedback de los usuarios
Las capacidades multimodales y el fortalecimiento de las características agénticas son los objetivos centrales de la próxima actualización
La model card y más detalles adicionales pueden consultarse en Model card de Grok 4 Fast (PDF)

2 comentarios

kuber 2025-09-21

Parece que es más caro y más lento que gpt-oss, así que me da curiosidad por qué tanta gente lo usa..

GN⁺ 2025-09-21

Opiniones de Hacker News

No querría usar un producto de Musk aunque me pagaran, y todavía menos si su función es filtrar, transformar y sintetizar información; puede que sea útil, pero no me da confianza y no quiero seguir enriqueciéndolo
- Incluso dejando de lado cualquier mala opinión personal sobre Musk, ya hemos visto varias veces que interviene directamente en cómo funciona Grok para hacer que entregue resultados alineados con su ideología; así, no creo que pueda usar ese producto. Habrá quienes compartan sus ideas, pero el valor de un producto de IA está en producir respuestas usando datos y algoritmos diversos; no le veo sentido a que solo reproduzca la opinión de una sola persona
- Escuché que Grok busca las opiniones de Musk en Twitter antes de responder; me pregunto si eso pasa en todas las versiones de Grok o solo en la versión integrada en Twitter
- Hay tantas alternativas que no veo ninguna razón para usar Grok
- Hubo un caso en que Musk tocó Grok directamente porque decía que no aparecía propaganda de Fox News sobre el asesinato de Kirk caso 1, y esto ha pasado varias veces artículo del NYT. Grok es una tecnología envuelta en controversias de propaganda; no tiene sentido hablar de ella como si fuera un servicio tecnológico normal
Me pregunto por qué, si el modelo se llama "Fast", no publican la velocidad de procesamiento de tokens; no sé si "fast" significa otra cosa o si la velocidad varía demasiado
- En la práctica me parece que no es más que “grok 4 mini”; como si le hubieran puesto ‘fast’ porque si le decían ‘mini’ la gente no lo iba a usar tanto, y así por lo menos parece haber un motivo para elegirlo
- En OpenRouter ahora mismo anda en unos 160 tokens por segundo fuente
- Parece que lo están posicionando como rápido por su ‘eficiencia de tokens’, en el sentido de que usa menos tokens y así entrega el resultado más rápido
Grok 4 aparece arriba en la tabla extendida de NYT Connections enlace
- Pensé que podría ser el modelo Sonoma sky Alpha, del que hace poco vi comentarios en OpenRouter; lo usé bastante porque era gratis, pero me pareció peor que el Grok 4 original, así que quizá no sea
Últimamente uso mucho el modelo grok-code-fast-1, así que me decepcionó que no lo mencionaran en este nuevo lanzamiento; ojalá venga una versión mejor, porque aunque grok-code-fast-1 quede un poco por debajo de Gemini 2.5 Pro, en velocidad de iteración es de lo mejor
- Aunque es un modelo algo simple, a mí me fue mejor con él que con somnet
No entiendo cómo puede ser más rápido y al mismo tiempo rendir mejor que una versión más lenta en varios benchmarks; me pregunto si simplemente lo entrenaron una y otra vez para exámenes de benchmark
- No es que supere al otro en todos los benchmarks. Grok 4 Fast es peor que Grok 4 en GPQA Diamond, HLE y otras áreas con mucho contenido factual; en esas áreas el modelo grande (= más lento) es mejor. En cambio, en benchmarks centrados en razonamiento o uso de herramientas, donde importa más la capacidad de transición entre tokens, un modelo más chico y rápido también puede ser competitivo. Probablemente ajustaron los datos de entrenamiento para enfocarlo más en ciertas tareas, y da la impresión de que promocionan justo los benchmarks donde sale bien parado. Del mismo modo, también se podría armar material de ‘contra-promoción’ eligiendo solo benchmarks de memoria factual para remarcar que rinde peor
- Técnicamente, puede deberse a cambios de arquitectura, más datos, RL, o lo que sea que hayan usado; últimamente parece que van bastante por delante de los modelos abiertos en el uso de RL
- En realidad son solo dos modelos con nombres parecidos. La relación no es “Grok 4 Fast es una versión más rápida de Grok 4”; son bastante distintos, como GPT-4 y GPT-4o
- Lo más probable es que Grok 4 Fast sea una versión del modelo Grok 4 a la que le quitaron partes que casi no se usan en producción, para hacerlo más liviano y más enfocado; por eso la lógica general sería similar, pero optimizada para ciertos objetivos concretos
Últimamente los modelos grandes se entrenan con tamaños parecidos y datos similares; lo que cambia es la política de precios… en grok parece que la diferencia es que le quitan filtros y protecciones. Y además los benchmarks tienen muchas fallas y se pueden manipular con facilidad; es algo que todos en la industria ya saben
En relación precio/rendimiento de benchmark, se ve bien; me da curiosidad cómo rendirá en pruebas con usuarios reales
- Si esto fuera el sonoma-dusk que antes apareció como preview en OpenRouter, entonces estaba bastante bien. Lo probé con una tarea de ingeniería inversa de código y la velocidad y el rendimiento eran similares o superiores a gpt5-mini; aguantaba bien entre 110k y 130k tokens, y por encima de eso tendía a afirmar que ya había completado la tarea incluso cuando faltaban condiciones por cumplir (por ejemplo: “pasaron xx de 400 tests, el resto se puede hacer después”)
Todos queremos un modelo rápido y preciso, pero me pregunto si de verdad también puede ser ‘preciso’; si fuera muy preciso, estaría dispuesto a esperar unos segundos más
- La única forma segura de lograr eso es usando herramientas
Enlace de referencia a una tabla comparativa de modelos grandes
En lo personal uso un frontend personalizado, así que me decepciona que, a diferencia de Qwen3 coder, grok4 fast no tenga una prueba gratis de API; además, las herramientas con las que tiene partnerships no son las que suelo usar
- Enlace de prueba gratis de grok-4-fast