- Grok 4 Fast, presentado por xAI, es un modelo de razonamiento de nueva generación que, basado en los avances de entrenamiento de Grok 4, maximiza la eficiencia de costos y la velocidad
- Este modelo cuenta con una ventana de contexto de 2M tokens, búsqueda web y en X, y una arquitectura unificada de reasoning / non-reasoning, lo que lo hace adecuado para uso en tiempo real
- En benchmarks, ofrece un rendimiento similar al de Grok 4 mientras usa en promedio 40% menos tokens, logrando el mismo nivel de desempeño a un costo mucho menor
- Además, gracias al aprendizaje por refuerzo para uso de herramientas, muestra un alto desempeño en ejecución de código, navegación web y más, y obtuvo el primer lugar en LMArena Search Arena
Avance en inteligencia costo-eficiente
- Grok 4 Fast muestra un rendimiento superior al de Grok 3 Mini y al mismo tiempo reduce considerablemente el costo por tokens
- En promedio, logra un rendimiento similar al de Grok 4 usando 40% menos 'Thinking Tokens'
- Ejemplos de puntajes en benchmarks (pass@1):
- Grok 4 Fast: 85.7%, 92.0%, 93.3%, 20.0%, 80.0%
- Frente a modelos competidores (como GPT-5), obtiene resultados equivalentes o superiores
- Muestra resultados cercanos a Grok 4 en diversos benchmarks de razonamiento como GPQA, AIME, HMMT y LiveCodeBench
- Junto con una mejora del 40% en eficiencia de tokens, Grok 4 Fast reduce significativamente el precio por token
- Al alcanzar el mismo rendimiento, su precio se reduce en 98% frente a Grok 4, logrando la 'mejor relación precio-inteligencia (SOTA Price-to-Intelligence Ratio)' entre los modelos públicos
- Su buen desempeño también fue validado en evaluaciones externas del Artificial Analysis Intelligence Index, una entidad independiente
Uso nativo de herramientas y búsqueda SOTA
- Fue entrenado con aprendizaje por refuerzo para uso de herramientas (RL), por lo que puede ejecutar código o navegar la web automáticamente cuando hace falta
- Puede explorar en tiempo real la web y X, realizando búsquedas multi-hop y procesando incluso medios (imágenes y video), con capacidades de búsqueda agéntica
- Logra un rendimiento superior al de Grok 4 en varios benchmarks como BrowseComp, SimpleQA y X Bench Deepsearch(zh)
Resultados de post-training en dominio general
- En Search Arena de LMArena, Grok 4 Fast (
menlo) ocupó el primer lugar con Elo 1163, aventajando por 17 puntos a los modelos competidores
- En Text Arena,
grok-4-fast (nombre clave tahoe) quedó en el puesto 8, con una ventaja abrumadora frente a otros modelos comparables (puesto 18 o inferior)
- En tareas reales de búsqueda y texto, muestra una eficiencia superior incluso a la de modelos grandes
Modelo unificado de Reasoning y Non-Reasoning
- Los modos reasoning / non-reasoning, que antes requerían modelos separados, ahora se integran en una arquitectura única
- Con solo el system prompt se puede cambiar entre el modo reasoning (pensamiento profundo) y non-reasoning (respuesta rápida)
- La reducción de la latencia end-to-end y del costo por tokens lo hace adecuado para aplicaciones en tiempo real
- En la API de xAI, los desarrolladores pueden ajustar con precisión la velocidad y la profundidad
Despliegue y política de precios
- Grok 4 Fast ya está disponible y se ofrece gratis por tiempo limitado en OpenRouter y Vercel AI Gateway
- También está disponible en la API de xAI en dos versiones,
grok-4-fast-reasoning y grok-4-fast-non-reasoning, ambas con soporte para ventana de contexto de 2M tokens
- El precio comienza en $0.20/1M para tokens de entrada y $0.50/1M para tokens de salida, con tarifa doble por encima de 128k tokens
- Los tokens de entrada en caché se ofrecen a $0.05/1M, lo que ayuda a reducir costos
Planes a futuro
- Está previsto seguir mejorando el modelo de manera continua con base en el feedback de los usuarios
- Las capacidades multimodales y el fortalecimiento de las características agénticas son los objetivos centrales de la próxima actualización
- La model card y más detalles adicionales pueden consultarse en Model card de Grok 4 Fast (PDF)
2 comentarios
Parece que es más caro y más lento que gpt-oss, así que me da curiosidad por qué tanta gente lo usa..
Opiniones de Hacker News