- Grok 4 de xAI ocupa ahora el primer lugar entre los modelos de IA en los principales benchmarks
- En el AAI Index, Grok 4 obtuvo 73 puntos, por delante de OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64) y DeepSeek R1 0528 (68)
- Grok 4 también logró las puntuaciones más altas en benchmarks de programación y matemáticas, estableciendo nuevos récords en GPQA Diamond (88%) y Humanity’s Last Exam (24%), entre otros
- El precio es el mismo que el de Grok 3; el costo por token es igual al de Claude 4 Sonnet y ligeramente más caro que Gemini 2.5 Pro u o3
- Ofrece funciones principales como ventana de contexto de 256k tokens, entrada de texto/imagen, llamadas a funciones y salidas estructuradas
Grok 4 se convierte en el modelo líder de xAI
- Con 73 puntos en el Artificial Analysis Intelligence Index, Grok 4 logró el primer lugar en benchmarks clave
- Con una puntuación superior a OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64) y DeepSeek R1 0528 (68), este es el primer caso en que xAI toma la delantera en IA
- El anterior Grok 3 ya era competitivo, pero Grok 4 es el primer modelo con el que xAI toma el liderazgo
Benchmarks y resultados de evaluación
- Obtuvo el primer lugar tanto en el índice de programación (LiveCodeBench & SciCode) como en el índice de matemáticas (AIME24 & MATH-500)
- Con 88% en GPQA Diamond, superó el récord previo de Gemini 2.5 Pro (84%)
- Con 24% en Humanity’s Last Exam, quedó por encima de la marca previa de Gemini 2.5 Pro (21%)
- Registró una puntuación compartida más alta en MMLU-Pro 87% y AIME 2024 94%
- Su velocidad de salida es de 75 tokens/segundo; es más lento que o3 (188), Gemini 2.5 Pro (142) y Claude 4 Sonnet Thinking (85), pero más rápido que Claude 4 Opus Thinking (66)
Otra información clave
- Ofrece una ventana de contexto de 256k tokens (queda entre los mejores al compararlo con Gemini 2.5 Pro: 1M, Claude 4 Sonnet/Opus: 200k, o3: 200k y R1 0528: 128k)
- Soporta entrada de texto e imágenes
- Soporta llamadas a funciones y salida estructurada
- Política de precios: igual que Grok 3, con $3/$15 por cada 1M de tokens de entrada/salida y $0.75 por cada 1M de tokens de entrada en caché
- Igual que Claude 4 Sonnet y algo más caro que Gemini 2.5 Pro y o3
- Grok 4 estará disponible en la API de xAI, en el chatbot Grok (X/Twitter) y en Microsoft Azure AI Foundry, entre otros
Resumen
- Grok 4 es el primer modelo de IA con el que xAI alcanza el liderazgo, superando en benchmarks y métricas a los principales modelos competidores
- Demuestra liderazgo en la industria gracias a su sólida capacidad de razonamiento, sus diversas modalidades de entrada/salida y su amplio soporte de contexto
- Los detalles de implementación del modelo para X/Twitter y para la API pueden ser distintos
5 comentarios
Por ahora, no me lo creo hasta que lo liberen gratis. Grok cuesta incluso 30 dólares, así que me da miedo suscribirme...
Creo que se puede ver como el rendimiento de un modelo con poco proceso de alignment, pero probablemente lo recorten y no termine bajando el rendimiento.
Cuando uso Gemini CLI, la experiencia de usuario se siente en otro nivel gracias al contexto de 1M.
Poder meter toda la base de código en el contexto sí que cambia las reglas del juego.
Me da curiosidad cuánto influye realmente el tamaño del contexto en el uso del modelo; que todavía se diga quién es el número 1 solo por benchmarks y apariencias, ¿en qué se diferencia eso de hacer marketing viral para gente que no sabe?
Comentarios en Hacker News