5 puntos por GN⁺ 2025-07-11 | 5 comentarios | Compartir por WhatsApp
  • Grok 4 de xAI ocupa ahora el primer lugar entre los modelos de IA en los principales benchmarks
  • En el AAI Index, Grok 4 obtuvo 73 puntos, por delante de OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64) y DeepSeek R1 0528 (68)
  • Grok 4 también logró las puntuaciones más altas en benchmarks de programación y matemáticas, estableciendo nuevos récords en GPQA Diamond (88%) y Humanity’s Last Exam (24%), entre otros
  • El precio es el mismo que el de Grok 3; el costo por token es igual al de Claude 4 Sonnet y ligeramente más caro que Gemini 2.5 Pro u o3
  • Ofrece funciones principales como ventana de contexto de 256k tokens, entrada de texto/imagen, llamadas a funciones y salidas estructuradas

Grok 4 se convierte en el modelo líder de xAI

  • Con 73 puntos en el Artificial Analysis Intelligence Index, Grok 4 logró el primer lugar en benchmarks clave
  • Con una puntuación superior a OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64) y DeepSeek R1 0528 (68), este es el primer caso en que xAI toma la delantera en IA
  • El anterior Grok 3 ya era competitivo, pero Grok 4 es el primer modelo con el que xAI toma el liderazgo

Benchmarks y resultados de evaluación

  • Obtuvo el primer lugar tanto en el índice de programación (LiveCodeBench & SciCode) como en el índice de matemáticas (AIME24 & MATH-500)
  • Con 88% en GPQA Diamond, superó el récord previo de Gemini 2.5 Pro (84%)
  • Con 24% en Humanity’s Last Exam, quedó por encima de la marca previa de Gemini 2.5 Pro (21%)
  • Registró una puntuación compartida más alta en MMLU-Pro 87% y AIME 2024 94%
  • Su velocidad de salida es de 75 tokens/segundo; es más lento que o3 (188), Gemini 2.5 Pro (142) y Claude 4 Sonnet Thinking (85), pero más rápido que Claude 4 Opus Thinking (66)

Otra información clave

  • Ofrece una ventana de contexto de 256k tokens (queda entre los mejores al compararlo con Gemini 2.5 Pro: 1M, Claude 4 Sonnet/Opus: 200k, o3: 200k y R1 0528: 128k)
  • Soporta entrada de texto e imágenes
  • Soporta llamadas a funciones y salida estructurada
  • Política de precios: igual que Grok 3, con $3/$15 por cada 1M de tokens de entrada/salida y $0.75 por cada 1M de tokens de entrada en caché
    • Igual que Claude 4 Sonnet y algo más caro que Gemini 2.5 Pro y o3
  • Grok 4 estará disponible en la API de xAI, en el chatbot Grok (X/Twitter) y en Microsoft Azure AI Foundry, entre otros

Resumen

  • Grok 4 es el primer modelo de IA con el que xAI alcanza el liderazgo, superando en benchmarks y métricas a los principales modelos competidores
  • Demuestra liderazgo en la industria gracias a su sólida capacidad de razonamiento, sus diversas modalidades de entrada/salida y su amplio soporte de contexto
  • Los detalles de implementación del modelo para X/Twitter y para la API pueden ser distintos

5 comentarios

 
slowandsnow 2025-07-11

Por ahora, no me lo creo hasta que lo liberen gratis. Grok cuesta incluso 30 dólares, así que me da miedo suscribirme...

 
paruaa 2025-07-11

Creo que se puede ver como el rendimiento de un modelo con poco proceso de alignment, pero probablemente lo recorten y no termine bajando el rendimiento.

 
click 2025-07-11

Cuando uso Gemini CLI, la experiencia de usuario se siente en otro nivel gracias al contexto de 1M.
Poder meter toda la base de código en el contexto sí que cambia las reglas del juego.

 
koolgu 2025-07-11

Me da curiosidad cuánto influye realmente el tamaño del contexto en el uso del modelo; que todavía se diga quién es el número 1 solo por benchmarks y apariencias, ¿en qué se diferencia eso de hacer marketing viral para gente que no sabe?

 
GN⁺ 2025-07-11
Comentarios en Hacker News
  • No me imagino quién pagaría por usar Grok, además últimamente parece que está totalmente descompuesto, la valuación de xAI es pura fantasía
    • Yo sí pago por Grok y lo he estado usando en lugar de Google desde hace meses, es muy útil porque puede acceder al grafo de X y además tiene mucha información reciente, ojalá también se pudiera usar en Cline o Cursor
    • Me pregunto si saben que quien causó el problema no fue el modelo Grok sino el bot @grok de X, la versión API de Grok no se pone de repente a imitar a Hitler sin sentido (a menos que se lo pidas directamente)
  • En ARC-AGI2 registró un rendimiento 4 veces superior al de o3 y 2 veces al de opus 4… también sale muy fuerte en otros benchmarks independientes, sigue girando esta moda de ciclos cortos en la que cada modelo afirma ser "el mejor del mundo" durante un mes, a este precio es bueno para los consumidores, y los datasets de entrenamiento de los modelos abiertos también se están volviendo más diversos, todos ganan, da pena ver cómo inventan excusas dolorosas de escuchar por una pelea emocional sobre figuras famosas, mucha gente necesita una desintoxicación de medios, antes llamaban a los LLM "loros estocásticos", pero ahora viendo este hilo y Reddit más bien la gente está repitiendo como loros cosas tontas y de odio, tenemos que mejorar
  • Me pregunto si en mi código seguirán apareciendo respuestas relacionadas con Hitler de ahora en adelante, edición: me siento tonto por no haberme dado cuenta de que este era otro movimiento de marketing "genial"