7 puntos por GN⁺ 2025-07-11 | 6 comentarios | Compartir por WhatsApp
  • Grok 4 es el modelo de IA más reciente lanzado por xAI tras casi 2 años, y materializa una inteligencia y capacidad de razonamiento que superan a estudiantes de posgrado en todos los campos
  • La escala de entrenamiento y los recursos de cómputo aumentaron más de 100 veces, y su evolución centrada en aprendizaje por refuerzo (RL) demuestra una capacidad de resolución de problemas superior al nivel humano
  • Alcanzó una puntuación de ARC-AGI de 15.9%, registrando un desempeño sobresaliente en una de las evaluaciones más exigentes de razonamiento abstracto e inteligencia general entre las IA actuales
  • En diversos benchmarks como Humanity’s Last Exam (HLE), mostró resultados innovadores de 26.9% sin herramientas y 41~50.7% con herramientas
  • Con la introducción del modo de voz nativo, ofrece interacción más cercana a la humana con conversación en tiempo real, expresión emocional y respuestas de baja latencia

Grok 4

  • xAI, fundada por Elon Musk, presentó Grok 4 tras casi 2 años, subrayando que se trata del “mejor modelo de IA del mundo”
  • Obtuvo puntuaciones perfectas en exámenes estandarizados como SAT y GRE, y también mostró un rendimiento sin precedentes en problemas de nivel posgrado y doctorado en todas las disciplinas académicas
    > "En cuestiones académicas, Grok 4 es más inteligente que los estudiantes de posgrado en todas las materias"
  • Grok 2 fue un modelo conceptual, Grok 3 se enfocó en el preentrenamiento basado en diversas fuentes de datos, y Grok 4 fue entrenado con 100 veces más cómputo y datos que Grok 2, y 10 veces más que Grok 3
  • Fue entrenado en la supercomputadora Colossus (200 mil GPU) con un enfoque en preentrenamiento y RL
    • Se concentró en aprendizaje por refuerzo (RL), adoptando una estructura de autocorrección de errores en la que el modelo recibe retroalimentación durante la resolución de problemas y mejora gradualmente su rendimiento
    • Se destaca que logró un avance máximo en poco tiempo con base en su capacidad de resolución lógica y el pensamiento de “first principles”

2 versiones del modelo

  • El modelo base, Grok 4, y la versión mejorada en rendimiento, Grok 4 Heavy
  • Grok 4 Heavy implementa inteligencia colectiva mediante un enfoque multiagente en el que varios agentes resuelven un problema al mismo tiempo y comparan resultados para encontrar la mejor respuesta
    • Disponible a través de la suscripción SuperGrok Heavy (300 dólares al mes)

Avance en la puntuación de AGI

  • Grok 4 registró una puntuación de 15.9% en la prueba ARC-AGI, una de las más altas de la industria
  • ARC-AGI evalúa la inteligencia general del modelo y su capacidad de resolver problemas abstractos, con énfasis en reconocimiento de patrones visuales y adaptación a escenarios nuevos

Resultados en Humanity's Last Exam (HLE)

  • Humanity’s Last Exam (HLE), introducido en enero de 2025, es un benchmark de dificultad extrema compuesto por más de 100 áreas y 2,500 preguntas, incluyendo matemáticas, biología, ciencias sociales, física, IA, ingeniería y química

  • Resultado de Grok 4: "un nivel al que ni humanos reales ni IA previas podían acceder"

    • Sin usar herramientas: 26.9%
    • Usando herramientas (Grok 4 Heavy): 41%
    • Con cómputo adicional en prueba (32x): hasta 50.7%
  • Sin herramientas significa resolver problemas solo con sus capacidades internas de lenguaje y razonamiento; con herramientas implica combinarlo con un sistema multiagente que usa ejecución de código, búsqueda web y datos externos

  • El training compute utilizó la supercomputadora Colossus basada en 200 mil GPU para entrenar el conocimiento del modelo y su capacidad de usar herramientas, mientras que el test-time compute ejecuta varios modelos en paralelo durante la resolución para incluir un proceso de verificación de resultados

    > “Grok 4 está al nivel de PhD o más en todos los campos”
    > "Pronto incluso esperamos descubrimientos de nuevas tecnologías/nueva física"

Principales resultados en benchmarks de IA

  • AIME: capacidad para resolver problemas matemáticos complejos de nivel preparatoria
  • GPQA: evaluación de razonamiento científico de nivel posgrado en áreas como física
  • LiveCodeBench: medición de habilidad de programación basada en desafíos de Python
  • MMLU-Pro: capacidad para resolver preguntas objetivas difíciles en múltiples áreas especializadas
  • LOFT: evaluación de extracción de información necesaria para consultas complejas dentro de textos extensos

Casos prácticos y aplicación en el mundo real

  • En simulación de negocios (VendingBench), Grok 4 mostró más del doble de desempeño y consistencia frente a modelos anteriores, demostrando capacidad para ejecutar estrategias de largo plazo
  • En laboratorios de ciencias de la vida, ya se usa para analizar grandes volúmenes de registros experimentales, generar hipótesis e interpretar imágenes médicas, probando eficiencia real en el trabajo
  • En desarrollo de videojuegos, apoya desde la recolección automática de assets del juego hasta la generación de código, permitiendo que una sola persona complete rápidamente un juego 3D

Innovación del modo de voz nativo

  • Grok 4 admite conversación de voz en tiempo real, con interrupciones naturales, comprensión y reproducción de entonación emocional, y respuesta de ultra baja latencia, ofreciendo una interacción humanoide superior a los sistemas TTS tradicionales
  • Se añadieron varios tipos de voz (británica, estilo tráiler, etc.) y en una demo en vivo se mostró la fluidez, rapidez y versatilidad de la conversación en tiempo real

API y expansión del ecosistema

  • Grok 4 también se lanzó como API, permitiendo que cualquiera realice pruebas de benchmark y aplicaciones de negocio
  • Ya está siendo adoptado por socios de diversos sectores como finanzas, ciencia y entretenimiento, aumentando su impacto en el mundo real
  • Ofrece 256k context length, reforzando su capacidad para tareas extensas y complejas

Limitaciones y evolución futura

  • En este momento, la mayor debilidad de Grok 4 es la falta de capacidad de comprensión y generación multimodal en imágenes, video y otros formatos
  • Con el modelo fundacional v7, cuyo entrenamiento terminará pronto, y un RL aún más reforzado, se prevén mejoras integrales en visión, video y audio
  • También se anticipa el desarrollo y lanzamiento de un modelo de generación de video (con uso de 100,000+ GPU GB200)

Hoja de ruta futura de xAI

  • Agosto de 2025: lanzamiento previsto del modelo de código
  • Septiembre de 2025: presentación de un agente multimodal
  • Octubre de 2025: anuncio previsto del modelo de generación de video
  • Planean seguir reforzando de forma continua las herramientas y el rendimiento del modelo

Conclusión e implicaciones

  • Grok 4 demuestra estar compitiendo o incluso superando en la práctica a las mejores IA actuales en razonamiento y resolución de problemas académicos
  • Su inteligencia y razonamiento sin precedentes, la interacción de voz en tiempo real, el uso de herramientas y la estructura multiagente apuntan a un punto de inflexión real hacia la próxima generación de AGI
  • Junto con su expansión a trabajo real, negocios, juegos, investigación y entretenimiento, xAI busca posicionarse como la empresa de AGI más rápida
  • El rápido ciclo de desarrollo y el avance agresivo de xAI muestran que la competencia en la industria de la IA sigue acelerándose

6 comentarios

 
xguru 2025-07-11

Bueno, supongo que habrá que probarlo en uso real para saberlo, pero con 200 mil GPUs y ese pool de talento, sí es posible crecer de forma tan agresiva.
Me pregunto cuánto más mejorará cuando Colossus llegue a 1 millón de GPUs.

Si calculamos cada H100 en 50 millones de wones, solo el precio de las GPUs serían 50 billones de wones. Y como además hay que construir el centro de datos y se necesita suministro eléctrico alrededor, dicen que habría que sumar hasta unos 20 billones más, así que serían 70 billones de wones en total. Parece que la IA cada vez se está convirtiendo más en una guerra de dinero.

 
jujumilk3 2025-07-11

¿Por qué de repente se ponen a tirarle a los estudiantes de posgrado? jajaja

 
sknah 2025-07-11

jajajaja el estudiante de posgrado quedó todo sacado de onda por el golpe inesperado..

 
lcanon 2025-07-11

Entiendo que Grok 4 es impresionante, pero resultan graciosas esas frases tan típicas del mundo angloparlante como “pronto incluso esperamos descubrimientos de nuevas tecnologías/nueva física”. Si pronto logra demostrar o refutar la hipótesis de Riemann, entonces ya no harían falta más benchmarks, ¿no?

 
GN⁺ 2025-07-11
Opiniones en Hacker News
  • El modelo "Heavy" cuesta 300 dólares al mes; da la impresión de que los precios siguen subiendo, cuando antes parecía que nos prometían que iban a bajar siempre. Probablemente esto pasa porque muchas empresas tienen escasez de GPU; da la sensación de que compañías como Google no tendrían ese problema. De hecho, Gemini 2.5 Pro ya se puede usar gratis en AI Studio, y hasta configurándolo en 32k no cobra nada. Incluso dan ganas de pensar que quizá Gemini 3.0 también salga gratis.
    • No recuerdo que nadie haya prometido que los modelos de alto rendimiento siempre serían baratos. A igualdad de nivel de rendimiento y cantidad de tokens, los precios sí han ido bajando. Es como la ley de Moore: los chips se vuelven cada vez más complejos, pero el rendimiento por unidad se abarata.
    • Es el mismo principio por el cual un Ferrari cuesta más que un Model T, o por el cual las computadoras más caras de hoy cuestan muchísimo más que la primera PC. Lo que realmente baja de precio es la gama de entrada o la línea que mantiene el mismo nivel de rendimiento. Es normal que el rango total de precios se vaya ampliando; yo lo veo como una señal de que esta industria está madurando. La diferencia esta vez es que, por culpa del financiamiento de VC, el nivel de entrada estaba artificialmente en 0 o muy bajo.
    • También hay que tener en cuenta que Gemini igualmente sigue subiendo de precio, enlace relacionado
    • Esto es un fenómeno de escalamiento de costos causado por el tiempo de razonamiento (inference time). Al final, parece que la brecha entre quienes pueden pagar el acceso a la IA y quienes no pueden se va a abrir muchísimo. La mayor parte del mundo no puede costear suscripciones de cientos de dólares.
    • O3 bajó su precio 80% hace poco. Grok 4 salió hace muy poco, tiene buen rendimiento y su precio es bastante razonable. Si no es la versión heavy, el costo por token es el mismo que en grok 3. Google parece estar absorbiendo costos para ganar presencia, así que no entiendo muy bien la queja del comentario original.
  • Sí parece que esta vez de verdad salió un nuevo SOTA (State of the Art, el mejor modelo actual). Supera claramente a o3, Gemini y Claude en Human’s Last Exam, GPQA, AIME25, HMMT25, USAMO 2025, LiveCodeBench, ARC-AGI 1 y 2, entre otros. Además, se supone que en unas semanas lanzarán también un modelo especializado en coding. Ojo que hoy casi no hablaron del rendimiento en coding.
    • De acuerdo. Hoy, en la simulación de la Serie Mundial, me dio una sensación inquietante en su razonamiento. Tomó números de Polymarket y respondió como si fueran datos propios. Claro, puede que yo me haya confundido por no revisarlo en detalle, pero casos así me vuelven a recordar que hace falta alguien con una postura escéptica dentro del equipo de seguridad de estos modelos pioneros. Aun así, el avance es enorme. Si los benchmarks no están contaminados, creo que puede volverse un daily driver con popularidad explosiva. En coding, mi única decepción es que solo tenga 256k de contexto, pero espero que en v7 mejoren el contexto largo, especialmente para video. Igual, tengo muchas ganas de probarlo.
    • Ojalá ese modelo de coding ya estuviera disponible para agentes de coding. No lo encuentro por ningún lado.
    • Que al censurar un modelo sus puntajes caen en picada es algo que ya se ha demostrado hace tiempo. Por ejemplo, claro que hay que bloquear cosas como instrucciones para fabricar bombas, pero Grok 3 seguía tomando posturas progresistas de forma consistente aun teniendo acceso a los peores datos posibles (considerando además el contexto de sus patrocinadores).
    • Incluso si uno no simpatiza con Elon Musk, sigue siendo impresionante que Grok haya alcanzado el nivel de Google, OpenAI y Anthropic. Ya está casi al mismo nivel.
  • Acabo de probar Grok 4 y está buenísimo. Me generó de una sola vez 1000 líneas de código para desplegar una instancia EC2 con Java CDK, incluyendo VPC y Security Groups, sin un solo error de sintaxis. Lo más impresionante fue que, al generar el userData (comandos #!/bin/bash), hizo wget del artifact de software más reciente desde GitHub usando la URL correcta. De verdad está increíble.
    • Si puedes compartir el resultado, de verdad me gustaría verlo. Si saca tanto código de una sola vez y sin errores, sí suena bastante impresionante. También me da curiosidad si grok ejecuta herramientas en este tipo de consultas, como linter, sandbox, búsqueda web, etc.
    • Como código de una sola vez está excelente, pero todavía le falta muchísimo para ser código mantenible, con control de versiones, colaboración, cumplimiento de un SDLC estándar, inmutabilidad y trazabilidad de cambios de estado. Si un practicante escribiera código de despliegue EC2 así, creo que tendría que sentarme a conversar largo y tendido sobre cada decisión tomada.
    • Me da curiosidad por qué usaste Java para CDK en vez de typescript. ¿Fue para unificar todos los entornos en un solo lenguaje?
  • El truco principal de Grok Heavy es lanzar varios agentes en paralelo y comparar resultados. En general, los resultados de benchmark son muy impresionantes. Es inevitable que sea caro y lento, pero parece el siguiente paso lógico en el diseño de agentes. De verdad quiero probarlo. Y por cierto, también abrieron la API. Parece que xAI sí logró algo importante.
    • Entiendo cómo funciona, pero aun así se siente como una especie de hack. Da la impresión de que el LLM en sí ya no está avanzando de forma clara, sino que solo se está expandiendo en profundidad, longitud, amplitud, etc. Al final parece que el crecimiento viene de añadirle alrededor herramientas o lógica "no IA". Así como la solución de las redes neuronales primitivas fue simplemente esperar al crecimiento exponencial del hardware, tal vez este camino también sea la solución.
    • Es caro y lento, sí, pero en la práctica, para entrenar el siguiente modelo SOTA igual necesitas usar este tipo de técnicas con buenos datos sintéticos mediante rejection sampling y cosas así. Cobrar 300 dólares al usuario por ofrecerle esa experiencia me parece un trato bastante razonable.
    • Se parece a llm-consortium, aunque con menos diversidad de modelos. Se puede ver el tuit de karpathy y el open source de llm-consortium.
    • Personalmente, me gustaría más que este tipo de técnica la implementara otro lugar que no fuera una "empresa problemática". Quiero seguir siendo fiel a ciertos principios.
    • Creo que o3 pro probablemente también funciona de una forma parecida.
  • Si no tienes tiempo para ver el video de lanzamiento, alguien ya preparó una versión resumida. La conclusión es que está realmente impresionante y que la competencia en IA se está poniendo cada vez más intensa, Ver Short Clips
  • Con Grok 4 resolví un problema de comportamiento inconsistente al ejecutar lldb desde python. Había diferencias entre Docker y mi entorno local de Linux, y la causa era que address sanitizer se comportaba distinto según el entorno. O3 no logró detectar eso, pero Grok 4 sí lo señaló bien, y me dejó impresionado.
  • "Grok 4 (Thinking)" logró 15.9% en ARC-AGI-2. Casi duplicó el SOTA comercial previo e incluso rompió el récord actual de la competencia de Kaggle, más detalles
  • Es demasiado impresionante, sí, pero tengo muchas dudas de si las empresas van a elegir fácilmente como proveedor de API a un modelo post-entrenado para alinearse con las inclinaciones personales de Elon. Técnicamente es sobresaliente, pero en lo comercial le veo límites.
  • Con Grok, aunque no uso la API, siempre me ha parecido de primer nivel para deep research. Con Grok 4 eso parece todavía más prometedor.
    • La integración de Grok con Twitter es, por mucho, el mejor caso de uso real. Poder preguntar dentro de un tuit por contexto o por el significado de un término en tiempo real me parece utilísimo.
    • Para mí, OpenAI es claramente mejor que todos sus competidores, aunque tampoco diría que me encanta. Aun así, es cierto que Grok me ha parecido el mejor para actualizaciones en tiempo real o preguntas de soporte de TI.
    • ¿Podrías explicar un poco más en concreto qué quieres decir con <deep research>?
  • Me pregunto si alguien aquí ya integró Grok. He integrado muchísimos LLM hasta ahora, pero nunca he visto un caso real en producción con Grok. Si no supera eso, nadie va a confiar en este modelo. Las empresas no lo van a usar hasta que demuestre capacidades realmente serias. Ni siquiera proyecta una imagen muy empresarial.
    • Grok 3 está en Azure AI Foundry. También anunciaron integración con Telegram, aunque en realidad la operación era que Grok le pagaba 300 millones de dólares a Telegram. Enlaces: Presentación de Grok 3 y mini en Azure Foundry, artículo de la BBC. De todos modos, elegir Grok me parece un riesgo reputacional serio.
    • Me da todavía más curiosidad de dónde y cómo está trayendo talento Grok. Hay tanto dinero y tantos buenos laboratorios en este sector que ya parece difícil cambiarse sin una ideología o convicción muy fuerte. Me cuesta creer que haya tantos investigadores de IA que de verdad quieran ver a Elon como una especie de emperador.
    • Uso Grok para analizar visualmente imágenes de comida y funciona muy bien. Reconoce bien marcas y también entiende fotos raras o mal tomadas por usuarios. La API además es muy fácil de usar.
    • Integrar a producción un modelo que la semana pasada se autodenominó “Mecha Hitler” me parece una decisión completamente insensata. Soy fan de Musk, pero aun así hay que decir que mientras critica a Sama, está lanzando su propia IA igual de poderosa pero con igual o menor control.