Lanzamiento de Grok 4
(twitter.com/xai)- Grok 4 es el modelo de IA más reciente lanzado por xAI tras casi 2 años, y materializa una inteligencia y capacidad de razonamiento que superan a estudiantes de posgrado en todos los campos
- La escala de entrenamiento y los recursos de cómputo aumentaron más de 100 veces, y su evolución centrada en aprendizaje por refuerzo (RL) demuestra una capacidad de resolución de problemas superior al nivel humano
- Alcanzó una puntuación de ARC-AGI de 15.9%, registrando un desempeño sobresaliente en una de las evaluaciones más exigentes de razonamiento abstracto e inteligencia general entre las IA actuales
- En diversos benchmarks como Humanity’s Last Exam (HLE), mostró resultados innovadores de 26.9% sin herramientas y 41~50.7% con herramientas
- Con la introducción del modo de voz nativo, ofrece interacción más cercana a la humana con conversación en tiempo real, expresión emocional y respuestas de baja latencia
Grok 4
- xAI, fundada por Elon Musk, presentó Grok 4 tras casi 2 años, subrayando que se trata del “mejor modelo de IA del mundo”
- Obtuvo puntuaciones perfectas en exámenes estandarizados como SAT y GRE, y también mostró un rendimiento sin precedentes en problemas de nivel posgrado y doctorado en todas las disciplinas académicas
> "En cuestiones académicas, Grok 4 es más inteligente que los estudiantes de posgrado en todas las materias" - Grok 2 fue un modelo conceptual, Grok 3 se enfocó en el preentrenamiento basado en diversas fuentes de datos, y Grok 4 fue entrenado con 100 veces más cómputo y datos que Grok 2, y 10 veces más que Grok 3
- Fue entrenado en la supercomputadora Colossus (200 mil GPU) con un enfoque en preentrenamiento y RL
- Se concentró en aprendizaje por refuerzo (RL), adoptando una estructura de autocorrección de errores en la que el modelo recibe retroalimentación durante la resolución de problemas y mejora gradualmente su rendimiento
- Se destaca que logró un avance máximo en poco tiempo con base en su capacidad de resolución lógica y el pensamiento de “first principles”
2 versiones del modelo
- El modelo base, Grok 4, y la versión mejorada en rendimiento, Grok 4 Heavy
- Grok 4 Heavy implementa inteligencia colectiva mediante un enfoque multiagente en el que varios agentes resuelven un problema al mismo tiempo y comparan resultados para encontrar la mejor respuesta
- Disponible a través de la suscripción SuperGrok Heavy (300 dólares al mes)
Avance en la puntuación de AGI
- Grok 4 registró una puntuación de 15.9% en la prueba ARC-AGI, una de las más altas de la industria
- ARC-AGI evalúa la inteligencia general del modelo y su capacidad de resolver problemas abstractos, con énfasis en reconocimiento de patrones visuales y adaptación a escenarios nuevos
Resultados en Humanity's Last Exam (HLE)
-
Humanity’s Last Exam (HLE), introducido en enero de 2025, es un benchmark de dificultad extrema compuesto por más de 100 áreas y 2,500 preguntas, incluyendo matemáticas, biología, ciencias sociales, física, IA, ingeniería y química
-
Resultado de Grok 4: "un nivel al que ni humanos reales ni IA previas podían acceder"
- Sin usar herramientas: 26.9%
- Usando herramientas (Grok 4 Heavy): 41%
- Con cómputo adicional en prueba (32x): hasta 50.7%
-
Sin herramientas significa resolver problemas solo con sus capacidades internas de lenguaje y razonamiento; con herramientas implica combinarlo con un sistema multiagente que usa ejecución de código, búsqueda web y datos externos
-
El training compute utilizó la supercomputadora Colossus basada en 200 mil GPU para entrenar el conocimiento del modelo y su capacidad de usar herramientas, mientras que el test-time compute ejecuta varios modelos en paralelo durante la resolución para incluir un proceso de verificación de resultados
> “Grok 4 está al nivel de PhD o más en todos los campos”
> "Pronto incluso esperamos descubrimientos de nuevas tecnologías/nueva física"
Principales resultados en benchmarks de IA
- AIME: capacidad para resolver problemas matemáticos complejos de nivel preparatoria
- GPQA: evaluación de razonamiento científico de nivel posgrado en áreas como física
- LiveCodeBench: medición de habilidad de programación basada en desafíos de Python
- MMLU-Pro: capacidad para resolver preguntas objetivas difíciles en múltiples áreas especializadas
- LOFT: evaluación de extracción de información necesaria para consultas complejas dentro de textos extensos
Casos prácticos y aplicación en el mundo real
- En simulación de negocios (VendingBench), Grok 4 mostró más del doble de desempeño y consistencia frente a modelos anteriores, demostrando capacidad para ejecutar estrategias de largo plazo
- En laboratorios de ciencias de la vida, ya se usa para analizar grandes volúmenes de registros experimentales, generar hipótesis e interpretar imágenes médicas, probando eficiencia real en el trabajo
- En desarrollo de videojuegos, apoya desde la recolección automática de assets del juego hasta la generación de código, permitiendo que una sola persona complete rápidamente un juego 3D
Innovación del modo de voz nativo
- Grok 4 admite conversación de voz en tiempo real, con interrupciones naturales, comprensión y reproducción de entonación emocional, y respuesta de ultra baja latencia, ofreciendo una interacción humanoide superior a los sistemas TTS tradicionales
- Se añadieron varios tipos de voz (británica, estilo tráiler, etc.) y en una demo en vivo se mostró la fluidez, rapidez y versatilidad de la conversación en tiempo real
API y expansión del ecosistema
- Grok 4 también se lanzó como API, permitiendo que cualquiera realice pruebas de benchmark y aplicaciones de negocio
- Ya está siendo adoptado por socios de diversos sectores como finanzas, ciencia y entretenimiento, aumentando su impacto en el mundo real
- Ofrece 256k context length, reforzando su capacidad para tareas extensas y complejas
Limitaciones y evolución futura
- En este momento, la mayor debilidad de Grok 4 es la falta de capacidad de comprensión y generación multimodal en imágenes, video y otros formatos
- Con el modelo fundacional v7, cuyo entrenamiento terminará pronto, y un RL aún más reforzado, se prevén mejoras integrales en visión, video y audio
- También se anticipa el desarrollo y lanzamiento de un modelo de generación de video (con uso de 100,000+ GPU GB200)
Hoja de ruta futura de xAI
- Agosto de 2025: lanzamiento previsto del modelo de código
- Septiembre de 2025: presentación de un agente multimodal
- Octubre de 2025: anuncio previsto del modelo de generación de video
- Planean seguir reforzando de forma continua las herramientas y el rendimiento del modelo
Conclusión e implicaciones
- Grok 4 demuestra estar compitiendo o incluso superando en la práctica a las mejores IA actuales en razonamiento y resolución de problemas académicos
- Su inteligencia y razonamiento sin precedentes, la interacción de voz en tiempo real, el uso de herramientas y la estructura multiagente apuntan a un punto de inflexión real hacia la próxima generación de AGI
- Junto con su expansión a trabajo real, negocios, juegos, investigación y entretenimiento, xAI busca posicionarse como la empresa de AGI más rápida
- El rápido ciclo de desarrollo y el avance agresivo de xAI muestran que la competencia en la industria de la IA sigue acelerándose
6 comentarios
Grok 4 ahora es el modelo de IA líder
Reseña de Grok 4 por Simon Willison
Grok busca qué dice Elon Musk en X sobre el conflicto entre Israel y Palestina
Bueno, supongo que habrá que probarlo en uso real para saberlo, pero con 200 mil GPUs y ese pool de talento, sí es posible crecer de forma tan agresiva.
Me pregunto cuánto más mejorará cuando Colossus llegue a 1 millón de GPUs.
Si calculamos cada H100 en 50 millones de wones, solo el precio de las GPUs serían 50 billones de wones. Y como además hay que construir el centro de datos y se necesita suministro eléctrico alrededor, dicen que habría que sumar hasta unos 20 billones más, así que serían 70 billones de wones en total. Parece que la IA cada vez se está convirtiendo más en una guerra de dinero.
¿Por qué de repente se ponen a tirarle a los estudiantes de posgrado? jajaja
jajajaja el estudiante de posgrado quedó todo sacado de onda por el golpe inesperado..
Entiendo que Grok 4 es impresionante, pero resultan graciosas esas frases tan típicas del mundo angloparlante como “pronto incluso esperamos descubrimientos de nuevas tecnologías/nueva física”. Si pronto logra demostrar o refutar la hipótesis de Riemann, entonces ya no harían falta más benchmarks, ¿no?
Opiniones en Hacker News
inference time). Al final, parece que la brecha entre quienes pueden pagar el acceso a la IA y quienes no pueden se va a abrir muchísimo. La mayor parte del mundo no puede costear suscripciones de cientos de dólares.daily drivercon popularidad explosiva. En coding, mi única decepción es que solo tenga 256k de contexto, pero espero que en v7 mejoren el contexto largo, especialmente para video. Igual, tengo muchas ganas de probarlo.userData(comandos#!/bin/bash), hizowgetdel artifact de software más reciente desde GitHub usando la URL correcta. De verdad está increíble.hack. Da la impresión de que el LLM en sí ya no está avanzando de forma clara, sino que solo se está expandiendo en profundidad, longitud, amplitud, etc. Al final parece que el crecimiento viene de añadirle alrededor herramientas o lógica "no IA". Así como la solución de las redes neuronales primitivas fue simplemente esperar al crecimiento exponencial del hardware, tal vez este camino también sea la solución.lldbdesde python. Había diferencias entre Docker y mi entorno local de Linux, y la causa era queaddress sanitizerse comportaba distinto según el entorno. O3 no logró detectar eso, pero Grok 4 sí lo señaló bien, y me dejó impresionado.