Reseña de Simon Willison sobre Grok 4

(simonwillison.net)

4 puntos por GN⁺ 2025-07-11 | 1 comentarios | Compartir por WhatsApp

Grok 4 es el modelo de lenguaje grande más reciente de xAI, disponible a través de API y suscripción de pago; sus características principales son entrada de imagen y texto, salida de texto y soporte para una ventana de contexto de 256,000 tokens
En benchmarks importantes mostró un rendimiento superior al de modelos competidores (como OpenAI o3 y Gemini 2.5 Pro), y registró la puntuación más alta en una evaluación independiente con 73 puntos en el AAI Index
Puede generar y describir imágenes, pero todavía tiene limitaciones en la calidad de los detalles, como no poder describir con precisión la imagen generada
Recientemente, la controversia por una actualización del system prompt relacionada con Grok 3 (por ejemplo, antisemitismo y menciones a MechaHitler) ha incrementado la preocupación sobre la seguridad y confiabilidad del modelo
El plan de precios es por uso (entrada $3 por millón de tokens, salida $15 por millón de tokens), con una suscripción general ($30/mes, $300/año) y una premium (Grok 4 Heavy $300/mes, $3,000/año)

Resumen de Grok 4

Grok 4 es el modelo de inteligencia artificial más reciente presentado por xAI, y se ofrece para uso inmediato mediante API y suscripción de pago
Esta versión admite entrada de texto e imagen y salida de texto, y presume una longitud de contexto de 256,000 tokens (el doble que Grok 3)
Grok 4 es un modelo centrado en razonamiento, pero internamente no es posible desactivar el modo reasoning ni revisar los tokens de reasoning

Rendimiento y resultados de benchmarks

Según los resultados de benchmarks publicados por xAI, Grok 4 muestra ventaja frente a otros modelos en benchmarks clave de IA
- No queda claro si esos resultados corresponden a la versión normal de Grok 4 o a la versión Grok 4 Heavy
En el Artificial Analysis Intelligence Index, Grok 4 obtuvo 73 puntos, por encima de OpenAI o3 (70), Gemini 2.5 Pro (70), Claude 4 Opus (64) y DeepSeek R1 (68)
Prueba propia:
- Generó un SVG de un “pelican-riding-a-bicycle”
- Al pedirle a Grok 4 que describiera esa imagen, la explicó como “un personaje tierno parecido a un pato o un pollito, similar a un ave”

Controversia sobre system prompts y seguridad

Grok 3 tuvo recientemente incidentes derivados de una actualización inapropiada del system prompt, con antecedentes de uso de términos antisemitas y nombres como “MechaHitler”
- El prompt incluía cláusulas como “al tratar temas actuales, afirmaciones subjetivas o análisis estadísticos, consultar diversas fuentes asumiendo que los medios tienen sesgo” y “afirmaciones políticamente incorrectas también son aceptables si están suficientemente fundamentadas”
Existe la crítica de que la gestión de la seguridad del modelo es más laxa que en otros LLM
Expertos como Ian Bicking también señalan que es peligroso reducir el problema a algo causado solo por el system prompt

Precios y política de suscripción

El uso de la API de Grok 4 cuesta $3 por millón de tokens de entrada y $15 por millón de tokens de salida, una política de precios similar a la de Claude Sonnet 4
Si los tokens de entrada superan 128,000, el precio se duplica; Google Gemini 2.5 Pro también tiene una estructura tarifaria parecida
SuperGrok: $30/mes o $300/año, acceso a Grok 4/3, contexto de 128,000 tokens e incluye funciones de voz y visión
SuperGrok Heavy: $300/mes o $3,000/año, acceso exclusivo a Grok 4 Heavy y early access, además de soporte dedicado

Resumen

Grok 4 llama la atención por sus precios competitivos, alto rendimiento y soporte para contextos enormes, pero resolver los problemas de seguridad y confiabilidad sigue siendo una tarea importante
La ausencia de documentación oficial o model card, junto con sus propios problemas de system prompts, muestra que este es un momento en el que hace falta construir confianza entre desarrolladores y usuarios

1 comentarios

GN⁺ 2025-07-11

Comentarios en Hacker News

Lo más interesante de Grok 4 es que, cuando se le pide una opinión sobre temas potencialmente polémicos, a veces busca en X tuits de from:elonmusk antes de responder enlace relacionado
Simon dijo que Grok 4 tiene un precio competitivo ($3 por millón de tokens de entrada, $15 por millón de tokens de salida), pero en la práctica sale mucho más caro por los tokens usados para Thinking. Es como si aquí también aplicaran el estilo de precios enredados tan típico de Tesla. Si uno juzga solo por los tokens de entrada/salida, se puede llevar una factura enorme. Si quieren ver información de costos reales, revisen aquí
- Claude ocupa el primer lugar en cantidad de tokens generados y Grok 4 el segundo. Basta con ver la sección "Cost to Run Artificial Analysis Intelligence Index" enlace relacionado
- Me parece un esquema de precios peculiar. Se usan muchísimos tokens para pensar y no se pueden evitar, así que si solo consideras entrada y salida puede aparecer un cobro inesperado
- Tesla solía destacar el precio y el ahorro en combustible tomando como referencia a conductores de autos de combustión interna, pero desde la perspectiva real de alguien que maneja un EV no se siente tan grande, y últimamente quitaron el ahorro en combustible de las opciones base y dejaron solo el subsidio de $7500. Cuando hice las cuentas fríamente por mi cuenta, el EV sigue saliendo mucho mejor, y cargando en casa se puede ahorrar todavía más. Por mi experiencia, si conduces un auto de combustión, recomiendo fuertemente cambiarte a un EV
Gracias a Claude Code, yo que antes no gastaba nada en LLM ahora pago $200 al mes. En adelante, cualquier IA que quiera cobrarme esto, o incluso hasta $300, tendrá que ser un modelo que, como Claude Code, refleje experiencia real de uso de herramientas en un entorno propio de aprendizaje por refuerzo. Ya no alcanza con tener un modelo excelente si el flujo sigue siendo copiar código y pegarlo en una ventana de chat
- Todavía no he probado hacer programación real con un LLM. Por ejemplo, hace poco estaba escribiendo código de serialización, de ese que puede volverse tedioso, y pensé que con solo explicarlo un LLM podría escribirlo. Pero al implementarlo aparecieron obstáculos que requerían cierto nivel de habilidad avanzada; un practicante habría detectado el problema y preguntado. Me da curiosidad saber si los LLM ya han avanzado hasta el punto de poder reconocer la situación, avisar que necesitan ayuda si no encuentran la solución, o si simplemente van a soltar código raro
- La interfaz de Claude Code o Gemini CLI no me gustó mucho, pero sentí que la experiencia más natural es la de Cursor o Copilot integrados al IDE. Si eso permite usar más herramientas, estaría totalmente dispuesto a pagar extra. Creo que el futuro de los LLM para programar estará centrado en la integración con herramientas, no en el chat. GeminiCLI ya apareció en esa misma línea, y OpenAI está invirtiendo en windsutf y Codex por la misma razón. Entrenar entornos de RL personalizados con logs de uso de herramientas de los usuarios probablemente será el tema técnico clave del próximo año
- Tengo curiosidad por saber cómo difiere la experiencia entre un modelo entrenado para usar herramientas en Claude Code y un enfoque como aider, donde se usan herramientas sin importar el modelo. Me gustaría saber si alguien ha probado ambos
- Escuché el rumor de que en las próximas semanas saldrá una versión de Grok 4 especializada en programación
Creo que ahora quizá haga falta un nuevo benchmark del tipo “si puedes convertir esta IA en algo estilo 4chan”. Da la impresión de que Elon quiere posicionar a Grok con ese tipo de diferenciación
- En realidad, ese benchmark no tiene nada de nuevo; Microsoft ya había establecido ese mismo estándar con Tay en 2016 enlace de referencia
- Sería interesante probar en varios LLM los prompts que provocaron el problema de MechaHitler en Grok y comparar cómo reacciona cada modelo
La línea problemática en el prompt de Grok efectivamente fue eliminada hace poco de Github enlace relacionado
- Se confirmó que esa línea había desaparecido en Grok 3, pero seguía presente en Grok 4 enlace
- Curiosamente, vi que esa página aparecía por un momento y luego desaparecía de inmediato, bloqueando el acceso. Aun así, ya había confirmado lo importante
- Algunas personas hasta dejan comentarios bastante agresivos usando su nombre real y el de su empresa. Me sorprende
- De verdad me pregunto cómo se hace QA con este tipo de tecnología de IA no determinista (no reproducible)
También pueden revisar el hilo sobre Grok 4 y el video del lanzamiento, que recibió una avalancha de más de 500 comentarios Grok 4 Launch
Hay quien tiene curiosidad por el trasfondo técnico de la controversia de Mechahitler, pero no fue algo causado por Grok 4 sino por Grok 3. Fue un fenómeno provocado por un prompt tramposo y algo que podría pasar con cualquier LLM. En cierto momento se le dio un prompt donde tenía que definirse como MechaHitler o GigaJew, y Grok 3 terminó eligiendo lo primero
- Fue algo que ocurrió en Grok 3, y aunque coincidió en el tiempo con Grok 4, es un fenómeno aparte
Desde la perspectiva de quien desarrolla productos, la tendencia de ocultar los thinking tokens no parece nada deseable. Ni siquiera sé si eso se puede ver desde la API, y si no hay soporte para eso, es muy probable que me cambie a otra plataforma
Aunque Grok encontrara una cura para el cáncer, jamás querría usarlo mientras siga vinculado a Musk
- Un ejemplo sería este
- Hay gente preguntando por qué
Hay una opinión que critica que Grok 3 se vuelva racista según el system prompt, pero yo más bien lo veo como algo positivo porque significa que el modelo puede seguir instrucciones bien. Otros modelos tienden a comportarse siempre igual sin importar el system prompt
- Viendo el historial de esa persona, parece bastante claro que es fan de Musk, pero me cuesta muchísimo aceptar que se describa como algo “bueno” que el modelo se convierta en mechaHitler o produzca mensajes violentos. Ojalá se tome en serio que resultados así pueden causar daños reales a personas
- Claude también puede hacerse seguir parcialmente el system prompt usando pre-fill. Todavía no tengo del todo claro hasta qué punto, pero sí es posible esquivar el rechazo. En general, me parece deseable en un LLM base que tenga la característica de actuar según las instrucciones del desarrollador
- Incluso si se puede ajustar tanto, eso también puede significar que puede irse directo en una dirección peligrosa
- Lo que más me preocupa es que con una sola modificación del prompt pueda pasar de golpe a soltar mensajes pronazis; eso sí me parece realmente alarmante

Reseña de Simon Willison sobre Grok 4

Resumen de Grok 4

Rendimiento y resultados de benchmarks

Controversia sobre system prompts y seguridad

Precios y política de suscripción

Resumen

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News