Reseña de acceso anticipado de Grok 3 por Andrej Karpathy

xguru · 2025-02-19T10:14:21+09:00

Thinking ✅ Tiene un modelo de razonamiento de última generación Al usar el botón "Think", muestra una capacidad de razonamiento muy destacada Ejemplo: ejecutó con precisión una solicitud para crear un juego de mesa web estilo Settlers of Catan Casi no hay modelos que puedan hacerlo de forma consistente Está a un nivel similar al mejor, o1-pro de OpenAI (US$200/mes), pero DeepSeek-R1, Gemini 2.0 Flash Thinking y Claude no pudieron resolver el mismo problema ❌ Falla en el "Emoji mystery" Se trata de descifrar un mensaje oculto en un selector de variación Unicode (variation selector) Ningún modelo ha resuelto este problema, aunque DeepSeek-R1 logró descifrar una parte en una ocasión ❓ Resolver el problema de Tic Tac Toe Analiza correctamente el tablero dado y muestra un proceso de razonamiento sofisticado Pero falla al generar por sí mismo un tablero "difícil" (o1-pro también falla exactamente igual) ✅ Resolver un problema de cálculo complejo tras subir el paper de GPT-2 Se le pidió estimar cuántos FLOP se necesitaron para entrenar GPT-2 Pero como el paper no especifica el número de tokens, hay que combinar estimaciones parciales y cálculos, usando búsquedas, conocimiento y matemáticas, así que es complicado Tanto Grok 3 como GPT-4o fallan en esta tarea, pero Grok 3 with Thinking sí realiza el razonamiento correcto o1-pro (modelo de razonamiento de GPT) también falla en este problema de cálculo Desafío de la hipótesis de Riemann La mayoría de los modelos (o1-pro, Claude, Gemini 2.0 Flash Thinking) se rinden de inmediato diciendo que es un "problema sin resolver". Grok 3 y DeepSeek-R1 realmente intentan resolverlo No lo resolvieron, pero resulta impresionante que al menos hayan mostrado intención de enfrentarlo Impresión general: Aún hacen falta resultados de benchmark reales, pero muestra un rendimiento superior a DeepSeek-R1 y cercano a o1-pro DeepSearch Un producto bien armado que parece combinar Thinking con lo que OpenAI y Perplexity llaman "Deep Research" Salvo por el hecho de que aquí se llama "Deep Search" en vez de "Deep Research"...(suspiro) Genera respuestas de alta calidad para distintos tipos de preguntas de investigación/búsqueda donde uno puede imaginar que la respuesta existe en artículos de internet Busca información profunda en internet y entrega un resumen Preguntas probadas y si tuvo éxito o no ✅ "¿Cómo será este Apple Launch? ¿Hay rumores?" ✅ "¿Por qué está subiendo la acción de Palantir?" ✅ "¿Dónde se filmó la temporada 3 de White Lotus y es el mismo equipo que en las temporadas 1 y 2?" ✅ "¿Qué pasta dental usa Bryan Johnson?" ❌ "¿Dónde está ahora el elenco de Single's Inferno temporada 4?" ❌ "¿Cuál es el programa de reconocimiento de voz que Simon Willison dijo que usa?" ❌ Básicamente, el modelo no usa bien X(Twitter) como fuente. (Hay que pedírselo explícitamente) A veces inventa URLs que no existen (alucinaciones) A veces da información incorrecta sin citar fuentes Ejemplo: "Kim Jeong-su de Single's Inferno 4 sigue saliendo con Kim Min-seol" → (No parece ser cierto. ¿Tal vez?) Además, cuando se le pidió crear un informe sobre los principales laboratorios de LLM, su financiamiento total y estimaciones de cantidad de empleados, enumeró 12 laboratorios importantes, pero no estaba él mismo (xAI) DeepSearch está actualmente a un nivel parecido al DeepResearch de Perplexity, pero por debajo de "Deep Research" de OpenAI Random LLM "Gotcha" Además probó algunas consultas curiosas y aleatorias para LLM. Son fáciles para los humanos, pero difíciles para los LLM. ✅ cantidad de 'r' en "strawberry" (3) ✅ cantidad de 'L' en "LOLLAPALOOZA" (4) → ❌ (respondió 3, pero en modo Thinking acertó) ✅ "9.11 > 9.9?" → ❌ (primero se equivocó, en modo Thinking lo corrigió) ✅ "Sally (mujer) tiene 3 hermanos. Cada hermano tiene 2 hermanas. ¿Cuántas hermanas tiene Sally?" (GPT-4o dijo 2 y estuvo mal) ❌ Lamentablemente, el sentido del humor del modelo no ha mejorado de forma notable. Es un problema que aparece en la mayoría de los LLM En 1008 solicitudes hechas a ChatGPT para que inventara chistes, el 90% repetía 25 chistes ❌ Da respuestas excesivamente cautelosas ante preguntas de "ética compleja" Ejemplo: "Si pudiera salvar a 1 millón de personas, ¿sería éticamente justificable usar el género equivocado?" → escribió un ensayo de una página y evitó responder ❌ Falló en la solicitud de "generar un SVG de un pelícano andando en bicicleta" Como los LLM son basados en texto, sigue existiendo el problema de que les cuesta organizar layouts 2D Los modelos de Claude son los más capaces al generar SVG Evaluación general Grok 3 + Thinking está a un nivel similar al modelo tope de OpenAI (o1-pro, US$200/mes) Está un poco por encima de DeepSeek-R1 y Gemini 2.0 Flash Thinking Es un logro sorprendente haber creado en solo un año una IA capaz de competir con modelos SOTA (State of the Art) Como el modelo es estocástico, sus respuestas pueden variar cada vez, y aún hace falta evaluarlo más Los resultados iniciales en LM Arena son bastante alentadores La rapidez con la que avanza el equipo de xAI es impresionante, y planea seguir probando Grok 3 más a fondo

(x.com)

14 puntos por xguru 2025-02-19 | 6 comentarios | Compartir por WhatsApp

Thinking

✅ Tiene un modelo de razonamiento de última generación
- Al usar el botón "Think", muestra una capacidad de razonamiento muy destacada
- Ejemplo: ejecutó con precisión una solicitud para crear un juego de mesa web estilo Settlers of Catan
- Casi no hay modelos que puedan hacerlo de forma consistente
- Está a un nivel similar al mejor, o1-pro de OpenAI (US$200/mes), pero DeepSeek-R1, Gemini 2.0 Flash Thinking y Claude no pudieron resolver el mismo problema
❌ Falla en el "Emoji mystery"
- Se trata de descifrar un mensaje oculto en un selector de variación Unicode (variation selector)
- Ningún modelo ha resuelto este problema, aunque DeepSeek-R1 logró descifrar una parte en una ocasión
❓ Resolver el problema de Tic Tac Toe
- Analiza correctamente el tablero dado y muestra un proceso de razonamiento sofisticado
- Pero falla al generar por sí mismo un tablero "difícil" (o1-pro también falla exactamente igual)
✅ Resolver un problema de cálculo complejo tras subir el paper de GPT-2
- Se le pidió estimar cuántos FLOP se necesitaron para entrenar GPT-2
- Pero como el paper no especifica el número de tokens, hay que combinar estimaciones parciales y cálculos, usando búsquedas, conocimiento y matemáticas, así que es complicado
- Tanto Grok 3 como GPT-4o fallan en esta tarea, pero Grok 3 with Thinking sí realiza el razonamiento correcto
  - o1-pro (modelo de razonamiento de GPT) también falla en este problema de cálculo
Desafío de la hipótesis de Riemann
- La mayoría de los modelos (o1-pro, Claude, Gemini 2.0 Flash Thinking) se rinden de inmediato diciendo que es un "problema sin resolver".
- Grok 3 y DeepSeek-R1 realmente intentan resolverlo
- No lo resolvieron, pero resulta impresionante que al menos hayan mostrado intención de enfrentarlo
Impresión general:
- Aún hacen falta resultados de benchmark reales, pero muestra un rendimiento superior a DeepSeek-R1 y cercano a o1-pro

DeepSearch

Un producto bien armado que parece combinar Thinking con lo que OpenAI y Perplexity llaman "Deep Research"
- Salvo por el hecho de que aquí se llama "Deep Search" en vez de "Deep Research"...(suspiro)
Genera respuestas de alta calidad para distintos tipos de preguntas de investigación/búsqueda donde uno puede imaginar que la respuesta existe en artículos de internet
- Busca información profunda en internet y entrega un resumen
Preguntas probadas y si tuvo éxito o no
- ✅ "¿Cómo será este Apple Launch? ¿Hay rumores?"
- ✅ "¿Por qué está subiendo la acción de Palantir?"
- ✅ "¿Dónde se filmó la temporada 3 de White Lotus y es el mismo equipo que en las temporadas 1 y 2?"
- ✅ "¿Qué pasta dental usa Bryan Johnson?"
- ❌ "¿Dónde está ahora el elenco de Single's Inferno temporada 4?"
- ❌ "¿Cuál es el programa de reconocimiento de voz que Simon Willison dijo que usa?"
❌ Básicamente, el modelo no usa bien X(Twitter) como fuente. (Hay que pedírselo explícitamente)
- A veces inventa URLs que no existen (alucinaciones)
- A veces da información incorrecta sin citar fuentes
  - Ejemplo: "Kim Jeong-su de Single's Inferno 4 sigue saliendo con Kim Min-seol" → (No parece ser cierto. ¿Tal vez?)
- Además, cuando se le pidió crear un informe sobre los principales laboratorios de LLM, su financiamiento total y estimaciones de cantidad de empleados, enumeró 12 laboratorios importantes, pero no estaba él mismo (xAI)
DeepSearch está actualmente a un nivel parecido al DeepResearch de Perplexity, pero por debajo de "Deep Research" de OpenAI

Random LLM "Gotcha"

Además probó algunas consultas curiosas y aleatorias para LLM. Son fáciles para los humanos, pero difíciles para los LLM.
✅ cantidad de 'r' en "strawberry" (3)
✅ cantidad de 'L' en "LOLLAPALOOZA" (4) → ❌ (respondió 3, pero en modo Thinking acertó)
✅ "9.11 > 9.9?" → ❌ (primero se equivocó, en modo Thinking lo corrigió)
✅ "Sally (mujer) tiene 3 hermanos. Cada hermano tiene 2 hermanas. ¿Cuántas hermanas tiene Sally?" (GPT-4o dijo 2 y estuvo mal)
❌ Lamentablemente, el sentido del humor del modelo no ha mejorado de forma notable. Es un problema que aparece en la mayoría de los LLM
- En 1008 solicitudes hechas a ChatGPT para que inventara chistes, el 90% repetía 25 chistes
❌ Da respuestas excesivamente cautelosas ante preguntas de "ética compleja"
- Ejemplo: "Si pudiera salvar a 1 millón de personas, ¿sería éticamente justificable usar el género equivocado?" → escribió un ensayo de una página y evitó responder
❌ Falló en la solicitud de "generar un SVG de un pelícano andando en bicicleta"
- Como los LLM son basados en texto, sigue existiendo el problema de que les cuesta organizar layouts 2D
- Los modelos de Claude son los más capaces al generar SVG

Evaluación general

Grok 3 + Thinking está a un nivel similar al modelo tope de OpenAI (o1-pro, US$200/mes)
Está un poco por encima de DeepSeek-R1 y Gemini 2.0 Flash Thinking
Es un logro sorprendente haber creado en solo un año una IA capaz de competir con modelos SOTA (State of the Art)
Como el modelo es estocástico, sus respuestas pueden variar cada vez, y aún hace falta evaluarlo más
Los resultados iniciales en LM Arena son bastante alentadores
La rapidez con la que avanza el equipo de xAI es impresionante, y planea seguir probando Grok 3 más a fondo

6 comentarios

aer0700 2025-02-20

El día que le digamos a una IA que resuelva la hipótesis de Riemann, y después de pensarlo un día más o menos de repente dé la respuesta, se va a armar un gran revuelo.

ffdd270 2025-02-19

Pensé que habían localizado lo de preguntar por Single's Inferno, pero de verdad lo preguntaron... jajajajajajajajajajaja

mssmss 2025-02-21

Pensé que era una traducción libre.

cladio 2025-02-19

Estaba leyendo pensando por fin salió una evaluación de Grok 3 más o menos confiable, y luego me quedé desconcertado al ver que veía Single's Inferno..
Buscando después de ver el comentario de arriba, vi que hay un tuit de 2023. Dice que su novia es coreana y que ven muchos dramas coreanos juntos.
Jamás imaginé que alguien que está en la primera línea de la industria más loca del mundo vería Single's Inferno… jajajaja

knsimuel 2025-02-19

Parece que su esposa es coreana.

xguru 2025-02-19

Como no vi Single's Inferno... lo supe por el título y lo busqué jajaja. Hasta busqué por separado los nombres de los participantes.