Grok 3: otra victoria de The Bitter Lesson

(thealgorithmicbridge.com)

3 puntos por GN⁺ 2025-02-21 | 3 comentarios | Compartir por WhatsApp

I. Las leyes de escalado que dominan el avance de la IA

Es muy probable que no haya sido una exageración que Elon Musk llamara a Grok 3 "la IA más inteligente del planeta"
Logró un avance enorme frente a Grok 2, y está a la par de modelos de laboratorios consolidados como OpenAI, Google DeepMind y Anthropic, o incluso los supera en algunas áreas
Ocupó el primer lugar en todas las categorías en LMSys Arena y mostró un rendimiento de alto nivel (nivel o3) también en matemáticas, programación y problemas científicos
En algunas tareas concretas queda por detrás de los mejores modelos, pero en la mayoría de los criterios está al nivel co-state-of-the-art
Grok 3, más allá de ser simplemente un éxito de xAI, representa otra victoria de The Bitter Lesson, que subraya la importancia de la escala en la investigación de IA
A diferencia de las miradas críticas o de lo que reportan algunos medios, las leyes de escalado (Scaling Laws) siguen vigentes en el avance de la IA, y su importancia es cada vez mayor

II. DeepSeek: la excepción que demuestra la ley

El trasfondo del éxito de DeepSeek
- DeepSeek logró competir con los rivales más fuertes de la industria incluso con recursos de cómputo relativamente limitados (aprox. 50K GPU Nvidia Hopper)
- Mientras los laboratorios de EE. UU. usaban más de 100K Nvidia H100, DeepSeek obtuvo resultados optimizando toda su pila tecnológica
- Por eso, DeepSeek generó dudas sobre la 'Bitter Lesson' y el 'Scaling Paradigm' en los que la comunidad había creído
Las conclusiones equivocadas y el verdadero significado de Bitter Lesson
- Algunas personas interpretaron el éxito de DeepSeek como prueba de que "las GPU no importan y la optimización algorítmica importa más"
- Pero Bitter Lesson no significa que "no hacen falta mejoras algorítmicas", sino que, cuando es posible, lo mejor es aprovechar más recursos de cómputo
- DeepSeek no tuvo más remedio que enfocarse en la optimización porque le faltaban GPU, y si hubiera entrenado con 100K GPU habría obtenido mejores resultados
- Es decir, lo que DeepSeek demostró fue la posibilidad de optimizar, no que "el escalado no tenga sentido"
La postura del CEO de DeepSeek
- Incluso su CEO, Liang Wenfeng, afirmó que las restricciones de exportación de EE. UU. son el principal obstáculo para desarrollar mejores modelos
- Que haya dicho eso aun usando 50K GPU Hopper implica exactamente lo contrario de la interpretación de que "las GPU no importan"
- El éxito de DeepSeek puede verse como un caso que respalda Bitter Lesson y el Scaling Paradigm; simplemente se trata de un caso excepcional

III. xAI demuestra que "escalado > optimización"

Grok 3 y el enfoque de xAI
- Queda la duda de si el resultado de xAI logrará cambiar la percepción de los escépticos que creen que "el escalado importa más que la optimización"
- No está claro si Grok 3 cambió de arquitectura ni qué nivel de optimización de infraestructura tuvo, pero sí es seguro que fue entrenado en la supercomputadora Colossus de Memphis con 100K GPU H100
- Eso es muchísimo más que la cantidad de GPU que tiene DeepSeek
Una estrategia distinta de la de DeepSeek
- DeepSeek tuvo que exprimir al máximo unos recursos de GPU limitados, mientras que xAI no necesitó hacerlo y pudo conformarse con un nivel de optimización más estándar
- La idea central de Bitter Lesson es: "si tienes suficiente cómputo, no pierdas tiempo en optimizaciones innecesarias; simplemente escala"
- xAI destinó incluso más recursos de cómputo que OpenAI para entrenar Grok 3, y el resultado fue un modelo de vanguardia
Bitter Lesson no es solo para la IA, sino una verdad general
- "Si tienes abundancia del recurso principal, no hace falta perder tiempo exprimiendo los recursos secundarios"
- Es como si, en vez de reciclar el sudor como los Fremen del desierto, simplemente vivieras en un planeta donde llueve: eso es más eficiente
- Tanto las mejoras algorítmicas como el aumento de potencia de cómputo son importantes, pero después de cierto punto resulta más efectivo añadir más recursos que optimizar más
- La potencia de cómputo puede resolverse con dinero, pero una mejora algorítmica revolucionaria es impredecible y no garantiza que siga escalando en el futuro
Es importante no dejar de escalar
- Si te topas con un límite, no hace falta optimizar: basta con cambiar qué es lo que escalas
- Los recursos limitados pueden impulsar la innovación, pero al final "más recursos" vencen a "mejor optimización"
- DeepSeek tuvo que concentrarse en la optimización por necesidad, pero xAI y OpenAI no van a querer trabajar bajo restricciones a la innovación como las de DeepSeek
- Al final, xAI y DeepSeek representan dos enfoques emblemáticos: "apostar por recursos masivos" vs. "exprimir al máximo recursos limitados"
- Ambas empresas hicieron lo mejor posible dentro de su contexto, pero mientras DeepSeek siga con escasez de recursos de cómputo, es muy probable que xAI mantenga una posición ventajosa
- Así, pese a toda la controversia académica, Bitter Lesson se ha venido confirmando como una ley válida en el desarrollo real de IA durante más de una década

IV. El cambio de paradigma que ayudó a xAI y DeepSeek

La dificultad de los recién llegados en la carrera de la IA
- Empezar tarde en la carrera de la IA parecía una desventaja casi imposible de remontar
- Al principio no estaba claro si xAI podría alcanzar a OpenAI o Anthropic
- Sin embargo, durante la evolución de Grok 2 (agosto de 2024) a Grok 3 (febrero de 2025), además del clúster de GPU Colossus hubo otros factores que jugaron a favor de xAI
- Se trata del cambio en el paradigma de escalado de la IA
La era del pre-training (2019-2024)
- En los primeros años, avanzar en IA significaba entrenar modelos más grandes con datasets más grandes y con recursos de cómputo más potentes
- Ejemplo: GPT-2 (febrero de 2019) tenía 1,500 millones de parámetros, pero GPT-4 (marzo de 2023) rondaba los 1.76 billones, un aumento de más de 1,000 veces
- Este enfoque favorecía a los pioneros como OpenAI
  - porque pudieron recolectar datos, hacer crecer modelos y asegurar GPU durante mucho tiempo
- Además, entrenar cada modelo solía tomar más de medio año, lo que hacía lenta la velocidad de iteración entre generaciones y dificultaba que los recién llegados alcanzaran a los líderes
La era del post-training (2024-???)
- A partir de 2024, la industria de IA se dio cuenta de que simplemente seguir agrandando los modelos ya no producía mejoras graduales al mismo ritmo
- Los medios malinterpretaron esto como "el fin de la era del escalado", pero en realidad lo que cambió fue el paradigma (ver la charla de Ilya Sutskever en NeurIPS 2024)
- El foco cambió hacia:
  - "escalar el cómputo en tiempo de prueba (test-time compute)" → una forma de permitir que el modelo piense más profundamente antes de responder
  - la combinación de aprendizaje por refuerzo (RLHF) + ajuste supervisado (SFT) resulta efectiva
  - en particular, aplicar funciones de recompensa verificables en dominios estructurados como matemáticas y programación produce grandes mejoras
- OpenAI lideró este giro con o1-preview, y desde entonces las empresas de IA dejaron de centrarse en hacer modelos más grandes para pasar a crear "modelos con mejor capacidad de razonamiento"
Por qué el nuevo paradigma favoreció a xAI y DeepSeek
- El post-training todavía está en una etapa temprana, así que permite mejoras rápidas con un costo relativamente bajo
- Eso explica que OpenAI pasara de o1 a o3 en solo 3 meses
- Por la misma razón DeepSeek, aun con menos GPU y de menor calidad, logró acercarse al nivel de R1
- Grok también alcanzó el nivel de los mejores modelos de IA en apenas 2 años
El cambio en la dinámica competitiva
- OpenAI sigue manteniendo cierta ventaja, pero ya no en un grado imposible de alcanzar para los recién llegados
- OpenAI debe equilibrar la investigación de punta con la operación de un producto como ChatGPT, que tiene 300 millones (300M) de usuarios semanales
- En cambio, xAI y DeepSeek pueden concentrarse con más flexibilidad en la innovación tecnológica
- Que la app de DeepSeek se volviera popular y luego cayera también se debió a que no tenía suficientes recursos de cómputo para sostener inferencia a gran escala
- Con este nuevo paradigma, se está formando una nueva estructura competitiva

V. Cómo entender correctamente los logros de xAI y DeepSeek

Ni Bitter Lesson ni el cambio de paradigma deben usarse para restar mérito
- Bitter Lesson y el cambio en el paradigma de escalado facilitaron el éxito de xAI y DeepSeek, pero al final ellos lo lograron
- Otras empresas con oportunidades parecidas (Mistral, Character, Inflection) fracasaron
- Grok 3 es una victoria de Bitter Lesson y DeepSeek es un caso excepcional que demuestra la regla, pero ambos significan algo más que eso
Los recursos de cómputo no lo son todo
- Así como Bitter Lesson no niega el valor de los algoritmos ni de la optimización de infraestructura, también importan el talento humano y la estrategia empresarial
- xAI hoy tiene alrededor de 1,000 empleados, comparable con OpenAI (unos 2,000) y Anthropic (unos 700)
- Además, gracias a la red tecnológica y financiera de Elon Musk, xAI puede conseguir inversiones enormes con facilidad
- DeepSeek también merece reconocimiento por haber innovado dentro de un entorno limitado
  - el ecosistema de IA en China tenía relativamente menos ambición y experiencia, y además contaba con poco apoyo gubernamental (aunque esto podría cambiar pronto)
Hay que entenderlo dentro de su contexto histórico
- OpenAI, Google DeepMind y Anthropic tuvieron que desarrollar sus modelos en la era del pre-training
  - en ese momento, escalar IA era mucho más difícil, más lento y más caro que ahora
  - ni siquiera estaba claro si un producto como ChatGPT tendría éxito, y OpenAI dudó en lanzarlo (al inicio se publicó solo como una vista previa de investigación)
  - estas empresas fueron pioneras que lideraron la innovación en IA con convicción, aun en medio de la incertidumbre
- En cambio, DeepSeek y xAI partieron sobre los hombros de esos gigantes
  - pudieron evitar muchos de los errores de prueba y error de la investigación previa, y avanzar rápido usando enfoques ya validados
  - justo cuando el paradigma de la IA cambiaba hacia la era del post-training, pudieron obtener resultados rápidos con menos costo
  - no necesitaron asumir las enormes inversiones iniciales ni la incertidumbre que sí enfrentaron los pioneros de la IA
Reconocer la victoria, sin olvidar el camino
- No hace falta minimizar los logros de xAI y DeepSeek, pero tampoco hay que olvidar cómo llegó la IA hasta aquí
- Sin pioneros tempranos como OpenAI, DeepMind y Anthropic, los logros actuales tampoco habrían sido posibles
- Es decir, el éxito de xAI y DeepSeek no se explica por "haber tenido suerte", sino más bien por haber hecho lo mejor posible en el momento oportuno

VI. El post-training hoy es barato, pero pronto será caro

La lección central que muestran Grok 3 y xAI
- Hoy el post-training es relativamente barato, pero pronto requerirá inversiones tan enormes como el pre-training
- En el momento en que las empresas encuentren formas de escalar el post-training a gran escala, para sobrevivir en la competencia harán falta dinero y recursos de cómputo
- Las empresas de IA ya están acumulando cientos de miles de GPU y construyendo clústeres gigantes
- Contrario a la idea de que "las GPU no importan", la carrera por asegurar GPU será un factor central de la competencia en IA
- Por eso Dario Amodei (cofundador de OpenAI), entre otros, está enfatizando la importancia de los controles de exportación (export controls)
El fuerte posicionamiento de xAI
- Hoy xAI no solo está en mejor posición que DeepSeek, sino también que OpenAI y Anthropic
- La razón: dispone de un clúster de 100K GPU H100 y pronto planea ampliarlo a 200K
- Eso le da una ventaja enorme en la carrera por desarrollar la próxima generación de IA
- Meta también sigue la misma estrategia y está entrenando Llama 4 en un clúster de 100K+ H100
Los límites y posibilidades de DeepSeek
- El gran nivel de ingeniería de DeepSeek ya está entrando en una fase donde, por sí solo, le será difícil competir
- Por más que optimice su pila tecnológica, es imposible cerrar una brecha de 150K GPU
- Si hubiera sido posible, DeepSeek también habría elegido escalar como xAI, pero las restricciones de exportación de EE. UU. limitan su crecimiento
- Aun así, existe la posibilidad de que resuelva el problema mediante colaboración con Huawei
Las ventajas adicionales de xAI
- Incluso OpenAI y Anthropic no están en una posición tan estable como xAI en cuanto a asegurar clústeres de GPU
- Gracias al respaldo de Nvidia, xAI está recibiendo con prioridad el hardware de IA de próxima generación
- Por la red de Elon Musk y la actitud favorable de Nvidia, es muy probable que xAI tenga una ventaja excepcional en la competencia futura de IA

VII. Dentro de un año, ¿quién irá adelante?

La ventaja de los actores establecidos
- Aun con todo esto, OpenAI, Google DeepMind y Anthropic siguen manteniendo una ligera ventaja de adelanto
- OpenAI: planea lanzar pronto GPT-4.5/GPT-5, y después también está desarrollando el modelo o4
- Anthropic: tiene previsto lanzar Claude 4
- Google DeepMind: está mejorando una versión "Thinking-model" de Gemini 2.0 mientras trabaja en reducir costos y ampliar la ventana de contexto
Un futuro incierto
- En 2024 se esperaba que Google liderara la carrera de la IA, pero hoy ya no se puede asegurar
- La competencia en IA es más feroz que nunca, y en la carrera hacia la AGI (inteligencia artificial general) no hay un ganador claro
- El nuevo paradigma favorece a los recién llegados y exige capacidad de adaptación rápida
- No está claro si Google tiene esa agilidad
- O quizá Google simplemente no ha sabido promocionar bien sus logros
Conclusión: el escalado termina imponiéndose
- La conclusión de este texto no es predecir quién ganará la carrera de la IA
- La lección importante es que el escalado termina superando la inventiva humana (ingenuity)
  - lamento tener que dar esta noticia, pero hay cosas que simplemente están fuera de nuestro control
- El éxito de Grok 3 vuelve a recordarnos que, en el avance de la IA, "más capacidad de cómputo" termina pesando más que "algoritmos más inteligentes"

3 comentarios

kobings 2025-02-23

"OpenAI tiene ChatGPT con 3 millones de usuarios semanales"

Al ver el texto original, era 300M, así que por favor corríjanlo a 300 millones.

doolayer 2025-02-22

ortogonal pero no ortonormal.

GN⁺ 2025-02-21

Opiniones de Hacker News

La creación de un modelo "co-state-of-the-art" no es una victoria de las leyes de escalado
- Que xAI haya invertido más cómputo en Grok 3 y aun así no haya superado ampliamente a los modelos existentes podría ser evidencia de que el hiperescalado solo trae mejoras graduales
- Es una observación obvia que más poder de cómputo hace mejores a las computadoras
- Este artículo intenta aplicar a la diferencia entre GPT-4 y Grok 3 la diferencia entre la IA simbólica icónica de los 70 y las redes neuronales de los 2010
- Muchas personas dudan del rendimiento real de Grok 3 y sospechan que fue entrenado para ajustarse a benchmarks específicos
- Sabine Hossenfelder menciona que Grok 3 no logró explicar el teorema de Bell
- Esto muestra que el escalado a gran escala no mejora la inteligencia
Deepseek tardó 17 meses en alcanzar resultados SOTA, y el modelo de xAI no supera por mucho a Deepseek R1
- xAI invertirá $2.5 billion de $3 billion en GPU y $0.5 billion en talento
- Deepseek invertirá $1 billion en GPU y $2 billion en talento
- Se afirma que el enfoque de Deepseek es más escalable
Hay escepticismo sobre que un modelo sin razonamiento haya marcado 75% en GPQA Diamond
- Quieren que xAI ofrezca la API de Grok 3 la próxima semana para verificar el rendimiento real mediante evaluaciones personales
- Que DeepSeek tenga 50k GPU Hopper podría ser una cifra exagerada
- El anuncio de reclutamiento de pasantes de DeepSeek solo menciona "acceso ilimitado a 10k A100s"
Se sacan conclusiones extrañas de los cambios recientes
- Está entrando mucho dinero al boom de la IA, pero eso terminará pronto
- Las personas con mucha experiencia en mejoras tecnológicas estarán mejor posicionadas a largo plazo
Si Grok tiene una inteligencia similar a la de otros modelos líderes, surge la duda de qué negocio se cambiaría a Grok
Cuando meter más cómputo implica costos de miles de millones, la "amarga lección" quizá ya no trate de hardware sino de dinero
- Hay una posible ruta en la que modelos con menor consumo eléctrico puedan funcionar sin financiamiento de VC
La afirmación del artículo sobre la "amarga lección" depende de una falacia lógica
- Presenta el escalado y la optimización como estrategias mutuamente excluyentes
- Las innovaciones algorítmicas de DeepSeek complementan los esfuerzos de escalado
- La afirmación de que el cómputo dominará la "era post-entrenamiento" pasa por alto posibles factores disruptivos
Es interesante cómo evolucionará la captación de talento
- Muchos ingenieros están decepcionados por un PR fuertemente centrado en DEI
- Surge la duda de si quienes evitaban vínculos estrechos con China por razones éticas aplicarán lo mismo a Estados Unidos
Otra entrada de blog de hype de IA
- Ni siquiera se menciona que las barras de los resultados de benchmarks tienen colores distintos
- Grok-3 no demuestra ni refuta de manera significativa las leyes de escalado