Explicación de R1 y de todo lo demás

(timkellogg.me)

41 puntos por GN⁺ 2025-01-27 | 9 comentarios | Compartir por WhatsApp

Un repaso del estado actual para entender a R1, que apareció de la nada, y también o1, o3 y otros cambios que están avanzando rápidamente

Cronología

12 de septiembre de 2024: lanzamiento de o1-preview
5 de diciembre de 2024: lanzamiento de la versión oficial de o1 y de o1-pro
20 de diciembre de 2024: anuncio de o3 (superó ARC-AGI y llamó la atención como “AGI”)
26 de diciembre de 2024: lanzamiento de DeepSeek V3
20 de enero de 2025: lanzamiento de DeepSeek R1 (rendimiento similar a o1, pero open source)
25 de enero de 2025: un equipo de investigación de la Universidad de Hong Kong logró replicar los resultados de R1
25 de enero de 2025: en Huggingface se anunció el proyecto completamente open source open-r1, que replicó R1
Para dejarlo claro
- o1, o3 y R1 son todos modelos de razonamiento (Reasoning)
- DeepSeek V3 es un LLM (modelo base), y los modelos de razonamiento se crean ajustándolo con fine-tuning
- ARC-AGI-1 es la evaluación más simple y básica de la inteligencia fluida (fluid intelligence). Reprobarla significa ser casi totalmente incapaz de adaptarse o resolver problemas en situaciones desconocidas

# Reasoning & Agents

Los modelos de razonamiento != Agents

Un modelo de razonamiento (Reasoning) es un modelo que pasa por un proceso de “pensamiento” antes de generar una respuesta
- Un LLM “piensa” generando tokens
- Por eso estamos entrenando modelos para que generen muchísimos tokens con la esperanza de que encuentren la respuesta correcta
Un agente de IA (Agent) se define por dos cosas
- Autonomía (agency) para tomar decisiones y completar tareas
- Capacidad de interactuar (Interact) con el mundo exterior
Ni un LLM ni un modelo de razonamiento por sí solos pueden hacer esas dos cosas, porque solo generan tokens
- Para tomar decisiones reales y ofrecer capacidad de interacción, se necesita software
Un agente es un sistema de IAs. Es una combinación de varios modelos y software para interactuar con el mundo de forma autónoma. Lo mismo aplica al hardware.

El razonamiento es importante

La razón por la que los modelos de razonamiento se confunden con agentes es que en este momento el razonamiento es el cuello de botella
Para planear tareas, supervisar, verificar y volverse más inteligente, la capacidad de razonamiento es esencial
No se pueden crear agentes sin capacidad de razonamiento, pero cuando los benchmarks de razonamiento lleguen a un punto de saturación, aparecerán nuevos retos

El razonamiento tiene que volverse más barato

Los agentes funcionan desde horas hasta días, o incluso 24/7 sin descanso
Esa es la esencia de actuar de forma autónoma, y por eso el costo aumenta
Por ahora, R1 es aproximadamente 30 veces más barato que o1 y ofrece un rendimiento similar

# Por qué R1 es importante

Es importante porque es barato, open source y ha demostrado un rendimiento comparable al de o1 y o3
Con base en la documentación publicada ya existían algunas predicciones sobre cómo funcionaba o1, y el paper público de R1 confirma casi por completo todo eso. Así que ahora entendemos cómo o1 escala hacia o3 y o4
Además, como es open source, cualquiera en el mundo puede ponerlo en práctica con sus propias ideas
Basta con ver la cronología de la última semana de la gente que ha intentado reimplementarlo (algunos incluso dicen haberlo hecho con $30)
La innovación ocurre cuando se puede iterar rápido y barato, y R1 creó ese entorno
Lo más importante es que R1 mostró que se puede lograr buen rendimiento de razonamiento con un enfoque simple de RL, en lugar de ideas complejas como DPO o MCTS

# Tendencias del avance de la IA

El pretraining está llegando a sus límites de escalado

Desde GPT-4, empezó a verse que la antigua “ley de escalado”, basada en simplemente aumentar grandes volúmenes de datos y recursos de cómputo, tiene límites
Se considera que, por los problemas para conseguir datos y por los nuevos métodos de razonamiento, ya es difícil lograr grandes mejoras solo con el enfoque anterior

Ley de escalado en tiempo de inferencia (Inference Time)

Los modelos de razonamiento como o1 y r1 tienden a mejorar su rendimiento “mientras más tiempo piensan”
Pero no estaba claro exactamente cómo había que hacer más cómputo para obtener mejores resultados
La suposición ingenua era que la cadena de pensamiento (CoT) podía funcionar, y que bastaba con entrenar al modelo para hacer CoT
El problema es cómo encontrar de forma eficiente la ruta más rápida hacia la solución
- Entropix es una idea para eso: usa señales internas del modelo para encontrar la ruta más eficiente
- También existían métodos como Monte Carlo Tree Search (MCTS), que generan muchas rutas pero al final eligen solo una
Resultó que CoT era lo mejor
- R1 usa una cadena de pensamiento (CoT) simple de una sola línea a la que se le aplica RL
- Probablemente se puede asumir que o1 también está haciendo lo mismo

Modelos reducidos (Down-Sized Models)

Todo empezó con GPT-4-turbo, luego siguió con GPT-4o, la serie Claude y otros LLM. Todos se fueron volviendo más pequeños y más baratos a lo largo de 2024
Como para razonar hay que generar muchos tokens, mientras más pequeño sea el modelo, más rápido se calcula y más eficiente se vuelve
“Modelo más pequeño = más inteligente”

Aprendizaje por refuerzo (Reinforcement Learning)

R1 entrenó al modelo para hacer CoT en tiempo de razonamiento usando un enfoque simple de RL llamado GRPO (Group Rewards Policy Optimization)
No se necesitan verificadores complejos ni un LLM externo. Basta con RL y una función de recompensa básica sobre exactitud y formato de salida
R1-Zero es la versión de R1 de DeepSeek que solo maneja GRPO y no incorpora otras funciones
- Tiene más exactitud que R1, pero cambia libremente entre varios idiomas como inglés y chino, así que en general no es adecuado para usuarios comunes que no sean multilingües
¿Por qué R1-Zero salta entre idiomas?
- Mi opinión es que “cada idioma expresa mejor ciertos tipos de conceptos”
- Existe el meme de “what’s the german word for [paragraph of text]?”
Al 25 de enero de 2025, alguien ya demostró que “cualquier RL funciona”
- Se probaron GRPO, PPO y PRIME, y todos funcionaron bien
- El número mágico es 1.5B. Cuando los parámetros del modelo llegan a 1.5B (1,500 millones) o más, la capacidad de razonamiento emerge sin importar qué técnica de RL se aplique
¿Hasta dónde escalará esto?

Destilación de modelos (Model Distillation)

R1 fue destilado (distilled) a partir de checkpoints previos de sí mismo
La destilación consiste en que un modelo maestro (teacher) genera datos de entrenamiento para un modelo estudiante, y por lo general se asume que el maestro es más grande que el estudiante
- R1 usó checkpoints previos del mismo modelo para generar datos de entrenamiento para ajuste fino supervisado (SFT)
- Mejoró el modelo repitiendo SFT y RL
¿Hasta dónde puede llegar esto?
Hace mucho tiempo (hace 9 días) existía la predicción de que GPT5 ya existe y que GPT4o no es más que una versión destilada de este
- Este artículo plantea la teoría de que OpenAI y Anthropic entrenan modelos grandes, luego los destilan, y después usan esos modelos destilados para crear modelos aún más grandes, repitiendo ese ciclo
- Me gustaría decir que el paper de R1 confirma en términos generales que esto es posible (y por tanto, es probable que realmente esté ocurriendo)
Entonces esto podría continuar durante muchísimo tiempo
Nota: algunos experimentos sugieren que el modelo estudiante podría superar al maestro. No está claro con qué frecuencia ocurre eso en la práctica
- Intuitivamente, la destilación podría ayudar al estudiante a encontrar la señal y converger más rápido
- El Model collapse sigue siendo la mayor preocupación, pero parece ser en gran parte un miedo innecesario
- El colapso del modelo ciertamente siempre es posible, pero nunca está garantizado, y también puede pasar lo contrario: que el estudiante supere al maestro

# Perspectivas para 2025

Situación actual:
- El pretraining está difícil (pero no muerto)
- Escalado del razonamiento
- Reducción del tamaño de los modelos
- Ley de escalado de RL
- Ley de escalado mediante destilación de modelos
No parece que la velocidad del avance de la IA se esté frenando. Una ley de escalado se desaceleró y aparecieron cuatro más
Esta tendencia seguirá acelerándose por un tiempo

Tema geopolítico: Distealing

“Distealing” es una palabra que inventé para referirme a “destilar sin permiso” un modelo
Ahora el software es política, y la IA está en el centro de eso
- Parece que la IA ya se está considerando en casi todos los ejes políticos, y lo más interesante es China vs. Estados Unidos
Estrategias
- Estados Unidos: financiamiento masivo. Echarle dinero al fuego de la IA lo más rápido posible
- China: por las duras restricciones de exportación, movilizar ingenieros e investigadores más capaces para encontrar soluciones más baratas
- Europa: regulación o IA open source, cualquiera de las dos está bien
Hay controversia sobre si DeepSeek hizo una destilación no autorizada (“distealing”) de o1, pero al considerar las réplicas de R1, hoy parece más probable que R1 haya sido desarrollado de forma independiente
- Aun así, hay tensión por el hecho de que un laboratorio chino superó a gran velocidad al mejor modelo de OpenAI
La IA pronto (si no es que ya) mejorará sus capacidades a un ritmo exponencial
- El impacto político y geopolítico será enorme
- Más bien, quienes trabajan en inteligencia artificial deberían prestar más atención a la política y mantener una mente abierta sobre qué políticas son buenas o malas

Conclusión

Lo más importante es que R1 aclara partes que antes eran opacas
Por eso, el futuro de la IA ahora es más claro, y su velocidad parece estar acelerándose rápidamente

9 comentarios

xguru 2025-02-02

mammal 2025-01-27

Como es distilling, a estas alturas no tiene mucho sentido regañarlo, porque ya desde la era inicial de LLaMA 1 existían modelos como Alpaca y Vicuna destilados de GPT, y hoy en día no hay ningún frontier lab que no entrene también con salidas de otros modelos.

En la práctica, la mayoría de los modelos frontier actuales son básicamente genes endogámicos destilados de GPT, a los que luego se les aplica RLHF según el gusto de cada laboratorio.

mammal 2025-01-27

Lo que más debería preocuparnos ahora no es la destilación no autorizada de China ni la censura,

Sino que resulta impactante que MLA, MTP, mixed precision framework y GRPO, que son la base de la eficiencia brutal de DeepSeek, hayan sido desarrollados únicamente por graduados 100% de universidades chinas.

En Estados Unidos incluso ya se está hablando de un segundo shock de Sputnik...

luminance 2025-01-27

¿No quisiste escribir distilling en lugar de distealing?

grogu 2025-01-27

Parece que el autor inventó la palabra distealing para distinguir la destilación no autorizada de distilling, que significa destilación, y como una especie de juego de palabras porque suenan igual (esto se menciona en el texto).

luminance 2025-01-27

Gracias por la explicación.

savvykang 2025-01-27

> Geopolítica: distealing
> Problema geopolítico: distealing

> Yo acuñé ese término, distealing, para la destilación no autorizada de modelos. Adelante, úsalo, es una palabra divertida.
> "Distealing" es una palabra que inventé para la "destilación no autorizada" de modelos

luminance 2025-01-27

Ah, sí había contenido en el original. Gracias.

GN⁺ 2025-01-27

Comentarios en Hacker News

Respecto a la afirmación de que R1 reemplazó ideas complejas con aprendizaje por refuerzo simple, en realidad usó una mezcla de aprendizaje por refuerzo y aprendizaje supervisado. Es posible que los datos usados en el aprendizaje supervisado no hayan sido generados por el modelo, sino seleccionados por humanos
- Hay intentos de reproducir R1, y algunos afirman que puede hacerse con $30, pero eso podría referirse no a R1 en sí, sino al ajuste fino de R1
- Hugging Face está intentando reproducir R1, pero es una tarea bastante grande y no algo que pueda resolverse con $30
El artículo tiene mucho contenido exagerado, por lo que cuesta confiar en él
- Los benchmarks de varios modelos se enfocan en precisión matemática y de programación, pero en ciertos casos de uso esas capacidades no son importantes. Es difícil medir conceptos con benchmarks
- Se plantea la pregunta de si es posible crear, mediante destilación, un modelo al que se le eliminen los componentes de matemáticas y programación
La aparición de R1 en las noticias principales generó confusión y alarma. Es difícil explicar que China no representa una amenaza para Estados Unidos
- Sobre la conclusión de que las capacidades de la IA aumentarán exponencialmente, el único dato disponible es que R1, como modelo de código abierto, alcanzó un nivel similar a o1. Son dos temas muy poco relacionados entre sí
Se plantea la pregunta de si la IA ya está razonando
- ARC-AGI es un benchmark sencillo para los humanos, pero muy difícil para la IA. Existe el malentendido de que resolverlo significa que la IA puede hacer lo mismo que los humanos
- François Chollet, creador de ARC-AGI, explica cuán simple era ARC-AGI-1 y qué significa resolverlo
- Superar ARC-AGI-1 indica que un sistema posee inteligencia fluida distinta de cero, pero no señala su nivel de inteligencia ni qué tan cerca está de la inteligencia humana
La conclusión de que las capacidades de la IA pronto aumentarán exponencialmente carece de fundamento. Sería bueno saber cómo llegó el autor a esa conclusión

Explicación de R1 y de todo lo demás

Cronología

# Reasoning & Agents

Los modelos de razonamiento != Agents

El razonamiento es importante

El razonamiento tiene que volverse más barato

# Por qué R1 es importante

# Tendencias del avance de la IA

El pretraining está llegando a sus límites de escalado

Ley de escalado en tiempo de inferencia (Inference Time)

Modelos reducidos (Down-Sized Models)

Aprendizaje por refuerzo (Reinforcement Learning)

Destilación de modelos (Model Distillation)

# Perspectivas para 2025

Tema geopolítico: Distealing

Conclusión

Lecturas relacionadas

9 comentarios

Comentarios en Hacker News