Análisis de R1-Zero y R1 de DeepSeek

(arcprize.org)

5 puntos por GN⁺ 2025-01-30 | 1 comentarios | Compartir por WhatsApp

ARC Prize Foundation tiene como objetivo definir, medir e impulsar nuevas ideas sobre la AGI (inteligencia artificial general)
Aún no se ha alcanzado la AGI, y escalar el preentrenamiento puro de los LLM (modelos de lenguaje grandes) no es la solución
Mientras que durante 2023-24 se invirtieron alrededor de 20 mil millones de dólares en startups de LLM, solo se invirtieron alrededor de 200 millones de dólares en startups de AGI

Análisis de R1-Zero y R1 de DeepSeek

Los sistemas R1-Zero y R1 presentados por DeepSeek están recibiendo mucha atención porque mostraron resultados cercanos al nivel del sistema o1 de OpenAI
Tanto R1-Zero como R1 registraron puntajes de alrededor de 15~20% en ARC-AGI-1
Es una puntuación mucho más alta en comparación con el 5% obtenido por GPT-4o
Aunque recientemente la corriente principal de la industria de IA se ha centrado en la simple ampliación de los LLM (modelos de lenguaje grandes), se considera que esto no es una solución directa para lograr la AGI
A través del benchmark ARC-AGI-1, ARC Prize Foundation está fomentando la investigación en sistemas de IA que puedan adaptarse incluso sin haber sido entrenados con problemas nuevos

R1-Zero es más importante que R1

Los resultados de investigación de DeepSeek dieron lugar a R1-Zero y R1
R1-Zero, R1 y o1(low compute) de OpenAI registraron puntajes similares de 15~20% en ARC-AGI-1
El sistema o3 que OpenAI dio a conocer a finales de 2024 elevó su puntaje hasta un máximo de 88% en ARC-AGI-1, mostrando que puede resolver problemas nuevos de manera adaptativa
Sin embargo, o3 sigue teniendo muchas partes no públicas, por lo que a los investigadores les resulta difícil entender los detalles técnicos
Se considera que R1-Zero tiene mayor valor a futuro que R1 porque no pasó por etiquetado directo humano (SFT)

R1-Zero elimina el cuello de botella humano

Los modelos de razonamiento existentes aprendían combinando etiquetado humano (SFT) o recompensas de máquina (RL) sobre el proceso de resolución de problemas (Chain-of-Thought, en adelante CoT)
R1-Zero aprende CoT sin SFT, es decir, sin etiquetas de expertos humanos y únicamente con aprendizaje por refuerzo (RL)
En ARC-AGI-1, R1-Zero obtuvo 14% y R1 15%, mostrando un rendimiento casi igual
En otros benchmarks como MATH AIME 2024, los resultados de R1-Zero y R1 también fueron similares
Había preocupaciones sobre mezcla de idiomas o problemas de legibilidad, pero en las pruebas reales funcionó bien en dominios de matemáticas y programación sin una gran incoherencia
Las principales implicaciones obtenidas son las siguientes
- Incluso sin etiquetado humano, es posible un razonamiento preciso y comprensible en dominios específicos
- R1-Zero puede crear por sí mismo una representación de tokens DSL especializada para su propio dominio solo con aprendizaje por refuerzo
- El SFT puede seguir siendo necesario para ampliar el alcance del razonamiento
En última instancia, R1-Zero muestra la posibilidad de escalar un “cuello de botella sin humanos”, en el que puede generar por sí mismo datos de aprendizaje sin depender de personas
A continuación se describe brevemente el puntaje de varios sistemas en ARC-AGI-1, junto con el número promedio de tokens y el costo de inferencia
- r1-zero: 14%, sin SFT, sin búsqueda secuencial de razonamiento, promedio de 11K tokens, costo aprox. $0.11
- r1: 15.8%, con SFT, sin búsqueda secuencial de razonamiento, promedio de 6K tokens, costo aprox. $0.06
- o1(low): 20.5%, con SFT, sin búsqueda secuencial de razonamiento, promedio de 7K tokens, costo aprox. $0.43
- o1(med): 31%, con SFT, sin búsqueda secuencial de razonamiento, promedio de 13K tokens, costo aprox. $0.79
- o1(high): 35%, con SFT, sin búsqueda secuencial de razonamiento, promedio de 22K tokens, costo aprox. $1.31
- o3(low): 75.7%, con SFT, usando búsqueda y muestreo, promedio de 335K tokens, costo aprox. $20
- o3(high): 87.5%, con SFT, usando búsqueda y muestreo, promedio de 57M tokens, costo aprox. $3,400

El costo de la confiabilidad

Una de las grandes corrientes de cambio en el mercado actual de IA es que “si se gasta más, se puede aumentar la precisión y la confiabilidad”
Además, la ponderación se está desplazando del costo de entrenamiento al costo de inferencia
Si se invierten muchos recursos computacionales en la etapa de inferencia, se pueden obtener resultados más precisos y estables
La mayoría de las empresas no han podido introducir automatización a gran escala debido a los problemas de confiabilidad de los sistemas de IA
Se prevé que los avances en el campo de ARC-AGI aumenten la confiabilidad de los agentes de IA, y empresas como Anthropic, OpenAI y Apple también están preparando servicios de tipo agente
Los usuarios tenderán a pagar con gusto más dinero para obtener el nivel de precisión que necesitan
Por lo tanto, se espera que la demanda de inferencia de IA aumente mucho más, lo que llevará a un incremento en la demanda de recursos computacionales

Razonar es aprender

Antes se recopilaban grandes volúmenes de datos o se generaban datos sintéticos a partir de LLM existentes para usarlos en el entrenamiento
Ahora, durante el proceso de inferencia, el usuario o el sistema puede generar realmente nuevos datos válidos
Esto implica un nuevo cambio económico en el que “la inferencia también cumple la función de aprendizaje”
Los modelos de IA con muchos usuarios recopilarán más datos de inferencia, y eso por sí mismo conducirá a mejoras del modelo
Si incluso el proceso de SFT (etiquetado humano) deja de ser necesario, entonces también será posible un aprendizaje eficiente con sistemas que simplemente repitan búsqueda, síntesis y verificación invirtiendo grandes costos

Conclusión

A medida que aumente la demanda de inferencia en los sistemas de IA, parece probable que continúe una reevaluación del mercado
Con la aparición del sistema R1 de código abierto que combina el enfoque CoT con técnicas de búsqueda (search), se espera que más investigadores y desarrolladores puedan poner a prueba los límites y acelerar la innovación
La publicación de R1-Zero y R1 será una gran contribución al desarrollo de la IA a nivel mundial
Varios equipos están mostrando su intención de usar sistemas como R1 con la mira puesta en ARC Prize 2025, por lo que se esperan con interés los resultados futuros
El R1 publicado por DeepSeek recibe una evaluación positiva por haber contribuido al progreso científico al presentar pistas importantes hacia la AGI

1 comentarios

GN⁺ 2025-01-30

Opinión de Hacker News

Es posible que los desarrolladores de sistemas de IA provoquen cambios económicos al generar nuevos datos. Los clientes podrían asumir el costo de generar datos para mejorar la calidad de los modelos
- Sin embargo, existe escepticismo sobre si esos datos realmente son de alta calidad
- Los modelos SOTA actuales siguen estancados en un nivel similar a GPT-4, aunque podrían avanzar más en los próximos 2 o 3 años
- Usar modelos de razonamiento para generar datos y entrenar con ellos a modelos sin razonamiento parece una idea prometedora
- Aun así, no está claro qué tan bien puede incorporarse el razonamiento en los pesos del modelo
- Hay quienes opinan que OpenAI ya debería haber entrenado un nuevo modelo usando datos de entrenamiento de o3
Puede que no sea necesario mejorar el modelo base, y que un modelo general sea suficiente
- Lo importante es bajar el precio de los modelos de razonamiento y mejorar su calidad
El sistema o3 muestra la primera implementación práctica de una computadora que se adapta a problemas nuevos
- Sin embargo, OpenAI anunció que entrenó o3 con un 75% del conjunto público de entrenamiento, y todavía no se ha probado cuánto aporta el rendimiento sobre los datos de ARC-AGI
Aunque se afirma que se elimina el cuello de botella humano, fuera de matemáticas y ciencias de la computación, en la mayoría de los campos es difícil definir recompensas verificables
En la economía de la IA están ocurriendo dos cambios principales
- Se puede pagar más para obtener mayor precisión y confiabilidad
- El costo se está moviendo del entrenamiento a la inferencia
- Esto aumentará la demanda de inferencia y, con ello, la demanda de cómputo
o3 logró 75% en AGI-1, mientras que R1 y o1 se quedaron en 25%
Que gran parte del cómputo se esté moviendo hacia la inferencia tiene un gran impacto en la inversión actual en IA
- Es una mala noticia para NVDA, y las soluciones centradas en inferencia tienen mejor economía
Mike de Baseten dijo que está orgulloso de apoyar este trabajo
R1-Zero muestra un posible régimen de escalado sin cuello de botella humano
- Sin embargo, hay dudas sobre si el enfoque de RL sigue necesitando muchos datos humanos
R1 muestra un rendimiento sobresaliente en relación costo-rendimiento
- Parece prometedor usar R1 como generador de datos para problemas complejos
Se prevé que el futuro de los LLM estará en apps personalizadas e individuales
- Le dices a un agente de IA qué app quieres y cuáles son los requisitos, y construye todo, desde el backend hasta el frontend
- Prueba el software, corrige errores y lo despliega en producción
- Aunque los LLM actuales no son perfectos, ya existen sistemas y flujos de trabajo que ejecutan y compilan código automáticamente, y devuelven los errores al LLM como retroalimentación

Análisis de R1-Zero y R1 de DeepSeek

Análisis de R1-Zero y R1 de DeepSeek

R1-Zero es más importante que R1

R1-Zero elimina el cuello de botella humano

El costo de la confiabilidad

Razonar es aprender

Conclusión

Lecturas relacionadas

1 comentarios

Opinión de Hacker News