S1: ¿un competidor de R1 de $6?
(timkellogg.me)- El nuevo paper publicado el 3 de febrero, "s1: Simple test-time scaling", está dando de qué hablar en el campo de la IA
- El punto importante no es tanto el modelo en sí, sino que sugiere que podría haber un gran avance en el campo de la IA
- Este modelo no alcanza el estado del arte (SOTA), pero es un modelo pequeño que puede ejecutarse incluso en una laptop
- Lo importante es que ayuda a entender cómo funciona esta técnica sin demasiada complejidad
Escalado de razonamiento: "¡Espera!" por mí
- OpenAI presentó una gráfica afirmando que “cuanto más tiempo de razonamiento, mejor rendimiento del LLM”
- Básicamente, un LLM puede rendir mejor si puede "pensar" durante más tiempo
- El problema era cómo controlar que el modelo pudiera alargar ese ‘pensamiento’ antes de responder, y faltaban explicaciones sobre cómo lograrlo
- El paper de s1 explica esta parte en detalle, y resulta interesante
Cuando un LLM "piensa" durante el razonamiento, se entrena para guardar su proceso interno de pensamiento dentro de las etiquetas
<think>y</think>, y para cambiar a un tono seguro y autoritario para la respuesta final cuando aparece</think>
- En el paper de s1 se describe una técnica simple que fuerza la sustitución de
"</think>"por"Wait"para hacer que el modelo ‘reflexione’ por más tiempo- Al eliminar o reemplazar
"</think>", se induce al modelo a seguir pensando - También es posible cortar el razonamiento de forma abrupta insertando
"</think>"de repente
- Al eliminar o reemplazar
- Se estima que modelos como o3-mini-low y o3-mini-high probablemente fueron entrenados para aplicar distintos tiempos promedio de razonamiento
- Probablemente entrenaron 3 modelos, cada uno con un tiempo promedio de pensamiento distinto (medido durante el entrenamiento)
- Al final, el proceso de entrenamiento empieza a codificar ese comportamiento en los pesos del modelo
Relación con Entropix
- La técnica de "Wait" presentada en el paper de s1 no es muy distinta de lo que buscaba Entropix
- Entropix es una técnica que cambia la forma de seleccionar tokens observando la entropía de los logits y la atención, así como la varentropy
- Parece que intentó hacer que el modelo reconsiderara su respuesta mediante tokens como "Wait"
- Se espera que este tipo de enfoque pueda aplicarse tanto en tiempo de inferencia como en tiempo de entrenamiento
Frugalidad extrema de datos
- La razón por la que se afirma que el modelo s1 fue desarrollado por solo 6 dólares es que se entrenó con un modelo pequeño y una cantidad reducida de datos
- El proceso consistió en seleccionar y usar solo los 1K ejemplos más valiosos de un conjunto de 56K
- La conclusión fue que los datos adicionales no mejoraban en absoluto el rendimiento del modelo
- Como es un modelo de 32B, puede ejecutarse incluso en una laptop
- Se usaron 16 NVIDIA H100 durante unos 26 minutos, y se estima que ese costo fue de unos 6 dólares
- Como el costo era bajo, se pudieron probar muchos experimentos (ablations), y de hecho repitieron reentrenamientos completos cambiando ligeramente distintas variables
- Ejemplo: medir directamente qué token era más efectivo entre "Wait" y "Hmm"
- También experimentaron qué partes de los datos de ejemplo clave aportaban la señal más significativa
Implicaciones geopolíticas
- Existe la visión de que la IA está estrechamente vinculada con la seguridad nacional
- De ahí proviene la razón por la que empresas como OpenAI o Anthropic invierten presupuestos enormes
- Aunque han surgido innovaciones para reducir costos como s1, también es importante que con capital masivo se pueden ejecutar muchísimos más intentos al mismo tiempo
- También hay quienes sostienen que se necesita una inversión aún mayor para acelerar todavía más el avance de la IA
Distealing (destilación no autorizada de modelos)
- El dataset de s1 es básicamente el resultado de una destilación usando thought traces de otro modelo (Qwen2.5)
- OpenAI sospecha que DeepSeek destiló sin autorización su modelo o1 para crear el modelo V3
- Sin embargo, en la práctica cada vez es más difícil impedir la destilación
- Unas 1,000 muestras son una cantidad que una persona individual puede recolectar sin problema
- También parece que la razón por la que OpenAI publicó recientemente su modelo o3 en forma de agente en vez de distribuirlo directamente fue un intento por evitar este tipo de destilación no autorizada
Conclusión
- La aparición de s1 muestra claramente qué tan rápido está evolucionando la IA en el ámbito abierto
- Es muy probable que empresas como OpenAI y Anthropic, al disponer de muchísimos más recursos de cómputo, logren avances todavía más rápidos
- s1 no es una copia directa de R1 u o1, sino que sugiere que incluso solo con SFT (Supervised Fine Tuning), sin RL, se pueden abrir posibilidades similares
- Se espera que en 2025 haya innovaciones aún mayores
2 comentarios
Es divertido el juego de palabras que transforma "distillation" en "distealing".
Comentarios en Hacker News
La expansión del razonamiento mediante el hack de 'Wait' es interesante. El hecho de que un método simple pueda afectar el rendimiento hace que el avance de la informática se sienta casi como lanzar un hechizo. Me pregunto cómo se podría empezar a pensar de esa manera
Si la cadena de pensamiento le da al modelo una 'capa' temporal que actúa como búfer para procesar texto, me pregunto si tendría sentido convertir ese búfer en un contexto separado con su propia FNN y mecanismo de atención. Eso, combinado con un microproceso que lo explique en lenguaje natural, podría ofrecer una representación más densa del 'pensamiento'
CoT es una técnica muy conocida, pero DeepSeek se enfocó en encontrar optimizaciones de memoria, ancho de banda y paralelismo debido a las limitaciones de cómputo. Sus optimizaciones a nivel de infraestructura y software son destacables
Creo que los benchmarks actuales no son lo suficientemente sólidos, y es probable que los laboratorios estadounidenses de LLM ya reconozcan la falta de optimización de infraestructura y hardware. El nivel de RL y el entrenamiento base serán aún más importantes
Es interesante que métodos experimentados mediante hacking de IA también se estén usando en los laboratorios. Usé el método de reemplazar por 'Okay' para hacer que R1 siguiera pensando
Guardé el blog de Tim en marcadores. Los avances en IA y redes neuronales son sorprendentes. Personalmente, estoy teniendo dificultades para crear agentes basados en LLM con modelos débiles on-device
Tener 10,000 H100 significa poder hacer 625 veces más experimentos que S1. Las grandes empresas tienden a desperdiciar recursos de cómputo
Es interesante cómo se puede controlar la longitud de salida de los modelos de razonamiento. Descubrieron una forma de inyectar CoT y facilitar el jailbreak reemplazando por 'Wait'
Comparten el enlace al artículo original sobre S1
En las organizaciones grandes no se pueden hacer muchos experimentos, y los empleados se enfocan en obtener resultados rápidos. El trabajo se impulsa con prisa por beneficios temporales
Moldear la salida de un LLM es como hacer una escultura. Hay que poner el modelo en un game loop e interactuar con él en cada tick para obtener el resultado deseado. La sed de recursos de cómputo continuará