Entrenar directamente un modelo tipo O1 Preview por menos de 450 dólares

(sky.cs.berkeley.edu)

1 puntos por GN⁺ 2025-02-22 | 1 comentarios | Compartir por WhatsApp

Sky-T1, del equipo NovaSky de UC Berkeley, es un proyecto que plantea que se puede entrenar directamente un modelo de razonamiento de nivel O1 Preview por menos de 450 dólares
o1 y Gemini 2.0 Flash Thinking muestran un sólido rendimiento de razonamiento en tareas complejas al usar largas cadenas internas de pensamiento
Como en estos modelos no se publican los detalles técnicos ni los pesos, a la academia y a la comunidad open source les resulta difícil reproducirlos y ampliarlos
Hubo intentos de modelos de razonamiento con pesos abiertos, como Still-2 y Journey, pero se enfocaban principalmente en el área de matemáticas
El equipo NovaSky presenta como diferenciador de Sky-T1 el haber logrado, con un mismo modelo, un rendimiento de razonamiento competitivo tanto en matemáticas como en programación

El problema que busca resolver Sky-T1

Sky-T1 es un proyecto publicado por el equipo NovaSky del UC Berkeley Sky Computing Lab, y pone al frente la idea de entrenar directamente un modelo O1 Preview por menos de 450 dólares
Los modelos especializados en razonamiento, como o1 y Gemini 2.0 Flash Thinking, muestran la capacidad de generar largas cadenas internas de pensamiento al resolver tareas complejas
Sin embargo, en esta familia de modelos no hay acceso a los detalles técnicos ni a los pesos del modelo, por lo que la academia y la comunidad open source tienen dificultades para participar directamente

Tendencia de modelos de razonamiento con pesos abiertos y su diferenciador

Como intentos de entrenar modelos de razonamiento con pesos abiertos aparecieron Still-2 y Journey, ambos enfocados en el área de matemáticas
El equipo NovaSky explora métodos para mejorar la capacidad de razonamiento en modelos base y modelos ajustados con instrucciones
El trabajo de Sky-T1 destaca que logró un rendimiento de razonamiento competitivo con un mismo modelo no solo en matemáticas, sino también en programación

1 comentarios

GN⁺ 2025-02-22

Comentarios de Hacker News

Si les interesa, dejé listo un notebook de Colab con GPU gratis
Es un notebook para entrenar desde cero un modelo de razonamiento con GRPO, el algoritmo que usó DeepSeek, y también un notebook de ajuste fino general como el que usó el equipo de Berkeley
GRPO notebook for Llama 3.1 8B: https://colab.research.google.com/github/unslothai/notebooks...
General finetuning notebook: https://colab.research.google.com/github/unslothai/notebooks...
El dataset de 17K del equipo de Berkeley: https://huggingface.co/datasets/NovaSky-AI/Sky-T1_data_17k Hugging Face también publicó un dataset de 220K: https://huggingface.co/datasets/open-r1/OpenR1-Math-220k
- Me pregunto cuánto tardará esto en el tier gratuito con T4
  Normalmente habría pensado que este tipo de trabajo de “meter mano al interior” sería mucho más difícil de alcanzar para un programador común, pero esto sí se ve como algo que dan ganas de probar por cuenta propia
Se ve raro que le hayan puesto O1 preview en el nombre; parece clickbait
Yo esperaba algo como una forma de reentrenar de verdad o1 preview y descargarlo
Además, no corresponde llamarlo O1 preview solo por mirar 7 benchmarks. En algunos casos de uso, O1 preview podría rendir mejor que este modelo
Aun así, que bajen los costos es algo bueno
- No es ni siquiera el nombre de un modelo concreto, sino que apunta directamente a la versión beta de ese modelo, así que no me parece honesto. No entiendo por qué harían eso
- De acuerdo. El nombre O1 preview se presta un poco a confusión
  Hace pensar en un rendimiento más amplio que simplemente superar algunos benchmarks concretos. La reducción de costos está genial, pero el marketing debería mostrar con más transparencia cuál es el alcance real
La competencia de verdad es buenísima
Solo porque alguien publicó la arquitectura, en las últimas semanas han salido avances por todos lados
Hace pensar hasta dónde podría llegar esto si también se publicaran los datasets de entrenamiento y no hubiera restricciones de copyright. No estoy diciendo que haya que hacer nada ilegal
Supongo que no queda más que soñar
- La expresión “están lloviendo avances” le queda perfecta. Más aún después de que se vio con qué entrenó Meta sus modelos :)
- Esos datasets de entrenamiento casi siempre tienen copyright, así que jamás van a ser realmente libres
- Esa tendencia ya venía ocurriendo, y DeepSeek parece ser un ejemplo más
  Pero sí ayudó a atraer atención a ese progreso, y eso hace que más gente contribuya y encuentre casos de uso más de nicho
- ¿No será que el ambiente actual es más bien: si tienes la startup más hot, entonces simplemente rompes la ley y sobornas a funcionarios? /s
  Y agregando al /s: en una época viví en el extranjero y operé el casino de Bitcoin más popular de ese momento, y gasté muchísimo dinero y energía tratando de bloquear a jugadores que pudieran ser estadounidenses. Por eso no gané tanto dinero
  Hice las cuentas de cuánto tendría que ganar para violar la ley y vivir escondido para siempre, y concluí que podría ganar entre 10 y 15 millones de dólares al año, pero que no sería suficiente para ocultarme. Parece que me equivoqué
  La persona más rica del mundo hizo la mayor parte de su dinero al principio intermediando transacciones de apuestas, y ahora se mete en los asuntos de todas las agencias federales. Al parecer habría hecho falta el descaro de pedir perdón en vez de permiso
En los despliegues reales de IA, el cómputo en tiempo de inferencia sigue estando muy poco aprovechado
Mucha gente está creando modelos base que razonan sobre dominios amplios de problemas, pero no suficientes personas están usando la misma técnica para mejorar el rendimiento en tareas específicas
Es fácil destilar el razonamiento de modelos más grandes como R1 para una tarea concreta. Más aún, si mezclas instrucciones de pensamiento personalizadas para subproblemas específicos, el modelo ajustado termina aprendiendo tanto el razonamiento por tarea como la lógica personalizada
No es difícil, y supera fácilmente la iteración de prompts. Si encuentras un bug, además puedes corregirlo
Hice un proyecto en GitHub para destilar modelos de razonamiento y hacer ajuste fino en tiempo de inferencia con procesos de pensamiento personalizados: https://docs.getkiln.ai/docs/guide-train-a-reasoning-model
- Me pregunto cómo convendría estructurar datos de ajuste fino para un rango flexible de consultas dentro de un dominio de problemas específico, en vez de para una tarea aislada
  Sería parecido al ajuste de instrucciones de propósito general, pero con un foco mucho más acotado
  Por ejemplo, si hicieras una app para ayudar a médicos a buscar literatura científica para apoyar diagnósticos y verificar hipótesis, obviamente necesitarías expertos del dominio y usuarios reales para ver qué tipo de consultas generar
  Pero después de eso, el proceso para llegar a un dataset equilibrado que represente suficientemente la distribución de consultas posibles, instrucciones, estilos y formas de pensar, formatos, flujos de conversación, etc., se siente difícil de abordar. Parece haber infinitas dimensiones en las que uno puede sobreajustar por accidente
El post del blog es un poco poco claro, así que yo lo entendí así
Usaron QwQ para generar los datos de entrenamiento, y parte de la limpieza la hicieron con GPT-4o-mini. Con esos datos ajustaron Qwen2.5-32B-Instruct, que no es un modelo de razonamiento
Como resultado, Sky-T1 queda un poco por debajo de QwQ en tareas de razonamiento, pero muchísimo mejor que Qwen2.5
Hay comentarios despectivos al respecto, pero a mí me parece bastante interesante porque demuestra que puedes tomar un modelo base y ajustarlo para que razone mejor
- Me habría gustado que también lo compararan con los modelos destilados r1 de qwen2.5
Esto no fue entrenado desde cero sino con ajuste fino, así que suena como una propuesta mucho más razonable
Igual no estoy tan metido en esta área, pero como alguien que tenía curiosidad por los detalles del ajuste fino, me gusta que puedas obtener tanto el dataset como el código
Mejor URL: https://novasky-ai.github.io/posts/sky-t1/
- La discusión anterior está aquí: https://news.ycombinator.com/item?id=42681417
Entrenaron con trazas de razonamiento de QwQ y en las evaluaciones, en general, queda un poco por debajo de QwQ
No me parece un logro tan enorme
La parte clave parece ser: “El entrenamiento del modelo se completa en 19 horas con 8 H100 usando offloading de DeepSpeed Zero-3, por unos 450 dólares según los precios de Lambda Cloud”

Entrenar directamente un modelo tipo O1 Preview por menos de 450 dólares

El problema que busca resolver Sky-T1

Tendencia de modelos de razonamiento con pesos abiertos y su diferenciador

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News