Sky-T1: entrenar un modelo de razonamiento de alto rendimiento al nivel de o1 preview por $450

xguru · 2025-01-17T09:45:03+09:00

Sky-T1-32B-Preview es un modelo de razonamiento y programación con un rendimiento similar a o1-preview, entrenado con un costo bajo de apenas $450 (650 mil wones) Todo el código se ofrece como open source, por lo que cualquiera puede reproducirlo y mejorarlo Modelos de razonamiento de alto rendimiento como o1 y Gemini 2.0 pueden resolver tareas complejas, pero sus detalles técnicos y pesos del modelo se mantienen privados Open source completo: avanzar juntos Sky-T1-32B-Preview libera como open source todos los detalles: Infraestructura: repositorio unificado para construcción de datos, entrenamiento del modelo y evaluación Datos: ofrece 17,000 datos de entrenamiento Detalles técnicos: informe técnico y logs de wandb Pesos del modelo: pesos del modelo de tamaño 32B Cómo hacerlo (Recipes) Proceso de preparación de datos Se generaron datos usando el modelo QwQ-32B-Preview y se construyó una mezcla de datos que cubre varios dominios Reestructuración y mejora de formato: Los datos de QwQ se reformatearon con GPT-4o-mini para mejorar la eficiencia de aprendizaje del modelo de razonamiento El reformateo mejoró la precisión de los datos de programación de 25% a más de 90% Muestreo por rechazo: Problemas de matemáticas: se eliminaron muestras inexactas comparándolas con la respuesta correcta Problemas de programación: se verificaron las respuestas ejecutando las pruebas unitarias del dataset Datos finales: Datos de programación: 5,000 de los datasets APPs y TACO Datos de matemáticas: 10,000 de AIME, MATH y Olympiads de NuminaMATH Otros datos: 1,000 problemas de ciencia y acertijos Proceso de entrenamiento Modelo entrenado: Qwen2.5-32B-Instruct (modelo open source sin capacidad de razonamiento) Entorno de entrenamiento: Uso de 8 GPU H100, con offloading DeepSpeed Zero-3 Tiempo de entrenamiento: 19 horas Costo: aproximadamente $450 (según Lambda Cloud) El entrenamiento se realizó usando Llama-Factory Evaluación y resumen de resultados Sky-T1-32B-Preview mostró el siguiente rendimiento frente a modelos competidores en varios benchmarks: Math500: Sky-T1 logró 82.4%, casi al nivel de o1-preview (81.4%) y muy por delante de Qwen-2.5 (76.2%) AIME2024: Sky-T1 alcanzó 43.3%, por encima de o1-preview (40.0%) y muy superior a Qwen-2.5 (16.7%) LiveCodeBench (Easy): Sky-T1 obtuvo 86.3%, similar a Qwen-2.5 (84.6%), con una brecha pequeña frente a o1-preview (92.9%) LiveCodeBench (Medium): Sky-T1 marcó 56.8%, superior a o1-preview (54.9%) y muy por delante de Qwen-2.5 (40.8%) LiveCodeBench (Hard): Sky-T1 logró 17.9%, superando ligeramente a o1-preview (16.3%) y mostrando una gran diferencia frente a Qwen-2.5 (9.8%) GPQA-Diamond: Sky-T1 consiguió 56.8%, un poco por delante de QwQ (52.5%), aunque por debajo de o1-preview (75.2%) Sky-T1-32B-Preview muestra un rendimiento sólido tanto en matemáticas como en programación, y destaca especialmente en tareas de programación de dificultad media También se ubica entre los mejores en benchmarks de matemáticas, demostrando en general ser un modelo eficiente y potente. Hallazgos principales Importancia del tamaño del modelo: Con modelos de 7B y 14B solo se observaron mejoras limitadas El modelo de 32B fue claramente superior tanto en rendimiento como en consistencia de resultados Importancia de la mezcla de datos: Entrenar con datos de un solo dominio puede reducir el rendimiento Mezclar de forma equilibrada datos de matemáticas y programación permitió lograr un gran desempeño en ambos dominios Planes a futuro Seguir enfocados en desarrollar modelos que mantengan la eficiencia y a la vez ofrezcan alto rendimiento de razonamiento Investigar técnicas avanzadas para mejorar la eficiencia y la precisión en tiempo de prueba Apuntar al desarrollo de modelos más avanzados mediante colaboración con la comunidad

(novasky-ai.github.io)

22 puntos por xguru 2025-01-17 | 1 comentarios | Compartir por WhatsApp

Sky-T1-32B-Preview es un modelo de razonamiento y programación con un rendimiento similar a o1-preview, entrenado con un costo bajo de apenas $450 (650 mil wones)
Todo el código se ofrece como open source, por lo que cualquiera puede reproducirlo y mejorarlo
- Modelos de razonamiento de alto rendimiento como o1 y Gemini 2.0 pueden resolver tareas complejas, pero sus detalles técnicos y pesos del modelo se mantienen privados

Open source completo: avanzar juntos

Sky-T1-32B-Preview libera como open source todos los detalles:
- Infraestructura: repositorio unificado para construcción de datos, entrenamiento del modelo y evaluación
- Datos: ofrece 17,000 datos de entrenamiento
- Detalles técnicos: informe técnico y logs de wandb
- Pesos del modelo: pesos del modelo de tamaño 32B

Cómo hacerlo (Recipes)

Proceso de preparación de datos

Se generaron datos usando el modelo QwQ-32B-Preview y se construyó una mezcla de datos que cubre varios dominios
Reestructuración y mejora de formato:
- Los datos de QwQ se reformatearon con GPT-4o-mini para mejorar la eficiencia de aprendizaje del modelo de razonamiento
- El reformateo mejoró la precisión de los datos de programación de 25% a más de 90%
Muestreo por rechazo:
- Problemas de matemáticas: se eliminaron muestras inexactas comparándolas con la respuesta correcta
- Problemas de programación: se verificaron las respuestas ejecutando las pruebas unitarias del dataset
Datos finales:
- Datos de programación: 5,000 de los datasets APPs y TACO
- Datos de matemáticas: 10,000 de AIME, MATH y Olympiads de NuminaMATH
- Otros datos: 1,000 problemas de ciencia y acertijos

Proceso de entrenamiento

Modelo entrenado: Qwen2.5-32B-Instruct (modelo open source sin capacidad de razonamiento)
Entorno de entrenamiento:
- Uso de 8 GPU H100, con offloading DeepSpeed Zero-3
- Tiempo de entrenamiento: 19 horas
- Costo: aproximadamente $450 (según Lambda Cloud)
El entrenamiento se realizó usando Llama-Factory

Evaluación y resumen de resultados

Sky-T1-32B-Preview mostró el siguiente rendimiento frente a modelos competidores en varios benchmarks:
- Math500: Sky-T1 logró 82.4%, casi al nivel de o1-preview (81.4%) y muy por delante de Qwen-2.5 (76.2%)
- AIME2024: Sky-T1 alcanzó 43.3%, por encima de o1-preview (40.0%) y muy superior a Qwen-2.5 (16.7%)
- LiveCodeBench (Easy): Sky-T1 obtuvo 86.3%, similar a Qwen-2.5 (84.6%), con una brecha pequeña frente a o1-preview (92.9%)
- LiveCodeBench (Medium): Sky-T1 marcó 56.8%, superior a o1-preview (54.9%) y muy por delante de Qwen-2.5 (40.8%)
- LiveCodeBench (Hard): Sky-T1 logró 17.9%, superando ligeramente a o1-preview (16.3%) y mostrando una gran diferencia frente a Qwen-2.5 (9.8%)
- GPQA-Diamond: Sky-T1 consiguió 56.8%, un poco por delante de QwQ (52.5%), aunque por debajo de o1-preview (75.2%)
Sky-T1-32B-Preview muestra un rendimiento sólido tanto en matemáticas como en programación, y destaca especialmente en tareas de programación de dificultad media
También se ubica entre los mejores en benchmarks de matemáticas, demostrando en general ser un modelo eficiente y potente.

Hallazgos principales

Importancia del tamaño del modelo:
- Con modelos de 7B y 14B solo se observaron mejoras limitadas
- El modelo de 32B fue claramente superior tanto en rendimiento como en consistencia de resultados
Importancia de la mezcla de datos:
- Entrenar con datos de un solo dominio puede reducir el rendimiento
- Mezclar de forma equilibrada datos de matemáticas y programación permitió lograr un gran desempeño en ambos dominios

Planes a futuro

Seguir enfocados en desarrollar modelos que mantengan la eficiencia y a la vez ofrezcan alto rendimiento de razonamiento
Investigar técnicas avanzadas para mejorar la eficiencia y la precisión en tiempo de prueba
Apuntar al desarrollo de modelos más avanzados mediante colaboración con la comunidad

1 comentarios

kimjoin2 2025-01-17

¿Por qué... por qué lo leo como SKT-T1?