- Sky-T1-32B-Preview es un modelo de razonamiento y programación con un rendimiento similar a o1-preview, entrenado con un costo bajo de apenas $450 (650 mil wones)
- Todo el código se ofrece como open source, por lo que cualquiera puede reproducirlo y mejorarlo
- Modelos de razonamiento de alto rendimiento como o1 y Gemini 2.0 pueden resolver tareas complejas, pero sus detalles técnicos y pesos del modelo se mantienen privados
Open source completo: avanzar juntos
- Sky-T1-32B-Preview libera como open source todos los detalles:
Cómo hacerlo (Recipes)
Proceso de preparación de datos
- Se generaron datos usando el modelo QwQ-32B-Preview y se construyó una mezcla de datos que cubre varios dominios
- Reestructuración y mejora de formato:
- Los datos de QwQ se reformatearon con GPT-4o-mini para mejorar la eficiencia de aprendizaje del modelo de razonamiento
- El reformateo mejoró la precisión de los datos de programación de 25% a más de 90%
- Muestreo por rechazo:
- Problemas de matemáticas: se eliminaron muestras inexactas comparándolas con la respuesta correcta
- Problemas de programación: se verificaron las respuestas ejecutando las pruebas unitarias del dataset
- Datos finales:
- Datos de programación: 5,000 de los datasets APPs y TACO
- Datos de matemáticas: 10,000 de AIME, MATH y Olympiads de NuminaMATH
- Otros datos: 1,000 problemas de ciencia y acertijos
Proceso de entrenamiento
- Modelo entrenado: Qwen2.5-32B-Instruct (modelo open source sin capacidad de razonamiento)
- Entorno de entrenamiento:
- Uso de 8 GPU H100, con offloading DeepSpeed Zero-3
- Tiempo de entrenamiento: 19 horas
- Costo: aproximadamente $450 (según Lambda Cloud)
- El entrenamiento se realizó usando Llama-Factory
Evaluación y resumen de resultados
- Sky-T1-32B-Preview mostró el siguiente rendimiento frente a modelos competidores en varios benchmarks:
- Math500: Sky-T1 logró 82.4%, casi al nivel de o1-preview (81.4%) y muy por delante de Qwen-2.5 (76.2%)
- AIME2024: Sky-T1 alcanzó 43.3%, por encima de o1-preview (40.0%) y muy superior a Qwen-2.5 (16.7%)
- LiveCodeBench (Easy): Sky-T1 obtuvo 86.3%, similar a Qwen-2.5 (84.6%), con una brecha pequeña frente a o1-preview (92.9%)
- LiveCodeBench (Medium): Sky-T1 marcó 56.8%, superior a o1-preview (54.9%) y muy por delante de Qwen-2.5 (40.8%)
- LiveCodeBench (Hard): Sky-T1 logró 17.9%, superando ligeramente a o1-preview (16.3%) y mostrando una gran diferencia frente a Qwen-2.5 (9.8%)
- GPQA-Diamond: Sky-T1 consiguió 56.8%, un poco por delante de QwQ (52.5%), aunque por debajo de o1-preview (75.2%)
- Sky-T1-32B-Preview muestra un rendimiento sólido tanto en matemáticas como en programación, y destaca especialmente en tareas de programación de dificultad media
- También se ubica entre los mejores en benchmarks de matemáticas, demostrando en general ser un modelo eficiente y potente.
Hallazgos principales
- Importancia del tamaño del modelo:
- Con modelos de 7B y 14B solo se observaron mejoras limitadas
- El modelo de 32B fue claramente superior tanto en rendimiento como en consistencia de resultados
- Importancia de la mezcla de datos:
- Entrenar con datos de un solo dominio puede reducir el rendimiento
- Mezclar de forma equilibrada datos de matemáticas y programación permitió lograr un gran desempeño en ambos dominios
Planes a futuro
- Seguir enfocados en desarrollar modelos que mantengan la eficiencia y a la vez ofrezcan alto rendimiento de razonamiento
- Investigar técnicas avanzadas para mejorar la eficiencia y la precisión en tiempo de prueba
- Apuntar al desarrollo de modelos más avanzados mediante colaboración con la comunidad
1 comentarios
¿Por qué... por qué lo leo como SKT-T1?