22 puntos por xguru 2025-01-17 | 1 comentarios | Compartir por WhatsApp
  • Sky-T1-32B-Preview es un modelo de razonamiento y programación con un rendimiento similar a o1-preview, entrenado con un costo bajo de apenas $450 (650 mil wones)
  • Todo el código se ofrece como open source, por lo que cualquiera puede reproducirlo y mejorarlo
    • Modelos de razonamiento de alto rendimiento como o1 y Gemini 2.0 pueden resolver tareas complejas, pero sus detalles técnicos y pesos del modelo se mantienen privados

Open source completo: avanzar juntos

Cómo hacerlo (Recipes)

Proceso de preparación de datos

  • Se generaron datos usando el modelo QwQ-32B-Preview y se construyó una mezcla de datos que cubre varios dominios
  • Reestructuración y mejora de formato:
    • Los datos de QwQ se reformatearon con GPT-4o-mini para mejorar la eficiencia de aprendizaje del modelo de razonamiento
    • El reformateo mejoró la precisión de los datos de programación de 25% a más de 90%
  • Muestreo por rechazo:
    • Problemas de matemáticas: se eliminaron muestras inexactas comparándolas con la respuesta correcta
    • Problemas de programación: se verificaron las respuestas ejecutando las pruebas unitarias del dataset
  • Datos finales:
    • Datos de programación: 5,000 de los datasets APPs y TACO
    • Datos de matemáticas: 10,000 de AIME, MATH y Olympiads de NuminaMATH
    • Otros datos: 1,000 problemas de ciencia y acertijos

Proceso de entrenamiento

  • Modelo entrenado: Qwen2.5-32B-Instruct (modelo open source sin capacidad de razonamiento)
  • Entorno de entrenamiento:
    • Uso de 8 GPU H100, con offloading DeepSpeed Zero-3
    • Tiempo de entrenamiento: 19 horas
    • Costo: aproximadamente $450 (según Lambda Cloud)
  • El entrenamiento se realizó usando Llama-Factory

Evaluación y resumen de resultados

  • Sky-T1-32B-Preview mostró el siguiente rendimiento frente a modelos competidores en varios benchmarks:
    • Math500: Sky-T1 logró 82.4%, casi al nivel de o1-preview (81.4%) y muy por delante de Qwen-2.5 (76.2%)
    • AIME2024: Sky-T1 alcanzó 43.3%, por encima de o1-preview (40.0%) y muy superior a Qwen-2.5 (16.7%)
    • LiveCodeBench (Easy): Sky-T1 obtuvo 86.3%, similar a Qwen-2.5 (84.6%), con una brecha pequeña frente a o1-preview (92.9%)
    • LiveCodeBench (Medium): Sky-T1 marcó 56.8%, superior a o1-preview (54.9%) y muy por delante de Qwen-2.5 (40.8%)
    • LiveCodeBench (Hard): Sky-T1 logró 17.9%, superando ligeramente a o1-preview (16.3%) y mostrando una gran diferencia frente a Qwen-2.5 (9.8%)
    • GPQA-Diamond: Sky-T1 consiguió 56.8%, un poco por delante de QwQ (52.5%), aunque por debajo de o1-preview (75.2%)
  • Sky-T1-32B-Preview muestra un rendimiento sólido tanto en matemáticas como en programación, y destaca especialmente en tareas de programación de dificultad media
  • También se ubica entre los mejores en benchmarks de matemáticas, demostrando en general ser un modelo eficiente y potente.

Hallazgos principales

  • Importancia del tamaño del modelo:
    • Con modelos de 7B y 14B solo se observaron mejoras limitadas
    • El modelo de 32B fue claramente superior tanto en rendimiento como en consistencia de resultados
  • Importancia de la mezcla de datos:
    • Entrenar con datos de un solo dominio puede reducir el rendimiento
    • Mezclar de forma equilibrada datos de matemáticas y programación permitió lograr un gran desempeño en ambos dominios

Planes a futuro

  • Seguir enfocados en desarrollar modelos que mantengan la eficiencia y a la vez ofrezcan alto rendimiento de razonamiento
  • Investigar técnicas avanzadas para mejorar la eficiencia y la precisión en tiempo de prueba
  • Apuntar al desarrollo de modelos más avanzados mediante colaboración con la comunidad

1 comentarios

 
kimjoin2 2025-01-17

¿Por qué... por qué lo leo como SKT-T1?