Tencent Hunyuan-T1 - el primer modelo a gran escala basado en la arquitectura Mamba

(llm.hunyuan.tencent.com)

2 puntos por GN⁺ 2025-03-23 | 1 comentarios | Compartir por WhatsApp

Hunyuan-T1 es un modelo MoE Hybrid-Transformer-Mamba a gran escala basado en TurboS
Amplía la capacidad de razonamiento y mejora el rendimiento mediante aprendizaje posterior a gran escala alineado con las preferencias humanas
La capacidad de procesar textos largos de TurboS resuelve la pérdida de contexto y los problemas de dependencia de información a larga distancia
La arquitectura Mamba optimiza el procesamiento de secuencias largas, lo que permite capturar información de textos extensos con un método de cómputo eficiente
- Bajo las mismas condiciones de despliegue, la velocidad de decodificación se duplica
En la etapa de postentrenamiento del modelo, se destinó el 96.7% de toda la capacidad de cómputo al aprendizaje por refuerzo
- Se recopiló un conjunto de datos con problemas diversos, incluyendo matemáticas, razonamiento lógico, ciencia y código, para fortalecer la capacidad de razonamiento del modelo
- El rendimiento del modelo se reforzó mediante retroalimentación de respuestas correctas y retroalimentación de usuarios en tiempo real
- Se aplicó un enfoque de aprendizaje por currículo
  - Se aumentó gradualmente la dificultad de los datos mientras se expandía la longitud de contexto del modelo
  - Se reforzó la capacidad de usar los tokens de forma eficiente
Estrategia de aprendizaje por refuerzo: se aplicaron estrategias de reaprendizaje de datos y reinicio de políticas → la estabilidad del entrenamiento mejoró en más de un 50%
Sistema de recompensas
- Se adoptó un método de autorecompensa → el modelo evalúa y puntúa por sí mismo sus salidas
- Se aplicó un esquema integral de recompensas → se reforzaron la eficiencia informativa y el nivel de detalle del contenido del modelo

Evaluación de rendimiento en benchmarks

Mostró un rendimiento sobresaliente en métricas de razonamiento en chino e inglés como MMLU-pro, CEval, AIME y Zebra Logic
Rendimiento al nivel de DeepSeek R1 o con resultados ligeramente mejores
- Logró ventaja en creatividad cultural, resumen de texto y capacidades de agente
Obtuvo 87.2 puntos en la evaluación MMLU-PRO → demostró excelente memoria y comprensión en 14 áreas, incluyendo humanidades, ciencias sociales y ciencia y tecnología
Registró 69.3 puntos en GPQA-diamond → confirmó capacidad para resolver problemas de física, química y biología a nivel doctoral
Demostró un rendimiento sólido en código, matemáticas y razonamiento lógico
- Obtuvo 64.9 puntos en LiveCodeBench → confirmó capacidad de escritura y comprensión de código
- 96.2 puntos en MATH-500 → demostró una capacidad de resolución de problemas matemáticos cercana a DeepSeek R1
Obtuvo 91.9 puntos en ArenaHard → mostró una fuerte adaptabilidad en diversas tareas de alineación, seguimiento de instrucciones y uso de herramientas

1 comentarios

GN⁺ 2025-03-23

Comentarios en Hacker News

El excelente rendimiento del modelo demuestra por completo que el aprendizaje por refuerzo juega un papel importante en el proceso de optimización
- Si ese aprendizaje por refuerzo no está dando mejores respuestas en otros contextos y solo está manipulando los benchmarks, surge la duda de cómo podríamos darnos cuenta
Después de usar un poco este modelo, parece que tiene la tendencia a responder en chino a preguntas en inglés
Su modelo grande tenía 389b parámetros, así que me pregunto qué tan grande será el modelo ultragrande
Están saliendo demasiados modelos últimamente y hay tantos avances en el campo de la IA que es difícil mantenerse al día
- No estoy seguro de qué es realmente revolucionario o importante
Es interesante ver que un modelo basado en Mamba funcione bien
La romanización de nombres como este siempre es confusa
- Cuando se eliminan los caracteres y los tonos, termina siendo solo una cadena de letras sin significado
- "Hunyuan", o 混元 en chino, significa "caos primordial" o "unidad primordial"
- Eso ayuda a recordarlo más fácilmente a medida que más productos y servicios chinos salen al mercado
- Es similar a la popularidad de la mitología griega en productos occidentales (por ejemplo, todos los productos llamados "Apollo")
Me pregunto si el hecho de que esté conectado a una demo de Huggingface implica que van a publicar los pesos
¿Kobe?

Tencent Hunyuan-T1 - el primer modelo a gran escala basado en la arquitectura Mamba

Evaluación de rendimiento en benchmarks

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News