-
Avances de los LLMs para el razonamiento de System 2
- Un equipo de investigación liderado por Violet Xiang propone un nuevo marco llamado Meta Chain-of-Thought (Meta-CoT)
- Meta-CoT amplía el Chain-of-Thought (CoT) existente para modelar explícitamente el razonamiento fundamental necesario para llegar a un CoT específico
- Presentan evidencia empírica de que los modelos más recientes muestran comportamientos consistentes con la recuperación en contexto, y exploran métodos para generar Meta-CoT mediante supervisión de procesos, generación de datos sintéticos y algoritmos de búsqueda
-
Generación de Meta-CoT y pipeline de entrenamiento
- Presentan un pipeline de entrenamiento concreto para generar Meta-CoT
- Incluye métodos para entrenar el modelo mediante ajuste por instrucciones que incorpora trazas de búsqueda linealizadas y aprendizaje por refuerzo
-
Preguntas abiertas de la investigación
- Se discuten varias preguntas de investigación, como leyes de escalado, el papel de los verificadores y la posibilidad de descubrir nuevos algoritmos de razonamiento
- Este estudio ofrece una hoja de ruta teórica y práctica para hacer posible Meta-CoT en los LLMs, permitiendo un razonamiento en inteligencia artificial más potente y más parecido al humano
Aún no hay comentarios.