Análisis de LLMs para comprender la capacidad de razonamiento
(magazine.sebastianraschka.com)Comprender: modelos de razonamiento
-
Definición de los modelos de razonamiento: Los modelos de razonamiento son el proceso de responder preguntas que requieren generación en múltiples pasos, incluyendo pasos intermedios, para resolver problemas complejos. Por ejemplo, una pregunta como "si un tren viaja a 60 millas por hora durante 3 horas, ¿qué distancia recorre?" requiere razonamiento, a diferencia de una pregunta simple basada en hechos.
-
Necesidad de los modelos de razonamiento: Son adecuados para tareas complejas como rompecabezas, problemas avanzados de matemáticas y problemas complejos de programación. Sin embargo, no son necesarios para tareas simples como resumen, traducción y respuesta a preguntas basadas en conocimiento. Los modelos de razonamiento son costosos y, a veces, pueden producir errores debido a un exceso de razonamiento.
Pipeline de entrenamiento de DeepSeek R1
-
DeepSeek-R1-Zero: Modelo basado en DeepSeek-V3 preentrenado de 671B, entrenado únicamente con aprendizaje por refuerzo (RL). Esto se conoce como entrenamiento de "cold start" y, a diferencia del RLHF convencional, no incluye una etapa de ajuste fino supervisado (SFT).
-
DeepSeek-R1: El modelo principal de razonamiento de DeepSeek, mejorado a partir de DeepSeek-R1-Zero mediante una etapa adicional de SFT y entrenamiento con RL.
-
DeepSeek-R1-Distill: Mejora la capacidad de razonamiento ajustando finamente modelos Qwen y Llama con los datos de SFT generados en la etapa anterior.
Cuatro enfoques clave para construir y mejorar modelos de razonamiento
-
Escalado en tiempo de inferencia: Método para mejorar la calidad de salida aumentando los recursos de cómputo durante la inferencia. Por ejemplo, incluir frases como "pensemos paso a paso" en el prompt de entrada para inducir al modelo a generar pasos intermedios de razonamiento.
-
Aprendizaje por refuerzo puro (RL): DeepSeek-R1-Zero muestra que el razonamiento puede emerger como comportamiento mediante RL puro. Se usan recompensas por exactitud y por formato para ayudar al modelo a desarrollar habilidades básicas de razonamiento.
-
Ajuste fino supervisado (SFT) y aprendizaje por refuerzo (RL): DeepSeek-R1 mejora el desempeño de razonamiento al combinar SFT y RL. Este es un enfoque importante para construir modelos de razonamiento de alto rendimiento.
-
Ajuste fino supervisado puro (SFT) y destilación: DeepSeek mejora la eficiencia entrenando modelos más pequeños. Aunque son modelos más pequeños, muestran un rendimiento relativamente sólido en comparación con DeepSeek-R1-Zero.
Reflexiones sobre DeepSeek R1
- DeepSeek-R1 se ofrece como código abierto bajo licencia MIT, lo que lo convierte en un recurso útil para investigadores. En comparación con o1 de OpenAI, DeepSeek-R1 es más eficiente en tiempo de razonamiento. Sin embargo, la falta de detalles sobre o1 de OpenAI dificulta una comparación directa.
Desarrollo de modelos de razonamiento con presupuesto limitado
- La destilación de modelos puede ser una alternativa rentable. El equipo de DeepSeek lo demostró con el modelo R1-distilled, que es mucho más pequeño que DeepSeek-R1 pero muestra un sólido rendimiento de razonamiento.
1 comentarios
Opiniones en Hacker News
Los modelos de razonamiento de los LLM tienden a estar excesivamente optimizados para problemas de programación y matemáticas
Se necesita investigación para entrenar LLM con lenguajes formales restringidos en lugar de lenguaje natural
El "pensar de más" de los modelos de razonamiento podría ser el próximo gran problema
El paper de R1 es fácil de leer y los resultados se explican por sí mismos
Si los LLM realmente "piensan" o no es una discusión aparte
Hay casos reales en los que la IA hace identificaciones excesivas en imágenes médicas
Hay que entender que los LLM no pueden razonar
La afirmación del "aha moment" en el reporte técnico de DeepSeek-R1 resulta sospechosa
Hace unos meses propuso en HN un método de refinamiento para mejorar los LLM, y ahora eso se describe como "razonamiento"