6 puntos por GN⁺ 2025-02-08 | 1 comentarios | Compartir por WhatsApp

Comprender: modelos de razonamiento

  • Definición de los modelos de razonamiento: Los modelos de razonamiento son el proceso de responder preguntas que requieren generación en múltiples pasos, incluyendo pasos intermedios, para resolver problemas complejos. Por ejemplo, una pregunta como "si un tren viaja a 60 millas por hora durante 3 horas, ¿qué distancia recorre?" requiere razonamiento, a diferencia de una pregunta simple basada en hechos.

  • Necesidad de los modelos de razonamiento: Son adecuados para tareas complejas como rompecabezas, problemas avanzados de matemáticas y problemas complejos de programación. Sin embargo, no son necesarios para tareas simples como resumen, traducción y respuesta a preguntas basadas en conocimiento. Los modelos de razonamiento son costosos y, a veces, pueden producir errores debido a un exceso de razonamiento.

Pipeline de entrenamiento de DeepSeek R1

  • DeepSeek-R1-Zero: Modelo basado en DeepSeek-V3 preentrenado de 671B, entrenado únicamente con aprendizaje por refuerzo (RL). Esto se conoce como entrenamiento de "cold start" y, a diferencia del RLHF convencional, no incluye una etapa de ajuste fino supervisado (SFT).

  • DeepSeek-R1: El modelo principal de razonamiento de DeepSeek, mejorado a partir de DeepSeek-R1-Zero mediante una etapa adicional de SFT y entrenamiento con RL.

  • DeepSeek-R1-Distill: Mejora la capacidad de razonamiento ajustando finamente modelos Qwen y Llama con los datos de SFT generados en la etapa anterior.

Cuatro enfoques clave para construir y mejorar modelos de razonamiento

  1. Escalado en tiempo de inferencia: Método para mejorar la calidad de salida aumentando los recursos de cómputo durante la inferencia. Por ejemplo, incluir frases como "pensemos paso a paso" en el prompt de entrada para inducir al modelo a generar pasos intermedios de razonamiento.

  2. Aprendizaje por refuerzo puro (RL): DeepSeek-R1-Zero muestra que el razonamiento puede emerger como comportamiento mediante RL puro. Se usan recompensas por exactitud y por formato para ayudar al modelo a desarrollar habilidades básicas de razonamiento.

  3. Ajuste fino supervisado (SFT) y aprendizaje por refuerzo (RL): DeepSeek-R1 mejora el desempeño de razonamiento al combinar SFT y RL. Este es un enfoque importante para construir modelos de razonamiento de alto rendimiento.

  4. Ajuste fino supervisado puro (SFT) y destilación: DeepSeek mejora la eficiencia entrenando modelos más pequeños. Aunque son modelos más pequeños, muestran un rendimiento relativamente sólido en comparación con DeepSeek-R1-Zero.

Reflexiones sobre DeepSeek R1

  • DeepSeek-R1 se ofrece como código abierto bajo licencia MIT, lo que lo convierte en un recurso útil para investigadores. En comparación con o1 de OpenAI, DeepSeek-R1 es más eficiente en tiempo de razonamiento. Sin embargo, la falta de detalles sobre o1 de OpenAI dificulta una comparación directa.

Desarrollo de modelos de razonamiento con presupuesto limitado

  • La destilación de modelos puede ser una alternativa rentable. El equipo de DeepSeek lo demostró con el modelo R1-distilled, que es mucho más pequeño que DeepSeek-R1 pero muestra un sólido rendimiento de razonamiento.

1 comentarios

 
GN⁺ 2025-02-08
Opiniones en Hacker News
  • Los modelos de razonamiento de los LLM tienden a estar excesivamente optimizados para problemas de programación y matemáticas

    • Los problemas mal definidos requieren más razonamiento, y esto debe ir más allá de la ambigüedad propia de la ingeniería de software
    • Los LLM tienden a estar demasiado ajustados a problemas matemáticos y, por eso, no piensan lo suficiente en otros campos
    • Le gusta el autoaprendizaje y necesita un interlocutor con quien pueda entender temas complejos e identificar malentendidos
    • Los LLM pueden resolver bien problemas de programación, pero están demasiado ajustados a acertijos de código/matemáticas
  • Se necesita investigación para entrenar LLM con lenguajes formales restringidos en lugar de lenguaje natural

    • Hay trabajo de integración entre Lean y ChatGPT, pero no es un enfoque liderado por LLM entrenados en lenguaje natural
    • Se imagina un sistema capaz de intentar muchas cosas de forma creativa y evitar caminos equivocados
  • El "pensar de más" de los modelos de razonamiento podría ser el próximo gran problema

    • Pensar más a fondo no siempre es mejor
  • El paper de R1 es fácil de leer y los resultados se explican por sí mismos

    • Recomienda leer los papers de R1, V3 y DeepSeekMath
  • Si los LLM realmente "piensan" o no es una discusión aparte

    • La cuestión de si las computadoras pueden pensar es algo que se resolvió hace mucho tiempo
  • Hay casos reales en los que la IA hace identificaciones excesivas en imágenes médicas

    • Los datos de entrenamiento hacen que reconozca ciertos elementos como señales de cáncer
  • Hay que entender que los LLM no pueden razonar

  • La afirmación del "aha moment" en el reporte técnico de DeepSeek-R1 resulta sospechosa

    • Está basado en el modelo DeepSeek V3 y sufre de pensar de más y de problemas de formato
    • La comunidad está intentando reimplementar el pipeline
  • Hace unos meses propuso en HN un método de refinamiento para mejorar los LLM, y ahora eso se describe como "razonamiento"

    • No imaginaba que DeepSeek dominaría el mercado con un método tan simple
    • Hay que tomarse en serio la intuición