1 puntos por GN⁺ 2025-03-08 | 1 comentarios | Compartir por WhatsApp

LADDER: mejora de la capacidad de resolución de problemas de los LLM mediante auto-mejora

  • Introducción a LADDER: LADDER es un framework en el que los modelos de lenguaje grandes (LLM) mejoran por sí mismos su capacidad para resolver problemas al transformar gradualmente problemas complejos en formas más simples. Genera transformaciones de problemas más fáciles aprovechando las capacidades del propio modelo, sin depender de datasets existentes ni de retroalimentación humana.

  • Efectividad: LADDER mejoró la precisión de Llama 3.2 3B en el área de integración matemática de 1% a 82%, y permitió que Qwen2.5 7B Deepseek-R1 Distilled alcanzara 73% en la ronda clasificatoria del MIT Integration Bee.

  • Introducción a TTRL: TTRL (Test-Time Reinforcement Learning) es un método que realiza aprendizaje por refuerzo durante la inferencia mediante transformaciones del problema de prueba. Gracias a esto, Qwen2.5 7B Deepseek-R1 Distilled registró una puntuación de vanguardia de 90% en la ronda clasificatoria del MIT Integration Bee, superando el rendimiento de OpenAI o1.

  • Importancia de los resultados: Estos resultados muestran que el aprendizaje autónomo y estratégico puede lograr mejoras significativas de capacidad incluso sin escalar la arquitectura ni contar con supervisión humana.

1 comentarios

 
GN⁺ 2025-03-08
Opinión de Hacker News
  • Me pregunto qué está pasando esta semana. En los últimos dos días he visto varios avances interesantes en machine learning

    • Un equipo de investigación de Google descubrió que se pueden combinar NNs y CLAs mediante compuertas lógicas digitales. Esto permite reducir muchos problemas no lineales a circuitos digitales simples y eficientes
    • Siguen apareciendo nuevos hallazgos sobre redes neuronales y lógica/inteligencia, y no dejo de imaginar qué tan cerca estamos de entender los principios de la inteligencia
  • Me vino a la mente una cita del famoso matemático de teoría de números Hendrik Lenstra

    • "Por cada problema irresoluble, hay un problema más simple que también es irresoluble"
  • Su enfoque de aprendizaje por refuerzo en tiempo de prueba me parece un poco sospechoso

    • TTRL funciona pidiéndole al modelo de lenguaje que genere versiones más simples de los casos de prueba. Cuando obtiene un problema simple, realiza aprendizaje por refuerzo sobre ese problema para intentar reforzar el rendimiento del modelo en el problema original
    • El problema es que usan un integrador numérico para verificar el problema simple. Puedo imaginar un escenario donde se generen problemas que casi no son más simples, y el modelo termine entrenando sobre el caso de prueba real. Eso sería como entrenar sobre el conjunto de prueba
    • El resto del paper está bien
  • Demuestran la efectividad de LADDER en el tema de integración matemática. Mejoran la precisión de Llama 3.2 3B de 1% a 82%

    • El simple hecho de que este método funcione ya es interesante. Que funcione bien con matemáticas es especialmente interesante
    • Este paper forma parte del movimiento actual que está difuminando la frontera entre entrenamiento e inferencia. Parte de su método consiste en descomponer preguntas cuya respuesta no se conoce en preguntas más simples, y usar un "checker" numérico para realizar GRPO. Este modelo reforzado puede responder más preguntas
    • Creo que los humanos también pensamos mucho de esta manera. Reflexionamos sobre algo, le damos vueltas en la cabeza, hacemos analogías, etc. Agregar entrenamiento en tiempo de prueba es una forma de pensar más, más allá de solo agregar tokens de contexto a una inferencia fija
    • Así como DeepSeek y o1/o3 muestran que se puede aumentar la capacidad con generación y evaluación de tokens en tiempo de inferencia, parece que también se puede aumentar la capacidad con ajuste fino automatizado en tiempo de inferencia
    • Espero que, cuando estas técnicas se consoliden, podamos hablar y pensar en ellas de una forma nueva. Todas son, en algún nivel, parte del mismo proceso básico
    • En fin, está muy genial
  • Frank Herbert ya lo sabía. Esta es una implementación de la autoinspección recursiva de los mentats descrita en Dune

  • El entrenamiento/aprendizaje por refuerzo en tiempo de prueba es un enfoque adecuado para la IA matemática del futuro. Probablemente sea una de las pocas formas de usar una cantidad enorme de cómputo para un problema dado. Alphaproof ya hacía esto, pero está bien que se vuelva a hacer y con buenos resultados

  • Fuera de tema, pero su sitio es hermoso. Se siente como haber encontrado una mina de oro

  • Algunos nombres son demasiado atractivos

  • Al final del paper mencionan dos problemas del examen clasificatorio del MIT Integration Bee 2025. Dicen que el sistema siguió dando respuestas incorrectas

    • Dicen que estas preguntas son de las más complejas del examen, pero la primera es solo
    • calcular ∫ ∛(x · ∜(x · ∜(x · √(x · √(x · ⋯ ))))) dx
    • Esto equivale a calcular 1/3 + 1/(34) + 1/(34*5) + ... No es matemática muy avanzada