6 puntos por GN⁺ 2025-01-01 | 1 comentarios | Compartir por WhatsApp
  • Los modelos de lenguaje grandes (LLM) muestran una fuerte capacidad de razonamiento tras ser preentrenados con enormes cantidades de lenguaje humano
  • El enfoque "Chain-of-Thought (CoT)" ayuda a obtener respuestas haciendo que el modelo genere su proceso de razonamiento paso a paso
  • Sin embargo, el razonamiento de los LLM debe generarse en palabras, lo que impone una limitación fundamental al modelo
  • Los humanos no siempre expresan sus pensamientos en lenguaje. ¿La IA también tendría que hacerlo?
  • El paper de investigación de Meta, "Training Large Language Models to Reason in a Continuous Latent Space", propone un nuevo enfoque, COCONUT (Chain of Continuous Thought), para resolver estas limitaciones

Enfoque Chain-of-Thought (CoT)

  • CoT recibe una pregunta como entrada y genera la respuesta final mediante un razonamiento paso a paso
  • El modelo procesa los tokens de entrada para generar el primer token de respuesta (el inicio del proceso de razonamiento)
  • Luego vuelve a ingresar repetidamente al modelo la pregunta y los tokens de razonamiento previos para completar todo el proceso de razonamiento y, al final, generar la respuesta

Enfoque Chain of Continuous Thought (COCONUT)

  • COCONUT alterna entre el modo de lenguaje y el modo de pensamiento latente
    • Modo de lenguaje: funciona como un modelo de lenguaje estándar y genera el siguiente token
    • Modo de pensamiento latente: usa el último estado oculto para calcular el siguiente paso
  • En el modo de pensamiento latente, usa el último estado oculto como la siguiente entrada, lo que permite un razonamiento más eficiente
  • Inicia el modo de pensamiento latente con el token <bot> y lo finaliza con el token <eot>, para luego volver al modo de lenguaje

Procedimiento de entrenamiento

  • El modelo se entrena con base en datos CoT existentes (pregunta, pasos de razonamiento y respuesta final)
  • El entrenamiento se hace por etapas:
    • En la etapa inicial, el modelo aprende a generar pasos de razonamiento basados en lenguaje y la respuesta
    • En etapas posteriores, se eliminan los pasos de razonamiento y en su lugar se agregan tokens de pensamiento latente
  • En cada etapa, la pérdida se calcula sobre los pasos de razonamiento basados en lenguaje que aún permanecen y sobre la respuesta
  • El pensamiento latente es completamente diferenciable, por lo que permite back-propagation (retropropagación)

Transición de generar pensamientos a generar tokens de palabras

  • Existen dos estrategias para que el modelo cambie del modo de pensamiento latente al modo de lenguaje.
  • La primera estrategia hace que "el modelo decida usando un clasificador binario", y la segunda usa "una cantidad fija de tokens de pensamiento latente"
  • Ambas estrategias ofrecen resultados similares, por lo que se adoptó el método más simple de cantidad fija

Resultados experimentales

  • El método Coconut muestra un rendimiento superior a No-CoT en todos los datasets.
  • En comparación con CoT, CoT rinde mejor en matemáticas, pero Coconut supera a CoT en ProsQA, donde se requiere capacidad de planificación.
  • En comparación con i-CoT, Coconut muestra mejor precisión en matemáticas.
  • Rendimiento de Coconut:
    • GSM8K (matemáticas): rendimiento inferior a CoT
    • ProsQA (requiere planificación): rendimiento superior a CoT
    • No-CoT (genera respuestas directas sin razonamiento): Coconut lo supera en todos los datasets
    • En eficiencia, genera menos tokens que CoT
  • Comparación con i-CoT:
    • Mayor precisión en matemáticas
    • Rendimiento similar en planificación y razonamiento lógico
  • Efecto del aprendizaje curricular:
    • El modelo "w/o curriculum" muestra un rendimiento mucho menor

Capacidad de razonamiento similar a BFS

  • En el dataset ProsQA, COCONUT muestra resultados sobresalientes al resolver problemas centrados en planificación
  • Caso de exploración de grafos:
    • CoT: "alucina" relaciones inexistentes y llega a una respuesta incorrecta
    • Coconut: puede encontrar la ruta correcta usando múltiples tokens de pensamiento latente
  • Como Coconut puede explorar varias rutas posibles, muestra mejor rendimiento en tareas intensivas en planificación

Conclusión y líneas futuras de investigación

  • Conclusión:
    • El enfoque COCONUT mejora de forma importante la capacidad de razonamiento de los LLM
    • El razonamiento en espacio latente ofrece un rendimiento sobresaliente en tareas centradas en planificación mediante patrones similares a BFS
  • Líneas futuras de investigación:
    • Integrar el pensamiento continuo desde la etapa de preentrenamiento
    • Mejorar la eficiencia para procesar razonamiento secuencial múltiple
    • Explorar la posibilidad de combinar CoT con pensamiento latente

1 comentarios

 
GN⁺ 2025-01-01
Opiniones de Hacker News
  • El énfasis en BFS es lo contrario de lo que intenté. Los humanos dividen el trabajo en pasos cortos guiados por instinto e intuición, y pasos largos donde resumen/guardan la siguiente etapa. Cuando falla, resumen el árbol del fracaso para excluirlo de elecciones futuras.

    • El efecto del instinto disminuye bruscamente cuanto mayor es la distancia. Usar BFS reduce el valor del instinto y favorece el cálculo. El enfoque cambia según el tipo de problema.
    • Si alguien quiere hacer un prototipo juntos, que me contacte.
  • El siguiente paso es crear representaciones sin lenguaje humano. Si los LLMs pudieran comunicarse solo mediante embeddings, sin entrada de texto humano, eso abriría un nuevo capítulo para la IA.

  • Meta empieza con un modelo de lenguaje preentrenado y lo ajusta con ejemplos de razonamiento paso a paso. Introduce nuevos tokens para que el modelo cambie a un modo de pensamiento en espacio latente.

    • Copia repetidamente la capa oculta final en la capa de entrada para obtener más insights.
    • El entrenamiento reemplaza gradualmente los pasos de razonamiento en lenguaje por pasos autorregresivos en espacio latente. El modelo aprende a activar y terminar por sí mismo el modo de pensamiento en espacio latente.
  • Me pregunto si la gran mejora viene de saltarse los pasos de embedding/unembedding para el pensamiento interno, o si lo principal es el método de entrenamiento que enseña la transición entre CoT, el "pensamiento latente" y la salida de texto.

    • Es interesante que una cantidad fija de "pensamiento latente" tenga el mismo desempeño que un clasificador binario.
  • Podría ser el momento de "eso" para la IA/los LLMs. Los humanos no pensamos en "tokens". Si el modelo permanece en el espacio latente, podría describir ideas con mayor resolución que el lenguaje.

    • El espacio latente es barato de ejecutar. Puede pensar sin pasos de codificación/decodificación del lenguaje. Puede razonar usando distintos tipos de datos como entrada.
  • Los competidores se están poniendo al día rápidamente. Espero ver varios SkyNet compitiendo entre sí.

  • Me pregunto si la base de usuarios de personajes generados por IA de Facebook podrá tener mejores interacciones.

  • El sitio dice que simplifica artículos académicos, pero tiene muchos anuncios y no puedo encontrar "Coconut" en la página oficial de Meta FAIR. No sé si este sitio sea la mejor opción para enlazar.

  • Es un post duplicado de hace 20 días.