Coconut de Meta AI: cómo mejorar el razonamiento de los LLM con una cadena continua de pensamiento

(aipapersacademy.com)

6 puntos por GN⁺ 2025-01-01 | 1 comentarios | Compartir por WhatsApp

Los modelos de lenguaje grandes (LLM) muestran una fuerte capacidad de razonamiento tras ser preentrenados con enormes cantidades de lenguaje humano
El enfoque "Chain-of-Thought (CoT)" ayuda a obtener respuestas haciendo que el modelo genere su proceso de razonamiento paso a paso
Sin embargo, el razonamiento de los LLM debe generarse en palabras, lo que impone una limitación fundamental al modelo
Los humanos no siempre expresan sus pensamientos en lenguaje. ¿La IA también tendría que hacerlo?
El paper de investigación de Meta, "Training Large Language Models to Reason in a Continuous Latent Space", propone un nuevo enfoque, COCONUT (Chain of Continuous Thought), para resolver estas limitaciones

Enfoque Chain-of-Thought (CoT)

CoT recibe una pregunta como entrada y genera la respuesta final mediante un razonamiento paso a paso
El modelo procesa los tokens de entrada para generar el primer token de respuesta (el inicio del proceso de razonamiento)
Luego vuelve a ingresar repetidamente al modelo la pregunta y los tokens de razonamiento previos para completar todo el proceso de razonamiento y, al final, generar la respuesta

Enfoque Chain of Continuous Thought (COCONUT)

COCONUT alterna entre el modo de lenguaje y el modo de pensamiento latente
- Modo de lenguaje: funciona como un modelo de lenguaje estándar y genera el siguiente token
- Modo de pensamiento latente: usa el último estado oculto para calcular el siguiente paso
En el modo de pensamiento latente, usa el último estado oculto como la siguiente entrada, lo que permite un razonamiento más eficiente
Inicia el modo de pensamiento latente con el token <bot> y lo finaliza con el token <eot>, para luego volver al modo de lenguaje

Procedimiento de entrenamiento

El modelo se entrena con base en datos CoT existentes (pregunta, pasos de razonamiento y respuesta final)
El entrenamiento se hace por etapas:
- En la etapa inicial, el modelo aprende a generar pasos de razonamiento basados en lenguaje y la respuesta
- En etapas posteriores, se eliminan los pasos de razonamiento y en su lugar se agregan tokens de pensamiento latente
En cada etapa, la pérdida se calcula sobre los pasos de razonamiento basados en lenguaje que aún permanecen y sobre la respuesta
El pensamiento latente es completamente diferenciable, por lo que permite back-propagation (retropropagación)

Transición de generar pensamientos a generar tokens de palabras

Existen dos estrategias para que el modelo cambie del modo de pensamiento latente al modo de lenguaje.
La primera estrategia hace que "el modelo decida usando un clasificador binario", y la segunda usa "una cantidad fija de tokens de pensamiento latente"
Ambas estrategias ofrecen resultados similares, por lo que se adoptó el método más simple de cantidad fija

Resultados experimentales

El método Coconut muestra un rendimiento superior a No-CoT en todos los datasets.
En comparación con CoT, CoT rinde mejor en matemáticas, pero Coconut supera a CoT en ProsQA, donde se requiere capacidad de planificación.
En comparación con i-CoT, Coconut muestra mejor precisión en matemáticas.
Rendimiento de Coconut:
- GSM8K (matemáticas): rendimiento inferior a CoT
- ProsQA (requiere planificación): rendimiento superior a CoT
- No-CoT (genera respuestas directas sin razonamiento): Coconut lo supera en todos los datasets
- En eficiencia, genera menos tokens que CoT
Comparación con i-CoT:
- Mayor precisión en matemáticas
- Rendimiento similar en planificación y razonamiento lógico
Efecto del aprendizaje curricular:
- El modelo "w/o curriculum" muestra un rendimiento mucho menor

Capacidad de razonamiento similar a BFS

En el dataset ProsQA, COCONUT muestra resultados sobresalientes al resolver problemas centrados en planificación
Caso de exploración de grafos:
- CoT: "alucina" relaciones inexistentes y llega a una respuesta incorrecta
- Coconut: puede encontrar la ruta correcta usando múltiples tokens de pensamiento latente
Como Coconut puede explorar varias rutas posibles, muestra mejor rendimiento en tareas intensivas en planificación

Conclusión y líneas futuras de investigación

Conclusión:
- El enfoque COCONUT mejora de forma importante la capacidad de razonamiento de los LLM
- El razonamiento en espacio latente ofrece un rendimiento sobresaliente en tareas centradas en planificación mediante patrones similares a BFS
Líneas futuras de investigación:
- Integrar el pensamiento continuo desde la etapa de preentrenamiento
- Mejorar la eficiencia para procesar razonamiento secuencial múltiple
- Explorar la posibilidad de combinar CoT con pensamiento latente

1 comentarios

GN⁺ 2025-01-01

Opiniones de Hacker News

El énfasis en BFS es lo contrario de lo que intenté. Los humanos dividen el trabajo en pasos cortos guiados por instinto e intuición, y pasos largos donde resumen/guardan la siguiente etapa. Cuando falla, resumen el árbol del fracaso para excluirlo de elecciones futuras.
- El efecto del instinto disminuye bruscamente cuanto mayor es la distancia. Usar BFS reduce el valor del instinto y favorece el cálculo. El enfoque cambia según el tipo de problema.
- Si alguien quiere hacer un prototipo juntos, que me contacte.
El siguiente paso es crear representaciones sin lenguaje humano. Si los LLMs pudieran comunicarse solo mediante embeddings, sin entrada de texto humano, eso abriría un nuevo capítulo para la IA.
Meta empieza con un modelo de lenguaje preentrenado y lo ajusta con ejemplos de razonamiento paso a paso. Introduce nuevos tokens para que el modelo cambie a un modo de pensamiento en espacio latente.
- Copia repetidamente la capa oculta final en la capa de entrada para obtener más insights.
- El entrenamiento reemplaza gradualmente los pasos de razonamiento en lenguaje por pasos autorregresivos en espacio latente. El modelo aprende a activar y terminar por sí mismo el modo de pensamiento en espacio latente.
Me pregunto si la gran mejora viene de saltarse los pasos de embedding/unembedding para el pensamiento interno, o si lo principal es el método de entrenamiento que enseña la transición entre CoT, el "pensamiento latente" y la salida de texto.
- Es interesante que una cantidad fija de "pensamiento latente" tenga el mismo desempeño que un clasificador binario.
Podría ser el momento de "eso" para la IA/los LLMs. Los humanos no pensamos en "tokens". Si el modelo permanece en el espacio latente, podría describir ideas con mayor resolución que el lenguaje.
- El espacio latente es barato de ejecutar. Puede pensar sin pasos de codificación/decodificación del lenguaje. Puede razonar usando distintos tipos de datos como entrada.
Los competidores se están poniendo al día rápidamente. Espero ver varios SkyNet compitiendo entre sí.
Me pregunto si la base de usuarios de personajes generados por IA de Facebook podrá tener mejores interacciones.
El sitio dice que simplifica artículos académicos, pero tiene muchos anuncios y no puedo encontrar "Coconut" en la página oficial de Meta FAIR. No sé si este sitio sea la mejor opción para enlazar.
Es un post duplicado de hace 20 días.

Coconut de Meta AI: cómo mejorar el razonamiento de los LLM con una cadena continua de pensamiento

Enfoque Chain-of-Thought (CoT)

Enfoque Chain of Continuous Thought (COCONUT)

Procedimiento de entrenamiento

Transición de generar pensamientos a generar tokens de palabras

Resultados experimentales

Capacidad de razonamiento similar a BFS

Conclusión y líneas futuras de investigación

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News