- Los modelos de lenguaje grandes (LLM) muestran una fuerte capacidad de razonamiento tras ser preentrenados con enormes cantidades de lenguaje humano
- El enfoque "Chain-of-Thought (CoT)" ayuda a obtener respuestas haciendo que el modelo genere su proceso de razonamiento paso a paso
- Sin embargo, el razonamiento de los LLM debe generarse en palabras, lo que impone una limitación fundamental al modelo
- Los humanos no siempre expresan sus pensamientos en lenguaje. ¿La IA también tendría que hacerlo?
- El paper de investigación de Meta, "Training Large Language Models to Reason in a Continuous Latent Space", propone un nuevo enfoque, COCONUT (Chain of Continuous Thought), para resolver estas limitaciones
Enfoque Chain-of-Thought (CoT)
- CoT recibe una pregunta como entrada y genera la respuesta final mediante un razonamiento paso a paso
- El modelo procesa los tokens de entrada para generar el primer token de respuesta (el inicio del proceso de razonamiento)
- Luego vuelve a ingresar repetidamente al modelo la pregunta y los tokens de razonamiento previos para completar todo el proceso de razonamiento y, al final, generar la respuesta
Enfoque Chain of Continuous Thought (COCONUT)
- COCONUT alterna entre el modo de lenguaje y el modo de pensamiento latente
- Modo de lenguaje: funciona como un modelo de lenguaje estándar y genera el siguiente token
- Modo de pensamiento latente: usa el último estado oculto para calcular el siguiente paso
- En el modo de pensamiento latente, usa el último estado oculto como la siguiente entrada, lo que permite un razonamiento más eficiente
- Inicia el modo de pensamiento latente con el token
<bot> y lo finaliza con el token <eot>, para luego volver al modo de lenguaje
Procedimiento de entrenamiento
- El modelo se entrena con base en datos CoT existentes (pregunta, pasos de razonamiento y respuesta final)
- El entrenamiento se hace por etapas:
- En la etapa inicial, el modelo aprende a generar pasos de razonamiento basados en lenguaje y la respuesta
- En etapas posteriores, se eliminan los pasos de razonamiento y en su lugar se agregan tokens de pensamiento latente
- En cada etapa, la pérdida se calcula sobre los pasos de razonamiento basados en lenguaje que aún permanecen y sobre la respuesta
- El pensamiento latente es completamente diferenciable, por lo que permite back-propagation (retropropagación)
Transición de generar pensamientos a generar tokens de palabras
- Existen dos estrategias para que el modelo cambie del modo de pensamiento latente al modo de lenguaje.
- La primera estrategia hace que "el modelo decida usando un clasificador binario", y la segunda usa "una cantidad fija de tokens de pensamiento latente"
- Ambas estrategias ofrecen resultados similares, por lo que se adoptó el método más simple de cantidad fija
Resultados experimentales
- El método Coconut muestra un rendimiento superior a No-CoT en todos los datasets.
- En comparación con CoT, CoT rinde mejor en matemáticas, pero Coconut supera a CoT en ProsQA, donde se requiere capacidad de planificación.
- En comparación con i-CoT, Coconut muestra mejor precisión en matemáticas.
- Rendimiento de Coconut:
- GSM8K (matemáticas): rendimiento inferior a CoT
- ProsQA (requiere planificación): rendimiento superior a CoT
- No-CoT (genera respuestas directas sin razonamiento): Coconut lo supera en todos los datasets
- En eficiencia, genera menos tokens que CoT
- Comparación con i-CoT:
- Mayor precisión en matemáticas
- Rendimiento similar en planificación y razonamiento lógico
- Efecto del aprendizaje curricular:
- El modelo "w/o curriculum" muestra un rendimiento mucho menor
Capacidad de razonamiento similar a BFS
- En el dataset ProsQA, COCONUT muestra resultados sobresalientes al resolver problemas centrados en planificación
- Caso de exploración de grafos:
- CoT: "alucina" relaciones inexistentes y llega a una respuesta incorrecta
- Coconut: puede encontrar la ruta correcta usando múltiples tokens de pensamiento latente
- Como Coconut puede explorar varias rutas posibles, muestra mejor rendimiento en tareas intensivas en planificación
Conclusión y líneas futuras de investigación
- Conclusión:
- El enfoque COCONUT mejora de forma importante la capacidad de razonamiento de los LLM
- El razonamiento en espacio latente ofrece un rendimiento sobresaliente en tareas centradas en planificación mediante patrones similares a BFS
- Líneas futuras de investigación:
- Integrar el pensamiento continuo desde la etapa de preentrenamiento
- Mejorar la eficiencia para procesar razonamiento secuencial múltiple
- Explorar la posibilidad de combinar CoT con pensamiento latente
1 comentarios
Opiniones de Hacker News
El énfasis en BFS es lo contrario de lo que intenté. Los humanos dividen el trabajo en pasos cortos guiados por instinto e intuición, y pasos largos donde resumen/guardan la siguiente etapa. Cuando falla, resumen el árbol del fracaso para excluirlo de elecciones futuras.
El siguiente paso es crear representaciones sin lenguaje humano. Si los LLMs pudieran comunicarse solo mediante embeddings, sin entrada de texto humano, eso abriría un nuevo capítulo para la IA.
Meta empieza con un modelo de lenguaje preentrenado y lo ajusta con ejemplos de razonamiento paso a paso. Introduce nuevos tokens para que el modelo cambie a un modo de pensamiento en espacio latente.
Me pregunto si la gran mejora viene de saltarse los pasos de embedding/unembedding para el pensamiento interno, o si lo principal es el método de entrenamiento que enseña la transición entre CoT, el "pensamiento latente" y la salida de texto.
Podría ser el momento de "eso" para la IA/los LLMs. Los humanos no pensamos en "tokens". Si el modelo permanece en el espacio latente, podría describir ideas con mayor resolución que el lenguaje.
Los competidores se están poniendo al día rápidamente. Espero ver varios SkyNet compitiendo entre sí.
Me pregunto si la base de usuarios de personajes generados por IA de Facebook podrá tener mejores interacciones.
El sitio dice que simplifica artículos académicos, pero tiene muchos anuncios y no puedo encontrar "Coconut" en la página oficial de Meta FAIR. No sé si este sitio sea la mejor opción para enlazar.
Es un post duplicado de hace 20 días.