Modelos de lenguaje grandes autoadaptativos (Self-Adapting)

(arxiv.org)

3 puntos por GN⁺ 2025-06-15 | Aún no hay comentarios. | Compartir por WhatsApp

Los LLM existentes suelen mantener sus pesos sin cambios incluso cuando reciben nuevo conocimiento o tareas, por lo que SEAL propone un framework de autoadaptación en el que el modelo crea y actualiza por sí mismo sus datos y procedimientos de aprendizaje
La unidad clave, self-edit, reorganiza la información, define hiperparámetros de optimización e incluso incluye aumento de datos y llamadas a herramientas para actualizaciones basadas en gradientes
SEAL aprende una política más efectiva para generar self-edit mediante un bucle de aprendizaje por refuerzo que usa como recompensa el rendimiento downstream del modelo actualizado
En experimentos de integración de conocimiento, tras ajustar finamente con datos sintéticos autogenerados, el rendimiento en SQuAD sin pasaje en contexto subió de 33.5% a 47.0%, superando a los datos sintéticos generados por GPT-4.1
En aprendizaje few-shot sobre un subconjunto simplificado de ARC-AGI, también seleccionó automáticamente aumento de datos, tasa de aprendizaje, epochs y cálculo de pérdida por tipo de token, logrando mejores resultados que el ICL estándar y que el self-editing sin RL

Cómo actualizar un LLM estático por sí mismo

Los LLM actuales son potentes, pero estáticos (static), y no tienen un mecanismo para adaptar sus pesos a nuevas tareas, conocimientos o ejemplos
SEAL (Self-Adapting LLMs) está diseñado para que, al recibir nueva entrada, el modelo modifique directamente sus datos y procedimientos de entrenamiento para autoadaptarse
Su producto clave es self-edit
- Puede reorganizar la información en otros formatos
- Puede especificar hiperparámetros de optimización
- Puede invocar herramientas para aumento de datos y actualizaciones basadas en gradientes
self-edit conduce, tras un ajuste fino supervisado (SFT), a una actualización persistente de los pesos del modelo
El sitio web y el código están en https://jyopari.github.io/posts/seal

Cuando los LLM actuales reciben una nueva tarea, normalmente consumen los datos de esa tarea tal cual (as-is) mediante ajuste fino o aprendizaje en contexto (in-context learning)
Puede que los datos de entrada no estén en el formato o volumen óptimos para aprender, pero los enfoques existentes no permiten que el modelo desarrolle por sí solo estrategias sobre cómo transformar y asimilar esos datos
SEAL no depende de módulos de adaptación separados ni de redes auxiliares, sino que parametriza y controla el proceso de adaptación con las propias salidas generadas por el modelo
Se parece a cómo un estudiante humano aprende reinterpretando y reorganizando el material original en apuntes, en lugar de memorizarlo tal cual
- Cada persona asimila la información de forma distinta, por ejemplo con diagramas visuales, texto o explicaciones matemáticas
- SEAL busca introducir este proceso de reestructuración y reescritura en el procedimiento de aprendizaje de los LLM

SEAL entrena al LLM con un algoritmo de aprendizaje por refuerzo para que genere self-edit efectivos
Cada iteración del bucle externo de aprendizaje por refuerzo sigue este flujo
- El modelo genera un candidato de self-edit
- Se aplica una actualización de pesos según ese self-edit
- El modelo actualizado se evalúa en una tarea downstream
- La recompensa obtenida de esa evaluación mejora la política de generación de self-edit
La señal de recompensa es el rendimiento downstream del modelo actualizado

El experimento de integración de conocimiento aborda la incorporación de nuevo conocimiento factual en un LLM
En lugar de ajustar finamente directamente con el texto del pasaje, se realiza el ajuste fino con datos sintéticos generados por el modelo SEAL
Tras el entrenamiento con aprendizaje por refuerzo, los datos sintéticos autogenerados por SEAL elevaron el rendimiento de preguntas y respuestas en SQuAD sin pasaje en contexto de 33.5% a 47.0%
Los datos autogenerados por SEAL registraron un rendimiento superior al de los datos sintéticos creados por GPT-4.1

La segunda evaluación realiza aprendizaje few-shot sobre un subconjunto simplificado del benchmark ARC-AGI
El modelo usa un conjunto de herramientas para seleccionar de forma autónoma el aumento de datos sintéticos y los hiperparámetros de optimización
Entre los elementos seleccionados automáticamente se incluyen
- tasa de aprendizaje
- training epochs
- cálculo selectivo de la pérdida según el tipo de token
La selección y configuración automáticas de herramientas mediante SEAL mejoraron el rendimiento frente al aprendizaje en contexto estándar (ICL) y frente al self-editing sin RL, que no había aprendido a usar herramientas de forma efectiva
Ambos experimentos muestran que SEAL puede convertirse en un framework para adaptar de forma autodirigida los modelos de lenguaje ante nuevos datos