3 puntos por GN⁺ 2025-06-15 | 1 comentarios | Compartir por WhatsApp
  • Los modelos de lenguaje grandes (LLM) existentes tienen una capacidad limitada para adaptarse de inmediato a nuevas tareas o conocimientos
  • El nuevo framework SEAL permite que los LLM tengan una capacidad de autoadaptación al generar por sí mismos sus datos de ajuste fino y las instrucciones de actualización
  • Este proceso incluye la generación de self-edits, la ejecución de instrucciones y una mejora continua del rendimiento mediante un ciclo de aprendizaje por refuerzo (RL)
  • SEAL demuestra un mejor rendimiento que los métodos existentes en experimentos de integración de nuevo conocimiento y generalización few-shot
  • Este estudio presenta un paso prometedor hacia la realización de LLM con capacidad de adaptación autoinstruida

Resumen

  • Los modelos de lenguaje grandes (LLM) muestran un rendimiento sólido, pero carecen de un mecanismo para ajustar dinámicamente sus propios pesos según nuevas tareas, información o ejemplos
  • Este artículo presenta el framework Self-Adapting LLM (SEAL), que permite que el LLM genere por sí mismo los datos para ajuste fino y las instrucciones de actualización
  • Cuando SEAL recibe una nueva entrada, el modelo genera self-edits como reestructurar la información de distintas maneras, especificar hiperparámetros de optimización, o invocar herramientas para aumento de datos y actualizaciones basadas en gradientes
  • Estos self-edits conducen a actualizaciones permanentes en los pesos del modelo mediante un proceso de ajuste fino supervisado (SFT), lo que garantiza una capacidad de adaptación continua
  • Para generar self-edits efectivos, utiliza un ciclo de aprendizaje por refuerzo y emplea el rendimiento downstream después de actualizar el modelo como señal de recompensa

Analogía con el aprendizaje humano

  • Se inspira en la forma en que un estudiante, al prepararse para un examen, reescribe en sus propias notas la información obtenida de clases, libros de texto o internet
  • Cada persona reorganiza la información de manera distinta: algunas la resumen con diagramas, otras con texto y otras con fórmulas
  • Esto refleja que reorganizar o reforzar el conocimiento externo para hacerlo más fácil de entender por cuenta propia es una característica común del aprendizaje humano
  • Los LLM existentes, cuando reciben una nueva tarea, solo realizan ajuste fino sobre el dataset dado o aprendizaje en contexto
  • Sin embargo, este enfoque tiene la limitación de que el formato o la cantidad de datos no necesariamente están optimizados para el aprendizaje

SEAL: propuesta de un framework de autoadaptación

  • SEAL se entrena con un algoritmo de aprendizaje por refuerzo para que el LLM genere por sí mismo datos de entrenamiento e instrucciones de ajuste fino en lenguaje natural
  • Aquí, un self-edit es una instrucción en forma de comando que especifica datos y, opcionalmente, hiperparámetros de optimización
  • SEAL se caracteriza por controlar directamente su propio proceso de adaptación solo con la capacidad de generación en lenguaje natural del modelo, sin módulos adicionales ni redes auxiliares

Cómo funciona SEAL

  • En cada iteración del ciclo externo de aprendizaje por refuerzo (RL), el modelo genera self-edits candidatos
  • Se actualizan los pesos aplicando el self-edit generado
  • Después, se evalúa el rendimiento del modelo en una tarea downstream y se obtiene una señal de recompensa a partir de ese resultado
  • Con esa señal de recompensa, se mejora de forma iterativa la política de generación de self-edits

Experimentos y resultados

  • En la tarea de integración de conocimiento, SEAL realiza ajuste fino usando datos sintéticos generados por el propio modelo
    • En la versión sin pasaje en contexto de SQuAD, el rendimiento de preguntas y respuestas mejoró significativamente de 33.5% antes del entrenamiento con RL a 47.0% después
    • Los datos generados por SEAL mostraron un rendimiento incluso mejor que los datos sintéticos creados por GPT-4.1
  • En los experimentos de aprendizaje few-shot, se utilizó una versión simplificada del benchmark ARC-AGI, donde SEAL selecciona directamente datos aumentados e hiperparámetros de optimización
    • Selecciona automáticamente distintas combinaciones de herramientas, como tasa de aprendizaje, épocas y cálculo selectivo de pérdida según el tipo de token
    • El uso de SEAL con aprendizaje por refuerzo logró una mejora de rendimiento, y resultó más efectivo que el aprendizaje en contexto simple o que usar solo herramientas sin RL

Conclusión

  • El framework SEAL demuestra experimentalmente que es posible la autoadaptación de los LLM mediante datos e instrucciones autogenerados
  • Este enfoque sugiere un avance importante para el desarrollo futuro de modelos de lenguaje de próxima generación con eficiencia de datos, adaptabilidad y generalidad

1 comentarios

 
GN⁺ 2025-06-15
Comentarios de Hacker News
  • Dos amigos genios de las matemáticas me hablaban seguido del algoritmo NEAT/HyperNEAT (Neuroevolution of Augmented Topologies) cuando se metieron a ML muy temprano, a mediados de la década de 2010 [enlace a Wikipedia de NEAT]. No soy experto en ML, así que puede que no sea exacto, pero entiendo que la diferencia es que NEAT evoluciona la topología de la red, mientras que este paper evoluciona los pesos. En el fondo, creo que son dos enfoques distintos para resolver el mismo problema: cambiar la estructura de la red vs. cambiar los pesos. Esos dos amigos parecían creer firmemente que el futuro de la IA estaba en RL (aprendizaje por refuerzo) y en los algoritmos evolutivos.

    • Tengo un video introductorio de NEAT que es mi favorito: SethBling, MarI/O - Machine Learning for Video Games [enlace a YouTube]

    • Me parece impresionante lo que hace el ser humano. Creamos sistemas computacionales virtuales para tratar de entender las neuronas, luego nos damos cuenta de que en realidad no funcionan así, y aun así tomamos ideas de esos sistemas imaginarios para crear tecnologías innovadoras. Y todavía hoy seguimos inspirándonos en esos sistemas imaginados para seguir avanzando.

    • Últimamente me obsesioné por completo con esta idea de NEAT/evolución. Después de tener algo de éxito usando un algoritmo genético en un proyecto de clonación de voz con Kokoro, me puse a pensar si sería posible evolucionar la propia estructura de la red para lograr una “inteligencia que se ensambla sola”. Me da curiosidad qué haría falta para que esto fuera viable de verdad, y viendo cómo aparecieron los LLM, me pregunto si un enfoque híbrido no será una alternativa realista.

  • Me parece muy ingenioso el enfoque de “self-edit”, donde el modelo usa RL para reestructurar por sí mismo la información y así mejorar la eficiencia del aprendizaje. La idea central es que distintas clases de conocimiento se representan mejor de formas distintas (igual que tomar apuntes de matemáticas no es lo mismo que tomar apuntes de historia). Hay dos observaciones importantes. Primero, el resultado en integración de conocimiento (47% vs 46.3%, con datos de GPT-4.1) no viene simplemente de meter más datos, sino de que el modelo realmente encontró un formato de aprendizaje mejor. El problema del olvido catastrófico todavía no está resuelto, y tampoco está claro cuánto mejora de verdad la diversidad de los datos. Segundo, cada evaluación de recompensa tarda entre 30 y 45 segundos, así que para la mayoría de los usos prácticos es demasiado. Pero en casos como el procesamiento de documentos realmente importantes, donde se necesita una retención óptima de la información, puede valer la pena la inversión. Una gran limitación es que esto se restringe a tareas con métricas de evaluación claras (porque para calcular la recompensa hacen falta preguntas y respuestas de referencia o casos de prueba). Aun así, en ámbitos como documentación técnica o materiales educativos, donde la evaluación se puede automatizar, sí podría abrir un paradigma completamente nuevo para el procesamiento del conocimiento. Todavía no llegamos a agentes totalmente auto-mejorables, pero sí se siente como un avance importante hacia modelos que mejoran por sí solos su forma de aprender.

  • Hace unos días, Anthropic también publicó una investigación parecida sobre self finetuning [enlace al paper en arXiv]

    • Hay una discusión relacionada que sigue activa [hilo vinculado en HN]

    • Me parece realmente sorprendente. Según el criterio de RM de nivel de producción para Claude 3.5 Sonnet, se evalúa que una política de assistant no supervisada supera en comparación relativa por un 60% a una política entrenada con RM bajo supervisión humana. Creo que ya entramos en una etapa en la que los modelos pueden rendir mejor entre sí incluso sin guía humana.

  • Los modelos de lenguaje grandes (LLM) son poderosos, pero el problema es que no tienen un mecanismo para adaptar sus pesos cuando se les asigna una tarea nueva. En la inteligencia humana, aprender y aplicar lo aprendido están integrados en un solo ciclo de retroalimentación, pero en los LLM el entrenamiento y la inferencia están completamente separados. Desplegamos un modelo nuevo que “aprendió” un poco más y desechamos el anterior. En los LLM, la inferencia es el final del aprendizaje. Creo que este es el malentendido más extendido sobre la IA. Si uno se convence de que los LLM aprenden, es fácil caer en la ilusión de que la AGI está a la vuelta de la esquina.

    • Como en el caso de Deepseek, se puede usar aprendizaje por refuerzo para refinar el rendimiento de un LLM.

    • ¿Y si se pudiera volver a entrenar un LLM según la reacción del usuario (positiva/negativa)? Me imagino que podría montarse un ciclo de retroalimentación usando los datos de entrada y salida.

  • Me encantaría que algún experto que de verdad conozca bien el estado actual y los límites de investigar cómo hacer que un LLM siga aprendiendo “en producción”, por ejemplo haciendo que un agente orientado a código aprenda una base de código con el tiempo, hiciera un resumen claro (¿costos? ¿colapso del modelo? ¿otras cosas?). Seguro los grandes laboratorios están intentando esto, pero desde la perspectiva del usuario común casi no se oye hablar del tema. Ahora mismo parece que toda la atención está en mejores métodos de entrenamiento basados en RL, y que lo que el modelo no aprendió durante el entrenamiento luego se le mete a la fuerza por contexto. Pero tengo la impresión de que la ausencia de autoaprendizaje en tiempo real basado en experiencia es justo el punto que marca la diferencia con la AGI.

    • El aprendizaje continuo (continual learning) por ahora no tiene una solución clara. Tiene sentido que se mencionen razones como recursos computacionales, colapso del modelo, olvido, etc. El único camino parece ser: 1) entrenar el modelo 2) agregar datos nuevos 3) reentrenarlo por completo 4) repetir. En términos de tiempo, ningún enfoque ofrece garantías totales. En el campo de CL de verdad no hay una respuesta “real”. Hay que expandir el espacio de representación del modelo mientras se preserva al máximo el anterior, y pedir ambas cosas a la vez es casi imposible. Los seres vivos con sistema nervioso parecen hacerlo con muchísima facilidad, pero en IA esta tarea es brutalmente difícil. Creo que tal vez la inteligencia artificial también necesite algo como “sueño” o “descanso”.

    • No soy experto, pero creo que los temas de privacidad también juegan un papel importante. Para hacer aprendizaje continuo, por tráfico o por costos, probablemente habría que hacerlo con datos agregados y no a nivel de usuario, pero eso crea riesgo de fuga de información entre sesiones. Estoy totalmente de acuerdo en que encontrar una forma segura de hacer aprendizaje continuo es uno de los mayores obstáculos hacia la AGI.

    • El problema de la confiabilidad también es grande. Como no hay suficiente confianza en la evaluación automática, no se despliega de inmediato una versión de continuous training automatizada hasta confirmar que de verdad mejoró el rendimiento. Al final se juntan varias actualizaciones y solo después de una revisión final (“vibe check”) se reflejan en producción.

    • El problema más claro parece ser que el ajuste fino continuo de un LLM puede desordenar con facilidad su “alignment”. En consecuencia, no se puede garantizar estabilidad ni seguridad.

    • Creo que el obstáculo más evidente es el problema del olvido catastrófico.

  • Mi CPU es un neural-net processor, un learning computer. Pero me viene a la mente la cita de Skynet sobre que, cuando lo envían solo, ponen el switch en modo read-only (referencia a Terminator).

  • Sitio web oficial con código y ejemplos [página del proyecto SEAL]

  • Según la proyección de Villalobos et al. [75], para 2028 los frontier LLM llegarán al límite de todo el texto escrito por humanos que está públicamente disponible. Se argumenta que este “muro de datos” impulsará la necesidad de synthetic data augmentation. Cuando se agoten los corpus a escala web, los modelos solo podrán seguir avanzando si son capaces de generar por sí mismos nuevas señales de entrenamiento de alta eficiencia. En resumen, la idea es metaentrenar un modelo generador de datos sintéticos de SEAL, usarlo para hacer pretraining con datos frescos y así mejorar la eficiencia de modelos futuros. Tomando en cuenta que 2028 ya está cerca, me parece una idea muy reveladora.

  • Parece que “olvidar correctamente” ahora se está volviendo un problema más importante que “aprender correctamente”. Ha habido grandes avances para absorber hechos nuevos con rapidez, pero seguimos muy atrás en técnicas para descartar de forma eficiente información menos importante dentro de una capacidad finita. El “olvido correcto” es algo que el cerebro humano hace muy bien, y me intriga cómo funciona en realidad.

    • No estoy de acuerdo con que el ser humano sea tan bueno “olvidando correctamente”. De hecho, no creo que los humanos tengamos un sistema tan extraordinario. Pienso que la capacidad del cerebro es tan grande que no borra espacio a propósito para meter información nueva; más bien olvidamos cuando la información vieja y mala interfiere con el aprendizaje nuevo.

    • Creo que el aprendizaje y el spaced repetition (repetición espaciada) están muy conectados. Se asocia mucho con herramientas como Anki, pero el mundo real en sí mismo ya es spaced repetition: ciclos naturales que encontramos a intervalos regulares (día y noche, estaciones, lugares que frecuentamos, personas que vemos seguido, etc.). Me pregunto si no existirá también una versión “inversa” de este concepto.

    • En una investigación que hice, vi que los LLM “ocultan” datos internos. No es que simplemente “olviden”; esa información puede volver a salir a la superficie más adelante con entrenamiento adicional. Por eso, si durante el entrenamiento del modelo no se revisa continuamente el estado real de toda la memoria, una inspección parcial tiene límites importantes.

    • ¿No será algo tipo least-recently-used? Lo estoy probando mentalmente como experimento. Por eso este campo me parece tan interesante.

  • A simple vista, esto parece un framework para ajustar fino un adapter LoRA y luego fusionarlo con el modelo base. Está usando la función “merge_and_unload” de PeftModel de HuggingFace para integrar el adapter en el modelo base… no me queda claro qué tiene de nuevo.

    • Parece que el principal diferenciador es la estabilidad. Es una estructura pensada para evitar el alignment tax y el colapso del modelo. Me gustaría ver una arquitectura de círculo completo con una hiperrred, es decir, dos modelos que se vayan actualizando continuamente con LoRA, mientras la hiperrred también se actualiza para incorporar el nuevo estado del modelo. Si se usara una meta-hiperrred para aplicar LoRA también a la hiperrred, ahí sí podría haber una posibilidad real de continuous learning.