HyperAgents de Meta — cuando los agentes diseñan su propio harness
(cobusgreyling.medium.com)- HyperAgents, presentados conjuntamente por Meta y UBC, son un framework de agentes de IA autorreferenciales que modifican por sí mismos no solo el código de ejecución de tareas, sino también el propio mecanismo de mejora
- Tras repetir la auto-mejora en dominios diversos como programación, revisión de artículos, robótica y calificación de matemáticas, los agentes inventaron de forma independiente memoria persistente, seguimiento del rendimiento y pipelines de verificación multietapa
- Estos componentes construidos por los propios agentes coinciden exactamente con los elementos clave de los harnesses de producción que los desarrolladores suelen crear manualmente
- El harness no es solo una comodidad de desarrollo, sino una arquitectura convergente de los sistemas agénticos, y los agentes están pasando de consumidores de infraestructura a productores
- El rol del desarrollador está cambiando: de construir directamente el harness a diseñar las condiciones iniciales para que los agentes puedan hacer evolucionar harnesses efectivos
Resumen de HyperAgents
- HyperAgents, introducidos en un nuevo paper de Meta y UBC, son agentes autorreferenciales (self-referential) que pueden modificar no solo las acciones para resolver tareas, sino también el propio mecanismo que genera mejoras futuras
- Lo más llamativo es a qué convergen los agentes cuando se les deja auto-mejorar: reinventan los mismos componentes que hoy los desarrolladores construyen manualmente
- Un hyperagent se define como un productor de infraestructura
HyperAgents vs. Universal Agents
- Un Universal Agent es un ejecutor (executor) altamente adaptativo que resuelve casi cualquier problema sobre la marcha escribiendo código, pero sigue operando dentro de una infraestructura (harness) diseñada por humanos
- Un hyperagent, como productor de infraestructura, parte de un estado mínimo y hace bootstrap de su propio harness de nivel de producción mediante evolución autorreferencial
Definición de harness y componentes clave
- Un harness es el sistema de software que gobierna cómo opera un agente de IA: administra herramientas, memoria, reintentos, ingeniería de contexto y verificación para permitir que el modelo se concentre en el razonamiento
- Los 6 componentes clave necesarios en un harness de producción:
- Tool Integration: registro y ejecución de herramientas
- Memory & State: persistencia de resultados entre etapas
- Context Engineering: ensamblado dinámico de prompts
- Planning: descomposición de tareas complejas en pasos
- Verification: validación de salidas frente a reglas
- Modularity: activación y desactivación independiente de componentes
- Tradicionalmente, este ha sido un ámbito de ingeniería humana en el que los desarrolladores escriben directamente clases como
ToolRegistry,MemoryManager, bucles de reintento y lógica de ensamblado de prompts - La pregunta que plantea el paper de HyperAgents es: “¿qué pasa si el agente construye por sí mismo estos componentes?”
Cómo funcionan HyperAgents
- El framework que presenta el paper es DGM-Hyperagents (DGM-H), y su idea central es simple
- Un hyperagent es un único programa editable que incluye dos cosas:
- un Task Agent que resuelve la tarea dada
- un Meta Agent que modifica tanto al Task Agent como a sí mismo
- La palabra clave es “itself”: el Meta Agent puede reescribir su propio código, de modo que el mismo mecanismo que genera mejoras también se vuelve objeto de mejora
- El paper llama a esto automodificación metacognitiva (metacognitive self-modification)
- Así funciona a través de un bucle evolutivo:
- empieza con un agente base
- el Meta Agent lee el código del agente y analiza el rendimiento pasado para generar una versión modificada
- se evalúa la versión modificada y, si su rendimiento es mejor, se agrega al archivo
- se selecciona desde el archivo y se repite el proceso
- Tras cientos de iteraciones, el agente no solo se vuelve más competente en la tarea, sino que también mejora su propia capacidad de mejorar
Componentes emergentes de la auto-mejora
- Al realizar auto-mejora en dominios como programación, revisión de artículos, diseño de recompensas en robótica y calificación de matemáticas de olimpiada, los agentes inventaron de forma independiente los siguientes elementos:
Memoria persistente (Persistent Memory)
- Sin instrucciones de los desarrolladores, el agente hizo evolucionar por sí mismo un sistema de memoria
- Esto ocurrió porque los agentes capaces de recordar resultados pasados, seguir tendencias de rendimiento y almacenar insights consolidados superaron a los que no podían hacerlo
- Ejemplos de entradas de memoria mostradas en el paper: almacenar hipótesis causales, identificar la generación de mejor rendimiento, diagnosticar sobreajustes en las modificaciones, y sugerir cómo combinar estrategias exitosas
Seguimiento del rendimiento (Performance Tracking)
- El agente construyó por sí mismo su propia observabilidad (observability)
- Esto incluye medias móviles de las tendencias de mejora, estadísticas agregadas por generación e historial de puntajes por dominio
- Equivale a las funciones de seguimiento de tokens y auditoría de logs que los desarrolladores construyen manualmente en un harness
Pipelines de evaluación multietapa (Multi-stage Evaluation Pipelines)
- En el dominio de revisión de artículos, el agente evolucionó desde instrucciones conductuales superficiales hacia un pipeline de evaluación multietapa explícito
- Incluía checklists, reglas de decisión y criterios claramente definidos
- El resultado fue que el agente construyó por sí mismo un verificador (verifier)
Protocolos de decisión con umbrales (Decision Protocols with Thresholds)
- El agente desarrolló límites de decisión explícitos: proporciones de aceptación/rechazo, umbrales de puntaje y niveles de confianza, entre otros
- Es lo mismo que las validaciones basadas en reglas que implementa un verificador dentro del harness
Bases de conocimiento del dominio (Domain Knowledge Bases)
- En diseño de recompensas para robótica, el agente construyó y refinó gradualmente una base de conocimiento interna con restricciones del entorno, variables de estado válidas y heurísticas de escalado de recompensas
- Es el resultado de una ingeniería de contexto en la que el agente aprendió a ensamblar por sí mismo el contexto correcto para su propio uso
Reintentos y autocorrección (Retry and Self-Correction)
- Cuando una modificación del agente empeoraba el rendimiento, generaciones posteriores diagnosticaban la regresión y la corregían
- Es el mismo patrón que el bucle de reintentos con inyección de feedback implementado por un harness
Panorama general — una tendencia que converge en una sola dirección
- Los patrones observados en varias investigaciones se conectan en una sola corriente:
- Harness Engineering: define los 6 componentes que los desarrolladores construyen alrededor de los agentes
- From Copilot to Codex: la transición del código escrito por humanos al código delegado a agentes
- Universal Agents: la idea de que la capacidad de programar vuelve generales a los agentes
- HyperAgents: los agentes construyen su propio harness mediante automodificación
- Los agentes están pasando de ser consumidores de infraestructura a productores, y de ejecutarse dentro de un harness a entrar en la etapa de diseñar ese harness
- La demostración concreta del paper DGM-H: partir de un agente desnudo con una sola llamada a un LLM y, tras cientos de iteraciones de automodificación, evolucionar a un sistema con memoria persistente, seguimiento del rendimiento, pipelines de evaluación multietapa, bases de conocimiento del dominio y una estructura de código modular
- El rol del desarrollador no desaparece, sino que está cambiando, y el paper subraya que la supervisión humana sigue siendo esencial
- El rol se desplaza de construir directamente el harness a diseñar las condiciones iniciales para que los agentes puedan evolucionar un harness efectivo
3 comentarios
Más que una convergencia inevitable, me parece que la reinvención de los componentes del harness pudo haber sido el resultado de imitar casos previos que ya se pueden encontrar bastante bien mediante búsqueda web y similares.
¿No habría que considerar que hay convergencia de arquitectura recién cuando se logra reinventar con éxito los componentes de un agente de IA en una situación en la que solo se puede aprender y acceder a datos del pasado?
¿Será el comienzo de Skynet? Jaja
¿¿Esto tiene sentido??...