[2026/06/01 ~ 07] Artículos de AI/ML para revisar esta semana

PyTorchKR🔥🇰🇷 🤔💭

Al revisar los 10 artículos seleccionados de esta semana, se ve una rápida convergencia en torno a la gestión de estado de agentes basados en modelos de lenguaje grandes (LLM), la eficiencia de la inferencia y la seguridad y verificabilidad en entornos reales. En particular, fue posible identificar líneas de investigación muy interesantes, desde cambios estructurales para maximizar la eficiencia de los agentes, hasta un rediseño fundamental de la arquitectura Transformer y el aseguramiento de robustez para adaptarse a entornos dinámicos del mundo real.

:one: Innovación en los flujos de trabajo de agentes: externalización del estado e internalización de la lógica de inferencia (Internalization) En los artículos de esta semana destacaron dos enfoques opuestos pero complementarios para resolver los costos y cuellos de botella de contexto que surgen cuando los agentes realizan tareas complejas y de larga duración. Harness-1 y AdaCoM aumentan la estabilidad de tareas extensas al descargar en el entorno externo o en un modelo de gestión separado la carga de administrar el estado o contexto que el agente debe recordar. En cambio, Latent Agents y la investigación sobre la internalización de flujos de trabajo agénticos (Subterranean Agents) proponen un post-entrenamiento que compila directamente dentro de los pesos de un único modelo los complejos procesos de comunicación entre orquestadores externos o múltiples agentes. Con esto, el modelo puede debatir por sí mismo o realizar razonamiento procedimental sin depender de prompts ni de coordinación externa, lo que apunta a mantener un rendimiento de nivel frontier mientras reduce de forma drástica el costo de inferencia y el uso de tokens.

:two: Rediseño de la arquitectura base: fusión del mecanismo de atención y optimización de parámetros También es una tendencia fuerte la investigación fundamental que busca superar las ineficiencias computacionales básicas del Transformer y reducir el uso de memoria. El artículo SISA (Forget Attention) logra al mismo tiempo capacidad de recuperación global y priorización secuencial al inyectar directamente en el cálculo de puntajes de atención la señal de importancia secuencial de los modelos de espacio de estados (SSM), mediante una “fusión a nivel de puntaje”. Además, el estudio sobre variantes de QKV (Do Transformers Need Three Projections?) cuestiona el estándar asumido de separar query, key y value, y demuestra empíricamente que un esquema de proyección compartida entre key y value (Q-K=V) puede reducir de forma considerable la caché KV con una pérdida mínima de rendimiento. Estas mejoras estructurales a nivel de arquitectura van más allá de simplemente aumentar el rendimiento: también amplían significativamente la viabilidad práctica de despliegue en dispositivos edge con memoria limitada y en entornos de IA on-device.

:three: Adaptación en tiempo real en entornos dinámicos y robustez a nivel de sistema Llaman la atención las investigaciones que no solo buscan generar respuestas correctas, sino también enfrentar activamente situaciones cambiantes y amenazas, haciendo evolucionar el propio sistema. MOSS amplía la autoevolución, antes limitada a modificar prompts, hacia la reescritura a nivel de código fuente, permitiendo que un sistema de agentes repare por sí mismo defectos estructurales. FuzzingBrain V2, por su parte, utiliza multiagentes para detectar y corregir vulnerabilidades reales de software de una manera 100% reproducible. Además, AdvGame aborda la alineación de seguridad de modelos de lenguaje como un juego no cooperativo en tiempo real entre atacante y defensor, aumentando la capacidad de defensa dinámica, mientras que el estudio Plan, Watch, Recover presenta un modelo de asistente proactivo capaz de intervenir y guiar en tiempo real cuando el usuario se desvía de un procedimiento establecido. Esto muestra que la IA está consolidándose como un sistema proactivo y confiable incluso fuera de laboratorios controlados, en medio de errores impredecibles y amenazas de seguridad del mundo real.

Resumen clave por artículo

Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses: un agente de búsqueda basado en aprendizaje por refuerzo que separa la carga de memoria del agente, dejándola en el harness y no en la política. Registró un curated recall promedio de 0.730 en 8 benchmarks, con un desempeño de transferencia especialmente sólido.
Forget Attention: Importance-Aware Attention Is All You Need: propone SISA, que inyecta directamente en los puntajes de atención la señal de importancia de los modelos de espacio de estados (SSM). Puede implementarse con una sola llamada a SDPA y mejora notablemente tanto el rendimiento de recuperación como la restauración de dependencias de largo alcance.
Do Transformers Need Three Projections? Systematic Study of QKV Variants: un estudio que analiza de manera sistemática cuánto puede compartirse la proyección QKV. Q-K=V mantuvo casi el mismo rendimiento mientras redujo significativamente la caché KV, y el ahorro de memoria fue aún mayor al combinarse con GQA/MQA.
Compiling Agentic Workflows into LLM Weights: aborda un enfoque que compila el propio procedimiento de trabajo dentro de los pesos del modelo en lugar de depender de orquestación externa. Reduce las llamadas repetidas y el consumo de contexto largo, al tiempo que alcanza una calidad cercana al nivel frontier.
Learning Agent-Compatible Context Management for Long-Horizon Tasks: propone AdaCoM, donde un LLM externo edita dinámicamente el contexto para un agente fijo. En búsquedas web de largo plazo y tareas de investigación, reduce información pasada innecesaria mientras preserva las restricciones de la tarea.
Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate: un método de post-entrenamiento que destila el debate multiagente dentro de un único LLM. Mostró un rendimiento igual o mejor que el debate explícito usando hasta 93% menos tokens.
MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems: un sistema de agentes que realiza autoevolución a nivel de código fuente, no de prompts. Reescribe la estructura del código con base en evidencia de fallas reales y lo despliega de forma verificable con posibilidad de rollback.
Safety Alignment of LMs via Non-cooperative Games: redefine la alineación de seguridad como un juego no cooperativo donde un LM atacante y un LM defensor se adaptan mutuamente. Mediante aprendizaje por refuerzo basado en preferencias, empuja simultáneamente la frontera de Pareto entre seguridad y utilidad.
Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance: un sistema de asistencia multimodal proactiva que aprende cuándo intervenir y cómo hacer que el usuario retome el procedimiento cuando se desvía. Evalúa el desempeño real de coaching de recuperación mediante EgoProactive y Pro²Bench.
FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction: un sistema de seguridad que automatiza el descubrimiento y la reproducción de vulnerabilidades con LLMs multiagente. Combinó validación basada en OSS-Fuzz, localización precisa de vulnerabilidades y fuzzing jerárquico para lograr alta tasa de detección y resultados reales en hallazgo de vulnerabilidades.

Harness-1: aprendizaje por refuerzo para agentes de búsqueda con harnesses de externalización de estado / Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

Introducción al artículo

Los agentes de búsqueda suelen entrenarse como políticas sobre transcripciones en crecimiento, donde el modelo debe decidir cómo buscar y al mismo tiempo recordar lo que ya vio, qué evidencia es útil, qué restricciones siguen abiertas y qué afirmaciones fueron realmente verificadas. Los autores consideran que esta configuración impone demasiada carga de gestión de estado dentro de la política, y hace que el aprendizaje por refuerzo tenga que optimizar al mismo tiempo decisiones de búsqueda significativas y una administración de registros recuperables que el entorno podría manejar de manera más estable.

Para resolver esto, proponen Harness-1, un agente de búsqueda de 20B entrenado con aprendizaje por refuerzo dentro de un harness de externalización de estado (state-externalizing harness). Este harness gestiona memoria de trabajo del lado del entorno, incluyendo un conjunto de candidatos, un conjunto depurado con etiquetas de importancia, enlaces de evidencia comprimidos, registros de verificación, observaciones comprimidas y deduplicadas, y renderizado de contexto con consideración de presupuesto.

En cambio, la política se encarga de las decisiones semánticas, como qué buscar, qué documentos conservar o descartar, qué verificar y cuándo terminar. En 8 benchmarks de búsqueda, incluidos web, finanzas, patentes y preguntas y respuestas de múltiples saltos, Harness-1 logró un curated recall promedio de 0.730, 11.4 puntos por encima del siguiente subagente de búsqueda open source más fuerte. En particular, la mejora fue notable en benchmarks de transferencia fuera del dominio de entrenamiento, lo que sugiere que el aprendizaje por refuerzo sobre un estado de búsqueda explícito puede crear comportamientos de recuperación que generalizan mejor.

Resumen(Abstract)

Los agentes de búsqueda a menudo se entrenan como políticas sobre transcripciones que van creciendo: es decir, el modelo debe decidir qué buscar al mismo tiempo que recuerda qué ha visto, qué evidencia es útil, qué restricciones siguen abiertas y qué afirmaciones realmente se han verificado.

Sostenemos que esta formulación mete demasiado manejo rutinario del estado dentro de la política. Es decir, obliga al aprendizaje por refuerzo (RL) a optimizar tanto las decisiones semánticas de búsqueda como la gestión recuperable de registros que el entorno puede mantener de forma más confiable.

Presentamos Harness-1, un agente de búsqueda de 20B (subagente de recuperación) entrenado con aprendizaje por refuerzo dentro de un harness de búsqueda con estado (stateful search harness). Este harness mantiene una memoria de trabajo del lado del entorno, que incluye un conjunto de candidatos, un conjunto curado etiquetado por importancia, enlaces compactos de evidencia, registros de verificación, observaciones comprimidas y sin duplicados, y renderizado de contexto consciente del presupuesto. La política conserva las decisiones semánticas: qué buscar, qué documentos mantener o descartar, qué verificar y cuándo detenerse.

A lo largo de 8 benchmarks de recuperación que abarcan web, finanzas, patentes y QA de múltiples saltos, Harness-1 alcanzó un curated recall promedio de 0.730, superando al segundo mejor subagente de búsqueda abierto por +11.4 puntos y mostrando un rendimiento competitivo incluso frente a buscadores mucho más grandes basados en frontier models. Sus mejoras fueron especialmente marcadas en benchmarks de transferencia no vistos, lo que sugiere que el aprendizaje por refuerzo sobre un estado de búsqueda explícito puede producir comportamientos de recuperación que generalizan más allá de los dominios de entrenamiento. Código: https://github.com/pat-jj/harness-1

Search agents are often trained as policies over growing transcripts: the model must decide how to search while also remembering what it has seen, which evidence is useful, which constraints remain open, and which claims have actually been checked. We argue that this formulation puts too much routine state management inside the policy: reinforcement learning is forced to optimize both semantic search decisions and recoverable bookkeeping that the environment can maintain more reliably. We introduce Harness-1, a 20B search agent (retrieval subagent) trained with reinforcement learning inside a stateful search harness. The harness maintains environment-side working memory, including a candidate pool, an importance-tagged curated set, compact evidence links, verification records, compressed and deduplicated observations, and budget-aware context rendering. The policy retains the semantic decisions: what to search, which documents to keep or discard, what to verify, and when to stop. Across eight retrieval benchmarks spanning web, finance, patents, and multi-hop QA, Harness-1 achieves 0.730 average curated recall, outperforming the next strongest open search subagent by +11.4 points and remaining competitive with much larger frontier-model searchers. Its gains are especially strong on held-out transfer benchmarks, suggesting that reinforcement learning over explicit search state can produce retrieval behaviors that generalize beyond the training domains. Our code is available at https://github.com/pat-jj/harness-1.

Enlace al artículo

https://arxiv.org/abs/2606.02373

Leer más

https://github.com/pat-jj/harness-1

https://huggingface.co/pat-jj/harness-1

Olvida la atención: la atención consciente de la importancia es todo lo que necesitas / Forget Attention: Importance-Aware Attention Is All You Need

Introducción al artículo

En el modelado híbrido de lenguaje que combina Transformer y State Space Model (SSM), el desafío central es cómo aprovechar al mismo tiempo la capacidad de explorar información de forma global y la capacidad de identificar qué es importante dentro de una secuencia. Los transformers existentes pueden mirar a cualquier parte, pero tienen limitaciones para priorizar, mientras que los SSM pueden acumular señales importantes, aunque les cuesta volver a referenciar con precisión información pasada; en ese sentido, ambos se complementan. Sin embargo, los enfoques híbridos existentes se han limitado sobre todo a colocar ambos mecanismos en paralelo a nivel de bloque o de cabeza, por lo que en el momento clave de calcular los puntajes de atención la señal de importancia del SSM no podía reflejarse directamente. A partir de este problema, los autores proponen SSM-Informed Softmax Attention (SISA), y diseñan una nueva forma de integración que inyecta la señal secuencial de importancia proporcionada por el SSM no en la salida de la atención, sino en los propios puntajes. La idea central consiste en sumar, además del término estándar de producto interno que representa la similitud de contenido, un término adicional de producto interno de un vector de importancia derivado del SSM, ampliando así la relación entre tokens para que refleje no solo la coincidencia de contenido, sino también “qué es importante en este momento”.

En particular, un punto importante de este método es que puede implementarse sin estados recursivos adicionales ni custom kernels, construyendo query y key extendidos y realizando una sola llamada a Scaled Dot-Product Attention (SDPA). En otras palabras, aunque SISA usa matemáticamente la información secuencial del SSM, desde el punto de vista de la implementación está diseñado para encajar bien con el flujo de operaciones estándar de Transformer, manteniendo además la compatibilidad con optimizaciones de la familia FlashAttention. Además, el canal SSM calcula componentes de decay y rotation a partir de la entrada para construir la señal de importancia, y hace que esta señal opere en el nivel de score de la atención, elevando directamente el rendimiento de retrieval. Los resultados experimentales también muestran con claridad el efecto de este diseño: con un tamaño de 152M y una condición de 5B tokens, SISA registró 17.3% en LAMBADA-greedy, superando al Transformer estándar y a Mamba-3, y en NIAH (Needle-in-a-Haystack) alcanzó 100% desde el punto de 1K steps de entrenamiento, mostrando una convergencia de búsqueda muy rápida.

Además, aunque SISA no muestra métricas completamente dominantes incluso en la escala de 369M, tiene una gran relevancia práctica porque, al menos en tareas importantes de recuperación, mantiene de forma consistente un rendimiento sólido sin perder la posibilidad de ejecutarse con stock SDPA. A través de esto, los autores presentan un tercer eje de diseño más allá de los niveles de bloque y de cabeza: la fusión a nivel de puntaje (score-level fusion) como una alternativa válida para los modelos de lenguaje híbridos. En última instancia, la contribución de este artículo no consiste simplemente en mezclar dos familias de modelos, sino en llevar la señal de importancia que aporta el SSM al centro de la formación de los puntajes de atención, integrando en una sola operación la recuperación global y la priorización secuencial. Este enfoque puede verse como un caso importante que muestra cómo las arquitecturas híbridas pueden evolucionar de manera más sofisticada en tareas de modelado de lenguaje donde son clave la recuperación de dependencias de largo alcance y el seguimiento de información esencial.

Resumen (Abstract)

Combinar la capacidad de recuperación global de la atención con la señal secuencial de importancia de los modelos de espacio de estados (SSM) es un desafío aún abierto en el modelado híbrido de lenguaje. Los transformadores pueden verlo todo, pero no pueden priorizar; los SSM saben qué es importante, pero no pueden volver a revisarlo. Los híbridos existentes, Jamba (nivel de bloque) y Hymba (nivel de cabeza), colocan ambos mecanismos en compartimentos separados, por lo que ninguno puede aportar información al otro durante el propio cálculo de atención. Proponemos SISA (SSM-Informed Softmax Attention), que añade directamente dentro del puntaje de atención un término de importancia derivado del SSM, e implementa toda la operación con una sola llamada a SDPA sobre vectores de consulta/clave expandidos. No se necesita estado recurrente ni kernels personalizados. En 152M / 5 mil millones de tokens, SISA alcanzó 17.3% en LAMBADA-greedy (frente a 13.9 del Transformer y 15.5 de Mamba-3), registró 100% en NIAH desde el paso 1K, y fue 7 veces más rápido que la convergencia de recuperación del Transformer. En 369M, Mamba-3 queda por delante en LAMBADA, pero SISA mantiene un NIAH perfecto y la ejecución con SDPA estándar. En consecuencia, SISA propone para los híbridos SSM-atención un tercer eje de diseño, la fusión a nivel de puntaje (score-level fusion), más allá de los paradigmas a nivel de bloque y de cabeza que han dominado el campo.

Combining attention's global retrieval with the sequential importance signal of state space models (SSMs) is the open challenge of hybrid language modeling. Transformers see everywhere but cannot prioritize; SSMs know what matters but cannot revisit. Existing hybrids -- Jamba (block level) and Hymba (head level) -- place the two in separate compartments, so neither informs the other during the attention computation itself. We propose SISA (SSM-Informed Softmax Attention), which adds an SSM-derived importance term directly inside the attention score and realizes the full operation as a single SDPA call on augmented query/key vectors -- no recurrent state, no custom kernel. At 152M / 5B tokens, SISA reaches LAMBADA-greedy 17.3% (vs. Transformer 13.9 and Mamba-3 15.5) and attains NIAH 100% from step 1K, 7x faster than Transformer's retrieval convergence; at 369M, Mamba-3 leads LAMBADA while SISA preserves perfect NIAH and stock-SDPA execution. SISA thus defines a third design axis for SSM-attention hybrids -- score-level fusion -- beyond the block-level and head-level paradigms that have dominated the field.

Enlace al artículo

https://arxiv.org/abs/2606.02332

¿Los transformadores necesitan tres proyecciones? Estudio sistemático de variantes QKV / Do Transformers Need Three Projections? Systematic Study of QKV Variants

Introducción del artículo

El componente central que ha sostenido el rendimiento de los transformadores (Transformer) es la atención QKV (query-key-value), compuesta por consulta (query), clave (key) y valor (value), pero no se había realizado una revisión suficientemente sistemática sobre cuán independientemente necesaria es realmente cada proyección. Este estudio apunta precisamente a ese vacío y analiza con detalle cómo los amarres de pesos (weight tying) dentro de la atención, centrados en tres restricciones de compartición de proyecciones —Q-K=V, Q=K-V y Q=K=V—, afectan la capacidad de representación y la eficiencia de inferencia. En particular, al prestar atención a que las dos últimas variantes tienden a hacer simétrico el mapa de atención, también se examina un diseño que introduce codificación posicional bidimensional (two-dimensional positional encoding) para compensar la direccionalidad, ampliando así la discusión más allá de una simple reducción de parámetros hacia un problema que modifica la estructura misma del espacio de representación. Este enfoque es especialmente valioso porque no se limita a preguntar si compartir proyecciones degrada el rendimiento, sino que separa y explica en qué condiciones se mantiene la calidad y en cuáles se perjudican la direccionalidad y la selectividad de la atención.

Los experimentos fueron diseñados para abarcar distintos dominios, como tareas sintéticas, visión y modelado de lenguaje, con el fin de verificar que el efecto de compartir proyecciones no sea un fenómeno limitado a un dominio de datos específico. En las tareas sintéticas, se evalúa qué tan bien aprende el modelo relaciones estructurales usando problemas de manipulación como inversión de orden, ordenamiento, sustitución, intercambio y copia. En los experimentos de visión, se evalúa el rendimiento de generalización en entornos donde la información de posición espacial es importante, a través de MNIST, CIFAR, TinyImageNet y detección de anomalías (anomaly detection). En modelado de lenguaje, se entrenaron modelos de 300 millones (300M) y 1.2 mil millones (1.2B) de parámetros con 10 mil millones (10B) de tokens, para comprobar si la misma tendencia se mantiene también a gran escala. Como resultado, el esquema Q-K=V mostró un rendimiento en general equivalente, e incluso a veces mejor, que el Transformer QKV base y, en modelado de lenguaje, redujo en 50% la caché key-value (KV) mientras que el deterioro de la perplejidad (perplexity) fue de solo 3.1%.

Más importante aún, este efecto de reducción se combina de manera complementaria con grouped query attention (GQA) y multi-query attention (MQA). Cuando Q-K=V se usa junto con GQA-4, la caché KV puede reducirse hasta 87.5%, y al combinarse con MQA, hasta 96.9%, lo que ofrece ventajas reales para la inferencia en dispositivo (on-device inference). A partir de estos resultados, los autores plantean que las claves y los valores pueden en la práctica compartir espacios de representación similares, y que, dado que la atención opera sobre una estructura de bajo rango (low-rank), no es indispensable una separación completa de QKV. En cambio, Q=K-V resulta menos favorable en términos de rendimiento y estabilidad, porque ata en exceso las consultas y las claves, debilitando así la direccionalidad de la atención.

En conjunto, este estudio lleva a reconsiderar la estructura QKV de los transformadores no como un estándar incuestionable, sino como un espacio de diseño que puede revisarse, y ofrece criterios empíricos sobre qué proyecciones conviene compartir y qué funciones deben mantenerse separadas. En particular, dado que permite reducir drásticamente el uso de memoria manteniendo casi intacto el rendimiento, estos resultados pueden leerse como una guía de diseño importante para un despliegue eficiente en entornos restringidos, como los edge devices.

Resumen (Abstract)

Los transformers se han convertido en la solución estándar para diversas tareas de IA, y la formulación de atención con query, key y value (QKV) cumple un papel central. Sin embargo, todavía no se comprende bien la contribución individual de estas tres proyecciones ni el impacto de omitir algunas de ellas. Evaluamos de forma sistemática tres restricciones de compartición de proyecciones: a) Q-K=V (key-value compartidos), b) Q=K-V (query-key compartidos) y c) Q=K=V (proyección única). Las dos últimas variantes generan mapas de atención simétricos, así que para abordarlo también exploramos atención asimétrica mediante codificaciones posicionales 2D. A través de experimentos que abarcan tareas sintéticas, visión (MNIST, CIFAR, TinyImageNet, detección de anomalías) y modelado de lenguaje (modelos de 300M y 1.2B parámetros sobre 10B tokens), encontramos que nuestros transformers igualan o incluso a veces superan el rendimiento del transformer QKV. En modelado de lenguaje, la compartición de proyección Q-K=V logra reducir en 50% la caché KV con solo una degradación de 3.1% en perplexity. De forma crucial, la compartición de proyecciones es complementaria a la compartición de heads (GQA/MQA). Al combinar Q-K=V con GQA-4, la caché puede reducirse en 87.5%, y al combinar Q-K=V con MQA, la reducción llega hasta 96.9%, lo que hace posible una inferencia práctica en dispositivo. Mostramos que Q-K=V mantiene la calidad porque keys y values pueden ocupar espacios de representación similares y la atención opera en un régimen de bajo rango, mientras que Q=K-V rompe la direccionalidad de la atención. Nuestros resultados caracterizan de forma sistemática la compartición de proyecciones como un caso poco explorado de weight tying en atención, y muestran beneficios directos y cuantificables en memoria de inferencia, especialmente útiles para despliegues en el edge. El código está disponible públicamente en https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections.

Transformers have become the standard solution for various AI tasks, with the query, key, and value (QKV) attention formulation playing a central role. However, the individual contribution of these three projections and the impact of omitting some remain poorly understood. We systematically evaluate three projection sharing constraints: a) Q-K=V (shared key-value), b) Q=K-V (shared query-key), and c) Q=K=V (single projection). The last two variants produce symmetric attention maps; to address this, we also explore asymmetric attention via 2D positional encodings. Through experiments spanning synthetic tasks, vision (MNIST, CIFAR, TinyImageNet, anomaly), and language modeling (300M and 1.2B parameter models on 10B tokens), we discovered that our transformers perform on par or occasionally better than the QKV transformer. In language modeling, Q-K=V projection sharing achieves 50% KV cache reduction with only 3.1% perplexity degradation. Crucially, projection sharing is complementary to head sharing (GQA/MQA): combining Q-K=V with GQA-4 yields 87.5% cache reduction, while Q-K=V + MQA achieves 96.9%, enabling practical on-device inference. We show that Q-K=V preserves quality because keys and values can occupy similar representational spaces and attention operates in a low-rank regime, whereas Q=K-V breaks attention directionality. Our results systematically characterize projection sharing as an underexplored instance of weight tying in attention, with direct, quantifiable inference memory benefits, particularly valuable for edge deployment. The code is publicly available at https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections

Enlace al artículo

https://arxiv.org/abs/2606.04032

Lectura adicional

https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections

Compilar workflows agénticos en los pesos de un LLM: calidad cercana a la frontera con un costo 100 veces menor / Compiling Agentic Workflows into LLM Weights: Near-Frontier Quality at Two Orders of Magnitude Less Cost

Introducción al artículo

La reciente expansión de los frameworks de orquestación de agentes muestra que controlar tareas complejas sobre modelos de lenguaje grandes (Large Language Model, LLM) mediante un coordinador externo se ha aceptado casi como un estándar de facto, pero este artículo cuestiona si esa estructura realmente es la mejor opción para tareas procedimentales. El enfoque en el que un orquestador externo inyecta instrucciones y decisiones de enrutamiento en cada turno tiene la ventaja de facilitar el control y la depuración, pero también consume de forma continua la ventana de contexto (context window), obliga a invocar un frontier model en cada conversación y puede exponer el propio procedimiento a proveedores externos. Frente a eso, los autores proponen compilar directamente el procedimiento de la tarea dentro de los pesos (weights) de un modelo pequeño ajustado finamente, en lugar de colocarlo en prompts, para crear en tiempo de ejecución un agente que internaliza el procedimiento sin necesidad de orquestación adicional. Este enfoque ofrece ventajas estructurales: reduce drásticamente el costo, no ocupa contexto largo y evita revelar flujos de trabajo sensibles a servicios externos, ya que no es necesario seguir inyectando el procedimiento desde fuera. Los autores llaman subterranean agent a este tipo de agente, en el que el procedimiento opera oculto dentro del modelo, y lo distinguen claramente de los diseños tradicionales centrados en la orquestación.

La metodología central no se limita a presentar una idea conceptual, sino que busca validar en entornos de trabajo reales tres barreras percibidas que suelen frenar a los desarrolladores a la hora de adoptar este enfoque. Primero, aborda la preocupación sobre si un modelo pequeño puede ofrecer una calidad cercana a la de los modelos frontier; segundo, examina el problema de internalizar en los pesos conocimientos que cambian con frecuencia, como el conocimiento específico de un producto; y tercero, verifica si este método puede escalar a workflows grandes con ramificaciones complejas y múltiples hubs. Para ello, los investigadores eligieron tres dominios de naturaleza distinta —reservas de viaje, soporte de Zoom y reclamaciones de seguros— y compararon la utilidad del enfoque compilado bajo condiciones con diferentes niveles de profundidad procedimental y exigencia de conocimiento de dominio. Las reservas de viaje ponen a prueba la estabilidad de las transiciones de estado y la toma de decisiones por etapas mediante un flujo procedimental estándar compuesto por 14 nodos. El soporte de Zoom resalta que, incluso en workflows de tamaño similar, también se requiere conocimiento sobre políticas y funciones específicas de cada producto. Las reclamaciones de seguros representan una prueba de estrés más realista, con una estructura más compleja de 55 nodos y 6 hubs de decisión, donde al mismo tiempo se exigen bifurcaciones condicionales y cálculos de políticas.

Las implicaciones de los resultados experimentales son claras. Se confirma que un modelo pequeño con el procedimiento incorporado en sus pesos puede mantener una calidad near-frontier, es decir, cercana a la de los modelos de frontera, al mismo tiempo que reduce los costos en múltiplos de dos dígitos, lo que obliga a replantear el equilibrio tradicional entre rendimiento y eficiencia. En particular, como se observa en el caso de reclamaciones de seguros, el modelo demuestra que no solo genera respuestas, sino que también puede ejecutar de forma consistente razonamiento procedimental que incluye verificación, bifurcación, cálculo de compensación e indicaciones de pago. Estos resultados sugieren que, para tareas repetibles y con una estructura relativamente estable, un enfoque compilado que aprende el procedimiento en sí podría ser más adecuado que una orquestación que dependa de ajustes externos en cada ocasión. Al mismo tiempo, sigue quedando la limitación de que los cambios en el procedimiento pueden requerir reentrenamiento, y de que puede ser menos favorable que los enfoques basados en prompts en cuanto a modificaciones inmediatas e interpretabilidad; aun así, la contribución del estudio está en ampliar las opciones de diseño de agentes. En última instancia, este artículo desafía la noción de que los flujos de trabajo de agentes siempre deben ensamblarse externamente, y demuestra empíricamente que trasladar el procedimiento al interior del modelo puede ser una alternativa suficientemente válida incluso a nivel práctico.

Resumen (Abstract)

Los marcos de orquestación de agentes se han expandido rápidamente, y en conjunto superan las 290,000 estrellas en GitHub entre LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands y LlamaIndex. Todos siguen el mismo patrón: un orquestador externo por encima del LLM, que inyecta instrucciones y decisiones de enrutamiento en cada turno. Trabajos recientes han mostrado que, para tareas procedimentales, esta arquitectura es superada simplemente proporcionando el procedimiento en el system prompt de un modelo de frontera [Dennis et al., 2026a], a costa de consumir la ventana de contexto, requerir un modelo de frontera para cada conversación y exponer procedimientos propietarios a proveedores externos. Compilar el procedimiento en los pesos de un pequeño modelo ajustado —creando un agente subterráneo (subterranean agent)— debería resolver todas estas preocupaciones, y trabajos previos (SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos) han demostrado que la técnica funciona. Aun así, la adopción por parte de desarrolladores se ha inclinado abrumadoramente hacia la orquestación. Identificamos tres barreras percibidas y abordamos cada una empíricamente en tres dominios: reservas de viaje (14 nodos), soporte de Zoom (14 nodos, conocimiento específico del producto) y reclamaciones de seguros (55 nodos, 6 hubs de decisión).

Agent orchestration frameworks have proliferated, collectively exceeding 290,000 GitHub stars across LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands, and LlamaIndex. All follow the same pattern: an external orchestrator above the LLM, injecting instructions and routing decisions every turn. Recent work has shown this architecture is dominated for procedural tasks by simply providing the procedure in a frontier model's system prompt [Dennis et al., 2026a], at the cost of consuming the context window, requiring a frontier model for every conversation, and exposing proprietary procedures to third-party providers. Compiling the procedure into the weights of a small fine-tuned model -- creating a subterranean agent -- should resolve all of these concerns, and prior work (SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos) has shown the technique works. Yet developer adoption has overwhelmingly favored orchestration. We identify three perceived barriers and address each empirically across travel booking (14 nodes), Zoom support (14 nodes, product-specific knowledge), and insurance claims (55 nodes, 6 decision hubs).

Enlace al artículo

https://arxiv.org/abs/2605.22502

Lectura adicional

https://discuss.pytorch.kr/t/llm-subterranean-agent/10501

Aprendizaje de gestión de contexto compatible con agentes para tareas de largo alcance / Learning Agent-Compatible Context Management for Long-Horizon Tasks

Introducción al artículo

Cuando los agentes basados en modelos de lenguaje grandes (LLM) realizan tareas de largo alcance (long-horizon tasks), como búsqueda web o investigación profunda, donde las etapas son extensas y los juicios intermedios se acumulan, uno de los mayores obstáculos es que, a medida que la conversación se alarga, las pistas útiles se mezclan con información pasada innecesaria y el razonamiento se vuelve inestable. Los métodos existentes de gestión de contexto suelen aprender junto con la política interna del agente o depender de estrategias fijas como el resumen, pero estos enfoques son difíciles de aplicar a agentes cerrados (closed-source) y no reflejan suficientemente la realidad de que cada agente puede requerir una forma distinta de gestión. Para resolver esto, el método propuesto Adaptive Context Management (AdaCoM) adopta un enfoque en el que, manteniendo intacto al agente fijo (frozen agent), otro LLM externo aprende a editar dinámicamente el contexto. La clave aquí no es simplemente comprimir conversaciones largas, sino aprender acciones flexibles de edición que, a nivel de mensaje, eliminan, reescriben y fusionan contenido, preservando las restricciones y el progreso necesarios para la tarea actual mientras se elimina el ruido antiguo. Este diseño es significativo porque redefine la gestión de contexto no como un preprocesamiento estático, sino como un problema de aprendizaje de políticas que mejora directamente la tasa de éxito del agente.

AdaCoM comienza con un ajuste fino supervisado (supervised fine-tuning, SFT) que familiariza al gestor de contexto con un formato de salida estructurado, y luego refina la política con Group Relative Policy Optimization (GRPO), usando como recompensa el desempeño real en la tarea. En este proceso, el gestor recibe el contexto actual convertido en prompt y, desde la perspectiva de un proceso de decisión de Markov (Markov decision process, MDP), elige en cada paso qué mensajes conservar o modificar. Además, en lugar de mirar solo la respuesta final correcta, también diseña recompensas de proceso (process reward) que reflejan exceso de longitud de contexto, llamadas repetitivas a herramientas, errores de formato y señales intermedias de la tarea, de modo que aprenda incluso la calidad de edición local que es crucial en tareas de largo alcance. Gracias a esto, AdaCoM no funciona como un simple resumidor, sino como una política de edición adaptativa que ayuda al agente a mantener un razonamiento estable.

En los experimentos, se confirmaron mejoras de rendimiento al aplicarlo a distintos agentes en benchmarks de búsqueda web e investigación profunda. En particular, se observó que, cuanto mayor era el desempeño base del agente original de tipo ReAct (Reasoning and Acting), más beneficiosa resultaba una preservación del contexto con mayor fidelidad; por el contrario, para agentes relativamente más débiles, una compresión más agresiva era más efectiva para mantenerlos en una zona de razonamiento estable. Los autores interpretan esto como un trade-off entre fidelidad y confiabilidad (fidelity-reliability trade-off), mostrando que la gestión de contexto debe variar según el nivel de capacidad del agente. Además, en experimentos de transferencia, se observó que la estrategia de AdaCoM tiende a transferirse mejor entre agentes con características de capacidad similares, lo que sugiere que la dirección de un gestor de contexto externo reutilizable podría ser más práctica que una única regla universal de resumen. En definitiva, este estudio presenta un avance metodológico importante al no atribuir los fracasos en tareas de largo alcance únicamente a la capacidad de razonamiento del agente, sino al tratar la propia gestión del contexto que sostiene ese razonamiento como un componente central susceptible de aprendizaje.

Resumen (Abstract)

Los agentes de modelos de lenguaje grandes (LLM) enfrentan cada vez más tareas de largo horizonte, como la búsqueda web y la investigación profunda, y en aplicaciones reales el contexto acumulado puede provocar degradación del rendimiento en contextos largos y fallas de razonamiento. Los estudios previos han mitigado esto mediante gestión de contexto con control del contexto del lado del agente o estrategias fijas como el resumen, pero estos métodos requieren entrenar al propio agente para adaptarse, lo que los vuelve poco prácticos para agentes de código cerrado, además de pasar por alto que distintos agentes pueden necesitar estrategias diferentes.

Proponemos Adaptive Context Management (AdaCoM), que entrena un LLM externo para gestionar el contexto de un agente congelado mediante acciones de modificación flexibles y aprendizaje por refuerzo de extremo a extremo. En diversos agentes sobre benchmarks de búsqueda web e investigación profunda, AdaCoM mejora sustancialmente el rendimiento al conservar las restricciones de la tarea y el progreso mientras elimina contenido obsoleto. Las estrategias aprendidas muestran una compensación entre fidelidad y confiabilidad (Fidelity-Reliability Trade-off): los agentes con mejor rendimiento ReAct base se benefician de una preservación del contexto con mayor fidelidad, mientras que los agentes con menor rendimiento requieren una compresión más agresiva para mantenerse dentro de un régimen de razonamiento confiable. Los experimentos de transferencia muestran que AdaCoM generaliza con mayor eficacia entre agentes con capacidades similares, medidas por el rendimiento ReAct base, lo que sugiere una vía práctica hacia gestores de contexto reutilizables para sistemas de agentes.

LLM agents increasingly face long-horizon tasks such as web search and deep research in real-world applications, where accumulated context can cause long-context degradation and reasoning failures. Prior work mitigates this through context management with agent-side context control or fixed strategies such as summarization, which require training the agent itself for adaptation - making it impractical for closed-source agents and ignoring that different agents may require different strategies. We introduce Adaptive Context Management (AdaCoM), which trains an external LLM to manage the context of a frozen agent through flexible modification actions and end-to-end reinforcement learning. Across diverse agents on web search and deep research benchmarks, AdaCoM substantially improves performance by preserving task constraints and progress while pruning stale content. The learned strategies reveal a Fidelity-Reliability Trade-off: agents with higher vanilla ReAct performance benefit from higher-fidelity context preservation, whereas lower-performing agents require more aggressive compression to stay within a reliable reasoning regime. Transfer experiments show that AdaCoM generalizes most effectively across agents with similar capability (measured by vanilla ReAct performance), suggesting a practical path toward reusable context managers for agent systems.

Enlace al artículo

https://arxiv.org/abs/2605.30785

Agentes latentes: un procedimiento de post-entrenamiento para debate multiagente internalizado / Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate

Introducción del artículo

El debate multiagente (Multi-Agent Debate) para mejorar el rendimiento de razonamiento de los modelos de lenguaje grandes (Large Language Models, LLMs) es un método poderoso, pero tiene la limitación de un costo computacional muy alto porque varios agentes deben intercambiar historiales de debate extensos. Para resolver esta ineficiencia, Latent Agents propone un procedimiento de post-entrenamiento (post-training) que destila dentro de un único modelo de lenguaje el debate multiagente que antes se realizaba externamente. La idea central va más allá de simplemente comprimir el resultado del debate: primero hace que el modelo aprenda la estructura misma del debate y luego lo guía para internalizar esa estructura mediante aprendizaje por refuerzo (Reinforcement Learning, RL). Para ello, los autores primero construyeron datos de debate compuestos por 3 agentes y 2 rondas, y añadieron etiquetas estructurales a registros de debate sobre problemas aritméticos en los que se había formado un consenso final, creando así un formato consistente. Luego, en la etapa de ajuste fino supervisado (Supervised Fine-Tuning, SFT), entrenaron al modelo con el trace completo del debate tal cual, para que pudiera imitar la forma en que se desarrolla el debate y los patrones de formación de consenso.

La etapa posterior de aprendizaje por refuerzo corresponde a un proceso que va más allá de la simple imitación de formato y realmente internaliza el debate. Aquí se utiliza Group Relative Policy Optimization (GRPO) para comparar múltiples salidas candidatas, combinado con una recompensa de length clipping que presiona para que la respuesta correcta aparezca en una etapa más temprana. Además, se va debilitando gradualmente la recompensa de formato que ayuda a mantener etiquetas estructurales como <|Agent 1|>, <|Round 1|> y <|endofdebate|>, de modo que el modelo llegue a una conclusión usando solo representaciones internas sin depender ya de debates externos largos. Esta programación dinámica de recompensas y la reducción de longitud cumplen un papel importante al disminuir la apariencia computacional del debate, mientras preservan las ventajas de razonamiento creadas por la interacción entre agentes. En los experimentos, el modelo propuesto mostró un rendimiento igual o superior al del explicit multi-agent debate en GSM8K, MMLU-Pro y Big-Bench Hard (BBH), y los tokens utilizados se redujeron hasta en un 93%, mejorando de forma notable la eficiencia de razonamiento. En particular, en algunas configuraciones, solo con SFT ya se observaron resultados superiores a los del método de debate existente, y al añadir RL se reforzaron tanto la precisión como la reducción de tokens, dejando clara la eficacia del procedimiento de internalización.

Otra contribución importante de este estudio es que analiza mecánicamente cómo el debate internalizado cambia el espacio de representaciones del modelo. Mediante experimentos de activation steering, los autores mostraron que dentro del modelo internalizado se forman subespacios específicos por agente (agent-specific subspaces), y que existen direcciones interpretables que corresponden a las perspectivas de distintos agentes. Esto sugiere que las ventajas del debate multiagente no provienen simplemente de promediar el texto de salida, sino que están relacionadas con el proceso en el que distintas perspectivas de razonamiento se separan y combinan estructuralmente en el espacio latente. Más aún, experimentos en los que se internaliza un agente malicioso y luego se lo suprime mediante negative steering muestran que, en el modelo destilado, los comportamientos dañinos pueden quedar más localizados y ser más fáciles de controlar. En consecuencia, Latent Agents es significativo porque no solo presenta una forma de comprimir el razonamiento multiagente de manera costo-eficiente, sino que también aclara la estructura y la controlabilidad del razonamiento internalizado.

Resumen (Abstract)

Se ha demostrado que el debate multiagente mejora el razonamiento en los modelos de lenguaje grandes (LLM). Sin embargo, requiere mucho cómputo, ya que necesita generar transcripciones largas antes de responder preguntas. Para abordar esta ineficiencia, desarrollamos un framework que destila el debate multiagente en un solo LLM mediante un pipeline de fine-tuning de dos etapas que combina el aprendizaje de la estructura del debate con la internalización a través de programación dinámica de recompensas y recorte de longitud. En múltiples modelos y benchmarks, nuestros modelos internalizados igualan o superan el rendimiento del debate multiagente explícito usando hasta 93% menos tokens. Luego investigamos la base mecanística de esta capacidad mediante activation steering, y encontramos que la internalización crea subespacios específicos por agente: direcciones interpretables en el espacio de activación que corresponden a distintas perspectivas de agentes. Además, demostramos una aplicación práctica: al inculcar agentes maliciosos en el LLM mediante debate internalizado y luego aplicar negative steering para suprimirlos, mostramos que la destilación facilita localizar y controlar comportamientos dañinos con menores reducciones en el rendimiento general en comparación con aplicar steering a modelos base. Nuestros hallazgos ofrecen una nueva perspectiva para entender las capacidades multiagente en modelos destilados y brindan lineamientos prácticos para controlar comportamientos de razonamiento internalizados. Código disponible en: https://github.com/johnsk95/latent_agents

Se ha demostrado que el debate multiagente mejora el razonamiento en los modelos de lenguaje grandes (LLM). Sin embargo, requiere mucho cómputo, ya que exige generar transcripciones largas antes de responder preguntas. Para abordar esta ineficiencia, desarrollamos un framework que destila el debate multiagente en un solo LLM mediante un pipeline de fine-tuning de dos etapas que combina el aprendizaje de la estructura del debate con la internalización mediante programación dinámica de recompensas y recorte de longitud. En múltiples modelos y benchmarks, nuestros modelos internalizados igualan o superan el rendimiento del debate multiagente explícito usando hasta 93% menos tokens. Luego investigamos la base mecanística de esta capacidad mediante activation steering, y encontramos que la internalización crea subespacios específicos por agente: direcciones interpretables en el espacio de activación que corresponden a distintas perspectivas de agentes. Además, demostramos una aplicación práctica: al inculcar agentes maliciosos en el LLM mediante debate internalizado y luego aplicar negative steering para suprimirlos, mostramos que la destilación facilita localizar y controlar comportamientos dañinos con menores reducciones en el rendimiento general en comparación con aplicar steering a modelos base. Nuestros hallazgos ofrecen una nueva perspectiva para entender las capacidades multiagente en modelos destilados y brindan lineamientos prácticos para controlar comportamientos de razonamiento internalizados. Código disponible en https://github.com/johnsk95/latent_agents

Enlace al artículo

https://arxiv.org/abs/2604.24881

Leer más

https://github.com/johnsk95/latent_agents

MOSS: autoevolución mediante reescritura a nivel de código fuente en sistemas de agentes autónomos / MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems

Introducción al artículo

Los sistemas de agentes autónomos capaces de aprender por sí mismos incluso después del despliegue y de reducir fallas repetidas han sido desde hace mucho un objetivo importante, pero en la práctica la mayoría de los sistemas se quedan en configuraciones editables por texto y a nivel de prompts, sin abordar de raíz los defectos estructurales. Para superar estas limitaciones, MOSS propone usar la adaptación a nivel de código fuente (source-level adaptation) como medio de autoevolución, y está diseñado para poder reescribir la propia estructura central de ejecución del agente. Los autores señalan que elementos que determinan el comportamiento real, como routing, orden de hooks, invariantes de estado y dispatch, existen dentro del código, por lo que inevitablemente quedan fallas a las que no se puede acceder cambiando solo archivos de skills o la composición de prompts. En cambio, el código fuente tiene completitud de Turing (Turing-complete), constituye un superconjunto de los artefactos basados en texto y opera de forma determinista sin depender de si el modelo sigue o no las instrucciones, por lo que se plantea como un medio de adaptación mucho más general y estable.

La metodología de MOSS tiene como punto central partir de evidencia de fallas en producción (production-failure evidence) recopilada automáticamente y, con base en ello, ejecutar de forma fija un pipeline de evolución de múltiples etapas. La modificación del código en sí se delega a un agente externo de programación por CLI (command-line interface), pero MOSS controla directamente el orden de las etapas y la decisión final, separando así la responsabilidad entre generación y validación. Las versiones candidatas creadas de este modo se validan reproduciendo nuevamente los lotes de fallas (replay) en workers de prueba efímeros (ephemeral trial workers), lo que resulta significativo porque no se trata de un simple análisis estático, sino de una evaluación basada en la reproducción de situaciones reales de falla. Solo los candidatos que pasan la validación son promovidos mediante un in-place container swap condicionado al consentimiento del usuario, y después, si no cumplen las condiciones de health probe, están diseñados para revertirse automáticamente, garantizando también la seguridad operativa.

Este enfoque se diferencia de los agentes autoevolutivos existentes, que principalmente intentaban mejorar solo áreas expresables en texto como prompts, esquemas de memoria y grafos de workflow, en que toma como objeto de evolución al sistema completo, incluyendo el harness de ejecución real. Por ello, MOSS puede entenderse no simplemente como un modelo que genera mejores respuestas, sino como una plataforma de adaptación que corrige directamente defectos estructurales en sistemas de agentes en operación. En particular, al combinar un pipeline determinista con procedimientos de validación-promoción-reversión, propone una ruta de automejora más robusta que los enfoques centrados en texto, vulnerables al long-context drift. Este diseño muestra con claridad que, para que los agentes autónomos evolucionen de forma segura en entornos reales de servicio, no basta con la capacidad de aprendizaje, sino que también se necesitan mecanismos de ingeniería de sistemas que incluyan despliegue, validación y reversión.

En los experimentos, MOSS elevó en OpenClaw el grader score promedio de cuatro tareas de 0.25 a 0.61 con un solo ciclo de evolución, y logró esta mejora sin intervención humana. Este resultado muestra que el enfoque de reescritura a nivel de código fuente no solo es teóricamente más general, sino que también puede traducirse en mejoras significativas de rendimiento en sistemas de agentes de producción reales. En última instancia, este artículo amplía el alcance de los agentes autoevolutivos desde el ajuste de texto hacia la reconfiguración a nivel de código, y presenta una nueva posibilidad para que los sistemas autónomos corrijan por sí mismos fallas repetidas.

Resumen (Abstract)

Tras el despliegue, los sistemas agentivos autónomos suelen ser mayormente estáticos: no aprenden de las interacciones con los usuarios, y las fallas recurrentes persisten hasta que la siguiente actualización impulsada por humanos distribuya una corrección. En respuesta a esto han surgido los agentes autoevolutivos, pero estos también limitan la evolución a artefactos modificables por texto, es decir, archivos de habilidades, configuraciones de prompts, esquemas de memoria y grafos de flujo de trabajo, dejando intacto el harness del agente. Como el enrutamiento, el orden de los hooks, los invariantes de estado y el dispatch existen en el código y no en artefactos de texto, toda una categoría de fallas estructurales es físicamente inalcanzable desde la capa de texto. Sostenemos que la adaptación a nivel de código fuente es un medio fundamentalmente más general. Es Turing-completo, un superconjunto estricto que abarca todo el alcance modificable por texto, surte efecto de manera determinista en lugar de depender del cumplimiento del modelo base y no se degrada por el drift de contextos largos. Presentamos MOSS, un sistema que realiza auto-reescritura (self-rewriting) a nivel de código fuente sobre sustratos agentivos en producción. Cada evolución se basa en un lote de evidencia de fallas en producción seleccionado automáticamente y avanza a través de un pipeline determinista de múltiples etapas. La modificación de código se delega a un CLI externo conectable de agente de codificación, mientras MOSS conserva el orden de las etapas y los veredictos. Los candidatos se verifican reproduciendo el lote contra la imagen candidata en workers de prueba efímeros, y luego se promueven mediante un intercambio in-place de contenedores condicionado por el consentimiento del usuario y con rollback controlado por health probes. En OpenClaw, MOSS eleva la puntuación media del evaluador en cuatro tareas de 0.25 a 0.61 en un solo ciclo sin intervención humana.

Autonomous agentic systems are largely static after deployment: they do not learn from user interactions, and recurring failures persist until the next human-driven update ships a fix. Self-evolving agents have emerged in response, but all confine evolution to text-mutable artifacts -- skill files, prompt configurations, memory schemas, workflow graphs -- and leave the agent harness untouched. Since routing, hook ordering, state invariants, and dispatch live in code rather than in any text artifact, an entire class of structural failure is physically unreachable from the text layer. We argue that source-level adaptation is a fundamentally more general medium: it is Turing-complete, a strict superset of every text-mutable scope, takes effect deterministically rather than through base-model compliance, and does not erode under long-context drift. We present MOSS, a system that performs self-rewriting at the source level on production agentic substrates. Each evolution is anchored to an automatically curated batch of production-failure evidence and proceeds through a deterministic multi-stage pipeline; code modification is delegated to a pluggable external coding-agent CLI while MOSS retains stage ordering and verdicts. Candidates are verified by replaying the batch against the candidate image in ephemeral trial workers, then promoted via user-consent-gated, in-place container swap with health-probe-gated rollback. On OpenClaw, MOSS lifts a four-task mean grader score from 0.25 to 0.61 in a single cycle without human intervention.

Enlace al artículo

https://arxiv.org/abs/2605.22794

Leer más

https://github.com/dav-joy-thon/MOSS

Alineación de seguridad de los modelos de lenguaje mediante juegos no cooperativos / Safety Alignment of LMs via Non-cooperative Games

Introducción al artículo

La alineación de seguridad de los modelos de lenguaje (language models, LM) se ha consolidado como una tarea central en la investigación reciente sobre alineación de IA, ya que debe asegurar al mismo tiempo resistencia frente a entradas maliciosas y preservación de la utilidad. Mientras que los enfoques previos se limitaban en gran medida a generar prompts agresivos y luego afinar el modelo secuencialmente para defenderse de ellos, este artículo redefine la alineación de seguridad como un juego no de suma cero (non-zero-sum game) en el que un LM atacante (Attacker LM) y un LM defensor (Defender LM) adaptan sus estrategias en tiempo real. Ambos modelos se entrenan conjuntamente mediante aprendizaje por refuerzo en línea (online reinforcement learning, RL), donde el atacante explora estrategias de red teaming más sofisticadas y el defensor evoluciona para responder con mayor solidez a esos ataques. Esta estructura de adaptación mutua se distingue claramente de los enfoques previos porque no se trata de un aprendizaje único sobre un dataset estático, sino de una expansión continua del límite de desempeño a medida que se repite la competencia entre modelos. En particular, los autores diseñan la señal de recompensa no como una puntuación puntual (point-wise score), sino como una señal basada en preferencias obtenidas de comparaciones por pares (pairwise comparison), con el fin de proporcionar una supervisión más estable y reducir la vulnerabilidad al reward hacking.

En el centro de esta metodología se encuentra un procedimiento de entrenamiento llamado AdvGame, cuyo objetivo es desplazar hacia afuera la frontera de Pareto entre seguridad y utilidad. En términos concretos, como atacante y defensor se actualizan alternadamente reflejando las políticas más recientes del otro, el defensor se fortalece frente a ataques realmente más potentes, mientras que el atacante aprende una capacidad general de detección de vulnerabilidades que no queda restringida a las debilidades de un modelo específico. El desarrollo matemático del apéndice muestra el proceso clave para convertir este problema de optimización de tipo juego en una forma realmente entrenable, expresando la distribución óptima de la política del atacante como una reponderación exponencial con respecto a una política de referencia (reference policy) y reorganizándola luego comparando dos candidatos para eliminar la constante de normalización. En este proceso, el entrenamiento del atacante deja de ser un problema de regresión sobre puntuaciones absolutas y pasa a ser un problema de ajustar un orden relativo de preferencias, lo que conduce naturalmente a una función objetivo de la familia de Direct Preference Optimization (DPO). Dicho de otro modo, se compara como objeto completo de aprendizaje toda la trayectoria (trajectory) formada conjuntamente por el prompt generado por el atacante y la respuesta del defensor, obteniendo así una señal de entrenamiento más rica basada en interacciones reales.

Además, este artículo conecta la probabilidad de preferencia con el modelo de Bradley-Terry e introduce el concepto de preferencia marginalizada (marginalized preference), que resume la interacción entre atacante y defensor en el espacio de logits. Gracias a ello, es posible promediar el ruido de respuestas individuales y al mismo tiempo aprender una estructura de preferencias que refleja no solo el prompt en sí, sino el efecto combinado del prompt y la respuesta. Como resultado, la actualización del atacante se realiza sobre una distribución dinámica que la política actual del defensor va renovando continuamente, por lo que converge no hacia ataques especializados para un objetivo fijo, sino hacia una capacidad de red teaming generalizable a diversos modelos. Como subraya el resumen, esta optimización conjunta es significativa porque no solo produce un LM defensor más útil y más resistente a ataques, sino también un LM atacante potente y de propósito general que puede aprovecharse en entornos reales de despliegue. En definitiva, este estudio amplía la alineación de seguridad más allá de una simple técnica defensiva y la convierte en un problema de aprendizaje que aprovecha de forma sistemática la competencia y la adaptación entre modelos, proponiendo así una nueva dirección metodológica para elevar simultáneamente la seguridad y la utilidad de los modelos de lenguaje.

Resumen (Abstract)

Garantizar la seguridad de los modelos de lenguaje (LM) sin perder su utilidad sigue siendo un desafío clave en la alineación de IA. Los enfoques actuales dependen del entrenamiento adversarial secuencial: generar prompts adversariales y luego ajustar finamente los LM para que se defiendan de ellos. Proponemos un paradigma distinto: formular la alineación de seguridad como un juego de suma no cero entre un LM atacante y un LM defensor, y entrenar ambos modelos conjuntamente mediante aprendizaje por refuerzo en línea. Cada LM se adapta continuamente a las estrategias cambiantes del otro, lo que impulsa una mejora iterativa. Nuestro método utiliza una señal de recompensa basada en preferencias derivadas de comparaciones por pares, en lugar de puntuaciones puntuales (point-wise), lo que proporciona una supervisión más robusta y puede reducir el reward hacking. La receta de RL, AdvGame, desplaza la frontera de Pareto entre seguridad y utilidad, produciendo un LM defensor que al mismo tiempo es más útil y más resistente a ataques adversariales. Además, el LM atacante resultante converge en un potente agente de red teaming de propósito general, que puede desplegarse directamente para sondear y evaluar modelos objetivo arbitrarios. El código está en github.com/facebookresearch/advgame.

Ensuring the safety of language models (LMs) while maintaining their usefulness remains a critical challenge in AI alignment. Current approaches rely on sequential adversarial training: generating adversarial prompts and fine-tuning LMs to defend against them. We introduce a different paradigm: framing safety alignment as a non-zero-sum game between an Attacker LM and a Defender LM trained jointly via online reinforcement learning. Each LM continuously adapts to the other's evolving strategies, driving iterative improvement. Our method uses a preference-based reward signal derived from pairwise comparisons instead of point-wise scores, providing more robust supervision and potentially reducing reward hacking. Our RL recipe, AdvGame, shifts the Pareto frontier of safety and utility, yielding a Defender LM that is simultaneously more helpful and more resilient to adversarial attacks. In addition, the resulting Attacker LM converges into a strong, general-purpose red-teaming agent that can be directly deployed to probe arbitrary target models. Code at github.com/facebookresearch/advgame.

Enlace al artículo

https://arxiv.org/abs/2512.20806

Leer más

https://github.com/facebookresearch/advgame

Planear, observar y recuperar: un benchmark y arquitecturas para asistencia procedimental proactiva / Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance

Introducción al artículo

En tareas procedimentales del mundo real, los usuarios no siempre siguen exactamente el orden establecido, por lo que un sistema de asistencia debe ir más allá de predecir el siguiente paso y también ser capaz de decidir cuándo intervenir y cómo guiar. A partir de esta problemática, el enfoque propuesto se centra en la asistencia procedimental proactiva, que interpreta la situación actual en tiempo real con base en la información visual en primera persona del usuario, el historial de diálogo y el contexto de la consulta, y además detecta si se ha entrado en un estado fuera del plan (out-of-plan, OOP). En particular, un punto clave de este trabajo es separar la decisión de intervenir del contenido de la intervención, ya que el juicio sobre el momento adecuado y la generación del acompañamiento tienen objetivos de optimización distintos. Cuando el usuario se desvía del procedimiento normal, no basta con esperar en silencio; hay que ofrecer instrucciones breves y precisas para volver al camino correcto en el momento adecuado, y para ello el sistema debe seguir tanto el estado procedimental como las señales visuales.

Para respaldar estos objetivos, los autores primero construyeron EgoProactive, un gran conjunto de datos wearable en primera persona que incluye anotaciones explícitas de desviaciones del plan y pasos de recuperación (recovery steps). Este dataset es especialmente valioso porque hace posible aprender desvíos y errores que ocurren en entornos reales, complementando así las limitaciones de recursos previos que asumían únicamente una progresión lineal de pasos. Además, mediante Pro²Bench, que reconfigura cinco benchmarks existentes —Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist y HowTo100M— dentro de un mismo marco de guía proactiva, se estableció un entorno de evaluación que permite comparar de forma consistente la capacidad de elegir el momento de intervención y de ofrecer orientación de recuperación en distintos dominios. Esto es importante porque amplía la comprensión procedimental desde un simple problema de predicción del siguiente paso hacia uno que mide la calidad real de la interacción.

En cuanto al modelo, se propone una decoupled planner-interaction architecture que separa el componente de planificación del de interacción, optimizando cada uno según su función en lugar de unir de forma laxa el seguimiento del estado procedimental y la generación de respuestas. A esto se suma una selección de clips anclada al plan (plan-anchored), diseñada para priorizar los segmentos visuales directamente relacionados con el paso actual y con la decisión de recuperación, en vez de procesar indiscriminadamente todo el video. Este enfoque reduce el ruido innecesario en videos largos en primera persona y, al mismo tiempo, permite captar con mayor claridad las señales de desviación del plan y las pistas necesarias para recuperar la trayectoria correcta. Dicho de otro modo, esta arquitectura alinea en torno al plan tanto “qué decir” como “qué mirar”.

También vale la pena destacar que, mediante una receta de post-entrenamiento (post-training), el trabajo muestra que este método no es un ajuste especial limitado a un modelo específico, sino un procedimiento general transferible a distintos backbones. De hecho, realizaron reproducción cruzada entre backbones con Llama 4 y Qwen-3.6-VL para validar la portabilidad del método, lo que sugiere que en el futuro podría ampliarse con facilidad a modelos multimodales aún más potentes. En los resultados experimentales, el sistema entrenado con Llama-4 mostró una mayor calidad objetiva de intervención (objective intervention quality) en seis datasets frente a fuertes líneas base como Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2 y Qwen3 VL 235B. En particular, bajo la condición de plan oráculo (oracle plan), el desempeño de la guía de recuperación mejoró considerablemente cuando la calidad del plan estaba controlada, lo que respalda de manera clara la validez de una estructura que separa el seguimiento del plan de la generación de intervenciones. En conjunto, este estudio redefine al asistente multimodal para usuarios que realizan tareas procedimentales no como un sistema de predicción de pasos, sino como un coach de intervención en tiempo real, y destaca por presentar al mismo tiempo datos, arquitectura y estrategias de aprendizaje más cercanos a situaciones reales.

Resumen (Abstract)

La estructura y la terminología del resumen objetivo de traducción se ajustarán para traducir de inmediato la primera oración al coreano y luego pulir de forma natural y académica todo el resumen.
Visualizamos un sistema de asistente multimodal proactivo que brinda a los usuarios orientación paso a paso en tiempo real para tareas procedimentales, decidiendo de forma autónoma cuándo interrumpir y cómo guiarlos. Sin embargo, el progreso ha estado limitado por la ausencia de benchmarks a gran escala y de dominio cruzado que reflejen condiciones realistas, en particular el caso común en que los usuarios se desvían de la secuencia de pasos esperada. Abordamos esta brecha con cuatro contribuciones: (1) publicamos EgoProactive, un dataset wearable-egocentric a gran escala para asistencia procedimental proactiva con anotaciones explícitas de Out-of-Plan (OOP) y pasos de recuperación; (2) ampliamos cinco benchmarks consolidados (Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M) para convertirlos en Pro^2Bench bajo un esquema unificado de guía proactiva; (3) proponemos una arquitectura desacoplada de planificador--interacción especializada en estado procedimental, señales visuales e inyección de recuperación; (4) introducimos una receta de post-entrenamiento que transfiere entre familias de modelos, validada mediante replicación cruzada de backbone en Llama 4 y Qwen-3.6-VL. En experimentos extensivos, nuestro sistema Llama-4 entrenado mejora sustancialmente la calidad objetiva de las intervenciones frente a sólidos baselines propietarios (Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2) y baselines de pesos abiertos (Qwen3 VL 235B) en los seis datasets. Los experimentos con oracle plan muestran además que, cuando se controla la calidad del plan, el modelo dúplex entrenado produce guía de alta calidad y grandes mejoras en la recuperación de Out-of-Plan (OOP).

Visualizamos un sistema de asistente multimodal proactivo que brinda a los usuarios orientación paso a paso en tiempo real para una tarea procedimental, decidiendo de forma autónoma \textit{cuándo} interrumpir y \textit{cómo} guiarlos. Sin embargo, el progreso se ve limitado por la ausencia de benchmarks a gran escala y de dominio cruzado que reflejen condiciones realistas, en particular el caso común en el que los usuarios se desvían de la secuencia de pasos esperada. Abordamos esta brecha con cuatro contribuciones: \textbf{(1)}~publicamos \textbf{EgoProactive}, un dataset wearable-egocentric a gran escala para asistencia procedimental proactiva con anotaciones explícitas de Out-of-Plan (OOP) y pasos de recuperación; \textbf{(2)}~ampliamos cinco benchmarks establecidos (Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M) para convertirlos en \textbf{Pro\textsuperscript{2}Bench} bajo un esquema unificado de guía proactiva; \textbf{(3)}~proponemos una \textbf{arquitectura desacoplada de planificador--interacción} especializada en estado procedimental, señales visuales e inyección de recuperación; \textbf{(4)}~introducimos una receta de post-entrenamiento que transfiere entre familias de modelos, validada mediante replicación cruzada de backbone en Llama~4 y Qwen-3.6-VL. En experimentos extensivos, nuestro sistema Llama-4 entrenado mejora sustancialmente la calidad objetiva de las intervenciones frente a sólidos baselines propietarios (Claude Opus~4.6, Gemini~3.1~Pro, GPT~5.2) y baselines de pesos abiertos (Qwen3~VL~235B) en los seis datasets. Los experimentos con oracle plan muestran además que, cuando se controla la calidad del plan, el modelo dúplex entrenado produce guía de alta calidad y grandes mejoras en la recuperación de Out-of-Plan.

Enlace al artículo

https://arxiv.org/abs/2606.04970

Leer más

https://huggingface.co/datasets/facebook/wearable-ai

FuzzingBrain V2: sistema LLM multiagente para el descubrimiento y la reproducción automatizados de vulnerabilidades / FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction

Introducción al artículo

A medida que las amenazas de seguridad causadas por vulnerabilidades de software se agravan día a día, solo en 2025 se reportaron cerca de 50,000 CVE (Common Vulnerabilities and Exposures). Aunque los modelos de lenguaje de gran escala (LLM) han abierto nuevas posibilidades para la detección automatizada de vulnerabilidades, los enfoques actuales basados en LLM todavía enfrentan problemas fundamentales por resolver. En concreto, los reportes de vulnerabilidades generados por LLM presentan altas tasas de falsos positivos y, al mismo tiempo, carecen de mecanismos de verificación reproducibles; además, utilizan niveles de granularidad no óptimos, como el nivel de función o de línea, para localizar con precisión las vulnerabilidades, y tienen dificultades para manejar eficazmente vulnerabilidades que incluyen dependencias complejas entre funciones y condiciones de activación multinivel. FuzzingBrain V2, presentado en este estudio, es un sistema LLM multiagente diseñado para abordar sistemáticamente estos desafíos, y utiliza el framework OSS-Fuzz de Google como backend de validación para garantizar una reproducibilidad del 100% en todas las vulnerabilidades reportadas. Además, el sistema introduce una nueva abstracción llamada Suspicious Point, que incorpora información de flujo de control y permite una localización precisa de vulnerabilidades en un punto óptimo entre el nivel de función y el nivel de línea; junto con un análisis jerárquico de funciones basado en lógica y una estrategia de fuzzing de doble capa, mejora la cobertura de funciones bajo restricciones de recursos. Asimismo, refuerza el razonamiento sobre vulnerabilidades complejas mediante herramientas de análisis estático y dinámico basadas en Model Context Protocol y una ingeniería de contexto sofisticada. En el dataset de C/C++ de la competencia final de AIxCC 2025, FuzzingBrain V2 alcanzó una tasa de detección del 90% (36 vulnerabilidades de 40), y en entornos reales descubrió un total de 41 vulnerabilidades previamente desconocidas en 12 proyectos de código abierto, de las cuales 26 fueron confirmadas, 23 corregidas y 2 recibieron identificadores CVE. Estos resultados demuestran con claridad que un enfoque multiagente que combina capacidad de análisis semántico y detección basada en ejecución puede ir más allá de un simple logro académico y mejorar directamente la seguridad del software en producción.

Resumen (Abstract)

Las vulnerabilidades de software representan amenazas críticas de seguridad, y en 2025 se reportaron casi 50,000 CVE. Aunque los modelos de lenguaje de gran escala (LLM) muestran potencial para la detección automatizada de vulnerabilidades, siguen existiendo tres desafíos clave. Primero, los reportes de vulnerabilidades generados por LLM sufren de altas tasas de falsos positivos y carecen de verificación reproducible. Segundo, los enfoques existentes basados en LLM usan niveles de granularidad subóptimos para localizar vulnerabilidades: el análisis a nivel de función pasa por alto errores cuando el contexto se vuelve extenso, mientras que el análisis a nivel de línea no proporciona suficiente contexto. Tercero, los enfoques actuales tienen dificultades para razonar sobre vulnerabilidades con dependencias complejas entre funciones y condiciones de activación. Presentamos FuzzingBrain V2, un sistema multiagente que aborda estas brechas mediante cuatro contribuciones clave: (1) análisis de vulnerabilidades totalmente automatizado basado en OSS-Fuzz de Google, que garantiza que todas las vulnerabilidades reportadas puedan reproducirse con un fuzzer; (2) Suspicious Point, una nueva abstracción basada en flujo de control para localizar vulnerabilidades con precisión y con una granularidad óptima; (3) análisis jerárquico de funciones guiado por lógica con fuzzing de doble capa, que mejora la cobertura de funciones bajo restricciones de recursos; (4) herramientas de análisis estático y dinámico basadas en MCP con ingeniería de contexto, que refuerzan el razonamiento sobre vulnerabilidades complejas. En el dataset C/C++ de la competencia final AIxCC 2025, FuzzingBrain V2 alcanzó una tasa de detección del 90% (36 de 40 vulnerabilidades). En despliegues reales, FuzzingBrain V2 descubrió 29 vulnerabilidades zero-day en 12 proyectos de código abierto; todas fueron confirmadas y corregidas por los mantenedores, y 2 recibieron un identificador CVE.

Software vulnerabilities pose critical security threats, with nearly 50,000 CVEs reported in 2025. While Large Language Models (LLMs) show promise for automated vulnerability detection, three key challenges remain. First, LLM-generated vulnerability reports suffer from high false positive rates and lack reproducible verification. Second, existing LLM-based approaches use suboptimal granularities for vulnerability localization: function-level analysis overlooks bugs when context becomes extensive, while line-level analysis lacks sufficient context. Third, existing approaches have difficulty reasoning about vulnerabilities with complex cross-function dependencies and triggering conditions. We present FuzzingBrain V2, a multi-agent system that addresses these gaps through four key contributions: (1) fully automated vulnerability analysis built on Google's OSS-Fuzz, ensuring all reported vulnerabilities are fuzzer-reproducible; (2) Suspicious Point, a novel control-flow-based abstraction for precise vulnerability localization at the optimal granularity; (3) logic-driven hierarchical function analysis with dual-layer fuzzing enhancing function coverage under resource constraints; (4) MCP-based static and dynamic analysis tools with context engineering enhancing complex vulnerability reasoning. On the AIxCC 2025 Final Competition C/C++ dataset, FuzzingBrain V2 achieved 90% detection rate (36 of 40 vulnerabilities). In real-world deployment, FuzzingBrain V2 discovered 29 zero-day vulnerabilities across 12 open-source projects, all confirmed and fixed by maintainers, with 2 assigned CVE IDs.

Enlace al artículo

https://arxiv.org/abs/2605.21779

⚠️Publicidad⚠️: 🔥¿Te resultó útil este artículo recopilado por la comunidad de usuarios de PyTorch de Corea🇰🇷? Si te haces miembro, te enviaremos los artículos principales por correo electrónico💌. También puedes recibir alertas de nuevas publicaciones por Telegram o mediante Slack/Discord/Teams/Dooray/GoogleChat y más. :D

[2026/06/01 ~ 07] Artículos de AI/ML para revisar esta semana

PyTorchKR🔥🇰🇷 🤔💭

Resumen clave por artículo

Harness-1: aprendizaje por refuerzo para agentes de búsqueda con harnesses de externalización de estado / Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

Introducción al artículo

Resumen(Abstract)

Enlace al artículo

Leer más

Olvida la atención: la atención consciente de la importancia es todo lo que necesitas / Forget Attention: Importance-Aware Attention Is All You Need

Introducción al artículo

Resumen (Abstract)

Enlace al artículo

¿Los transformadores necesitan tres proyecciones? Estudio sistemático de variantes QKV / Do Transformers Need Three Projections? Systematic Study of QKV Variants

Introducción del artículo

Resumen (Abstract)

Enlace al artículo

Lectura adicional

Compilar workflows agénticos en los pesos de un LLM: calidad cercana a la frontera con un costo 100 veces menor / Compiling Agentic Workflows into LLM Weights: Near-Frontier Quality at Two Orders of Magnitude Less Cost

Introducción al artículo

Resumen (Abstract)

Enlace al artículo

Lectura adicional

Aprendizaje de gestión de contexto compatible con agentes para tareas de largo alcance / Learning Agent-Compatible Context Management for Long-Horizon Tasks

Introducción al artículo

Resumen (Abstract)

Enlace al artículo

Agentes latentes: un procedimiento de post-entrenamiento para debate multiagente internalizado / Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate

Introducción del artículo

Resumen (Abstract)

Enlace al artículo

Leer más

MOSS: autoevolución mediante reescritura a nivel de código fuente en sistemas de agentes autónomos / MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems

Introducción al artículo

Resumen (Abstract)

Enlace al artículo

Leer más

Alineación de seguridad de los modelos de lenguaje mediante juegos no cooperativos / Safety Alignment of LMs via Non-cooperative Games

Introducción al artículo

Resumen (Abstract)

Enlace al artículo

Leer más

Planear, observar y recuperar: un benchmark y arquitecturas para asistencia procedimental proactiva / Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance

Introducción al artículo

Resumen (Abstract)

Enlace al artículo

Leer más

FuzzingBrain V2: sistema LLM multiagente para el descubrimiento y la reproducción automatizados de vulnerabilidades / FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction

Introducción al artículo

Resumen (Abstract)

Enlace al artículo

Lecturas relacionadas

2 comentarios