[2025/12/15 ~ 21] Selección de papers de AI/ML para revisar esta semana
(discuss.pytorch.kr)[2025/12/15 ~ 21] Selección de papers de AI/ML para revisar esta semana
PyTorchKR🔥🇰🇷 🤔💭
1️⃣ La importancia de la adaptación de agentes: Los papers seleccionados esta semana enfatizan la necesidad de la adaptación (adaptation) para mejorar el rendimiento y la confiabilidad de los sistemas de IA basados en agentes. Se propuso un framework sistemático que integra la adaptación del agente y de las herramientas, con lo que se aclara el espacio de diseño de distintas estrategias de adaptación y se ofrecen guías prácticas.
2️⃣ Avances en sistemas de memoria: La memoria de los agentes se está consolidando como una función central en los sistemas de IA, y se están investigando sistemas de memoria con distintas formas y funciones. Al reconocer que los esquemas tradicionales de clasificación no bastan para capturar la diversidad de la memoria en los agentes modernos, se propone una nueva dirección de investigación mediante un análisis integrado de la forma, la función y la dinámica de la memoria.
3️⃣ Transición y optimización eficiente de modelos: Papers recientes exploran cómo mejorar al mismo tiempo la velocidad y la precisión mediante la transición de modelos de lenguaje autorregresivos (AR) a modelos de lenguaje por difusión (dLM). En particular, la investigación avanza hacia maximizar el rendimiento del modelo comparando distintos patrones de atención y estrategias de entrenamiento, y proponiendo principios y metodologías para una transición eficiente.
Adaptación de la IA agéntica / Adaptation of Agentic AI
Introducción al paper
Los sistemas de IA agéntica de vanguardia, basados en foundation models, están adquiriendo cada vez más la capacidad de realizar tareas complejas y especializadas. Para mejorar el rendimiento, la confiabilidad y la generalización de estos sistemas, la adaptación se ha convertido en un mecanismo clave. Este estudio presenta un framework sistemático que abarca tanto la adaptación del agente como la de las herramientas, con el fin de clarificar el espacio de diseño de diversas estrategias de adaptación y explicitar los trade-offs entre ellas. El framework se subdivide en adaptación basada en señales de ejecución de herramientas y adaptación basada en señales de salida del agente, así como en adaptación de herramientas en forma de agentes críticos y agentes supervisores.
Este trabajo revisa enfoques representativos en cada categoría, analiza sus fortalezas y limitaciones, y destaca los principales retos abiertos y oportunidades futuras. En particular, los métodos iniciales de tipo A1 se enfocaban en supervised fine-tuning (Supervised Fine-Tuning) y direct preference optimization (Direct Preference Optimization), y estos enfoques evolucionaron hacia formas de obtener señales de aprendizaje recolectando respuestas del modelo relacionadas con el uso de herramientas. Modelos tempranos como Toolformer intentaron mejorar el uso de herramientas aprovechando señales de aprendizaje autosupervisado, pero tenían limitaciones al aplicarse en entornos reales.
Para superar esas limitaciones, modelos posteriores como TRICE y ToolAlpaca avanzaron hacia la mejora directa de la capacidad de uso de herramientas mediante aprendizaje por refuerzo con retroalimentación de ejecución. TP-LLaMA propone un nuevo enfoque que aprovecha trayectorias fallidas para que el modelo pueda aprender de sus errores, mientras que Gorilla enfatiza la corrección estructural para generar la llamada correcta a la API dentro de un gran conjunto de APIs de machine learning. CodeAct propone un paradigma de aprendizaje mediante interacción directa con un entorno de código ejecutable, lo que permite definir objetivos de aprendizaje basados en resultados verificables.
Por último, los métodos basados en RLVR (recompensa verificable) permiten que el modelo aprenda directamente a través de la interacción en línea con herramientas y entornos, haciendo que la adaptación sea dinámica y consciente del contexto. Estas investigaciones contribuyen al desarrollo de los sistemas de IA agéntica y proporcionan una base importante que sugiere posibilidades de aplicación tanto para la investigación futura como para la práctica.
Resumen del paper (Abstract)
Los sistemas de IA agéntica de vanguardia se basan en foundation models que pueden adaptarse para planificar, razonar e interactuar con herramientas externas con el fin de realizar tareas cada vez más complejas y especializadas. A medida que estos sistemas amplían sus capacidades y su alcance, la adaptación se convierte en un mecanismo central para mejorar el rendimiento, la confiabilidad y la generalización. En este paper, unificamos este panorama de investigación en rápida expansión dentro de un framework sistemático que abarca tanto la adaptación de agentes como la adaptación de herramientas. Además, lo descomponemos en adaptación de agentes basada en señales de ejecución de herramientas y adaptación de agentes basada en señales de salida del agente, así como en adaptación de herramientas agnóstica al agente y adaptación de herramientas supervisada por el agente. Mostramos que este framework ayuda a clarificar el espacio de diseño de las estrategias de adaptación en la IA agéntica, hace explícitos sus trade-offs y ofrece guía práctica para seleccionar o cambiar entre estrategias durante el diseño del sistema. Luego revisamos los enfoques representativos en cada categoría, analizamos sus fortalezas y limitaciones, y destacamos desafíos abiertos clave y oportunidades futuras. En conjunto, este paper busca ofrecer una base conceptual y una hoja de ruta práctica para investigadores y profesionales que buscan construir sistemas de IA agéntica más capaces, eficientes y confiables.
Cutting-edge agentic AI systems are built on foundation models that can be adapted to plan, reason, and interact with external tools to perform increasingly complex and specialized tasks. As these systems grow in capability and scope, adaptation becomes a central mechanism for improving performance, reliability, and generalization. In this paper, we unify the rapidly expanding research landscape into a systematic framework that spans both agent adaptations and tool adaptations. We further decompose these into tool-execution-signaled and agent-output-signaled forms of agent adaptation, as well as agent-agnostic and agent-supervised forms of tool adaptation. We demonstrate that this framework helps clarify the design space of adaptation strategies in agentic AI, makes their trade-offs explicit, and provides practical guidance for selecting or switching among strategies during system design. We then review the representative approaches in each category, analyze their strengths and limitations, and highlight key open challenges and future opportunities. Overall, this paper aims to offer a conceptual foundation and practical roadmap for researchers and practitioners seeking to build more capable, efficient, and reliable agentic AI systems.
Enlace al paper
https://arxiv.org/abs/2512.16301
Leer más
https://github.com/pat-jj/Awesome-Adaptation-of-Agentic-AI
Memoria en la era de los agentes de IA / Memory in the Age of AI Agents
Introducción al paper
La memoria de los agentes se ha establecido como un elemento esencial en los sistemas modernos de inteligencia artificial (IA), y este estudio tiene como objetivo organizar y analizar de forma sistemática la complejidad y diversidad de esa memoria. Los estudios previos muestran grandes diferencias en las motivaciones, los métodos de implementación y los protocolos de evaluación de la memoria de agentes, lo que ha generado una falta de claridad conceptual. Por ello, este paper define con claridad el alcance de la memoria de agentes y subraya su diferencia frente a la memoria de grandes modelos de lenguaje (LLM), la generación aumentada por recuperación (RAG) y la ingeniería de contexto, entre otros.
La investigación analiza la memoria de agentes desde tres perspectivas: forma, función y dinámica. Desde la perspectiva formal, presenta tres formas principales: memoria a nivel de token, memoria paramétrica y memoria latente, y explica las características y el funcionamiento de cada una. Desde la perspectiva funcional, la divide en memoria factual, experiencial y de trabajo para dejar claro el papel que cumple cada una. Desde la perspectiva dinámica, explora cómo la memoria se forma, evoluciona y se recupera, analizando cómo funciona mientras el agente interactúa con el entorno.
Este estudio también ofrece un resumen integral de benchmarks de memoria y frameworks de código abierto para apoyar el desarrollo práctico, y presenta una perspectiva sobre nuevos frentes de investigación como la automatización de memoria, la integración con aprendizaje por refuerzo, la memoria multimodal y la memoria multiagente. Este enfoque sienta las bases para reconsiderar la memoria como un concepto primitivo de primera clase en el diseño de sistemas de memoria para agentes, y señala la dirección de futuras investigaciones.
En consecuencia, se espera que este paper contribuya al avance de los sistemas de memoria de agentes de IA al organizar de manera integral el estado actual de la investigación sobre memoria de agentes y ofrecer perspectivas para investigaciones futuras.
Resumen del paper (Abstract)
La memoria ha emergido como una capacidad central de los agentes basados en modelos fundacionales, y seguirá desempeñando un papel importante en el futuro. A medida que la investigación sobre memoria de agentes se expande rápidamente y recibe una atención sin precedentes, el campo también se ha vuelto cada vez más fragmentado. Los trabajos existentes que caen bajo la categoría de memoria de agentes suelen diferir sustancialmente en sus motivaciones, implementaciones y protocolos de evaluación, mientras que la proliferación de terminologías de memoria definidas de forma laxa ha oscurecido aún más la claridad conceptual. Las taxonomías tradicionales, como memoria de largo/corto plazo, han demostrado ser insuficientes para capturar la diversidad de los sistemas contemporáneos de memoria de agentes. Este trabajo busca ofrecer un panorama actualizado de la investigación actual sobre memoria de agentes. Comenzamos delimitando claramente el alcance de la memoria de agentes y distinguiéndola de conceptos relacionados como la memoria de LLM, la generación aumentada por recuperación (RAG) y la ingeniería de contexto. Luego examinamos la memoria de agentes a través de una perspectiva unificada de formas, funciones y dinámicas. Desde la perspectiva de las formas, identificamos tres realizaciones dominantes de la memoria de agentes: memoria a nivel de token, paramétrica y latente. Desde la perspectiva de las funciones, proponemos una taxonomía más detallada que distingue entre memoria factual, experiencial y de trabajo. Desde la perspectiva de las dinámicas, analizamos cómo la memoria se forma, evoluciona y se recupera a lo largo del tiempo. Para apoyar el desarrollo práctico, elaboramos un resumen integral de benchmarks de memoria y frameworks de código abierto. Más allá de la consolidación, presentamos una perspectiva orientada al futuro sobre fronteras emergentes de investigación, incluyendo automatización de memoria, integración con aprendizaje por refuerzo, memoria multimodal, memoria multiagente y cuestiones de confiabilidad. Esperamos que este survey sirva no solo como referencia para trabajos existentes, sino también como base conceptual para repensar la memoria como un concepto primitivo de primera clase en el diseño de la futura inteligencia agéntica.
> Memory has emerged, and will continue to remain, a core capability of foundation model-based agents. As research on agent memory rapidly expands and attracts unprecedented attention, the field has also become increasingly fragmented. Existing works that fall under the umbrella of agent memory often differ substantially in their motivations, implementations, and evaluation protocols, while the proliferation of loosely defined memory terminologies has further obscured conceptual clarity. Traditional taxonomies such as long/short-term memory have proven insufficient to capture the diversity of contemporary agent memory systems. This work aims to provide an up-to-date landscape of current agent memory research. We begin by clearly delineating the scope of agent memory and distinguishing it from related concepts such as LLM memory, retrieval augmented generation (RAG), and context engineering. We then examine agent memory through the unified lenses of forms, functions, and dynamics. From the perspective of forms, we identify three dominant realizations of agent memory, namely token-level, parametric, and latent memory. From the perspective of functions, we propose a finer-grained taxonomy that distinguishes factual, experiential, and working memory. From the perspective of dynamics, we analyze how memory is formed, evolved, and retrieved over time. To support practical development, we compile a comprehensive summary of memory benchmarks and open-source frameworks. Beyond consolidation, we articulate a forward-looking perspective on emerging research frontiers, including memory automation, reinforcement learning integration, multimodal memory, multi-agent memory, and trustworthiness issues. We hope this survey serves not only as a reference for existing work, but also as a conceptual foundation for rethinking memory as a first-class primitive in the design of future agentic intelligence.
Enlace al paper
https://arxiv.org/abs/2512.13564
Leer más
https://github.com/Shichun-Liu/Agent-Memory-Paper-List
Equilibrio detallado en agentes impulsados por grandes modelos de lenguaje / Detailed balance in large language model-driven agents
Introducción del paper
Los agentes basados en grandes modelos de lenguaje (LLM) están ofreciendo un enfoque innovador para resolver problemas complejos, pero a pesar del éxito empírico de estos sistemas, sigue faltando un marco teórico. Este estudio propone una nueva metodología para estimar la direccionalidad generativa de los LLM con base en el principio de mínima acción. Esta metodología demuestra estadísticamente el equilibrio detallado encontrado en las transiciones generadas por los LLM al medir experimentalmente las probabilidades de transición entre estados generados por el modelo. Este hallazgo sugiere que los LLM podrían lograrlo no aprendiendo un conjunto específico de reglas o estrategias, sino aprendiendo implícitamente una clase de funciones potenciales que puede trascender distintas arquitecturas de LLM y plantillas de prompts.
Este estudio representa el primer descubrimiento de una ley física macroscópica en la dinámica generativa de los LLM, e intenta establecer una teoría de la dinámica macroscópica de sistemas complejos de inteligencia artificial (IA). Con ello, busca sentar las bases para que la investigación sobre agentes de IA evolucione de un simple conjunto de prácticas de ingeniería hacia una ciencia predecible y cuantificable. Comprender la dinámica de las transiciones que ocurren durante el proceso generativo de los LLM es esencial para esclarecer cómo operan estos sistemas.
Este trabajo propone un nuevo marco teórico capaz de explicar la dinámica generativa de los LLM, y con ello plantea una nueva dirección para la investigación en IA. Los datos recolectados mediante un enfoque experimental aportan de forma importante a la comprensión del funcionamiento de los LLM y pueden utilizarse como material base para futuras investigaciones. Se espera que estos resultados proporcionen insights clave para el diseño y uso de agentes basados en LLM, y que contribuyan al avance de la tecnología de IA.
Resumen del paper (Abstract)
Los agentes basados en grandes modelos de lenguaje (LLM) están surgiendo como un nuevo y poderoso paradigma para resolver problemas complejos. A pesar del éxito empírico de estas prácticas, todavía falta un marco teórico que permita comprender y unificar su dinámica macroscópica. Este paper propone un método basado en el principio de mínima acción para estimar la direccionalidad generativa subyacente de los LLM integrados en agentes. Al medir experimentalmente las probabilidades de transición entre estados generados por LLM, descubrimos estadísticamente un equilibrio detallado en las transiciones generadas por LLM, lo que sugiere que la generación de los LLM no se logra, en general, aprendiendo conjuntos de reglas y estrategias, sino aprendiendo implícitamente una clase de funciones potenciales subyacentes que pueden trascender distintas arquitecturas de LLM y plantillas de prompts. Hasta donde sabemos, este es el primer descubrimiento de una ley física macroscópica en la dinámica generativa de los LLM que no depende de detalles específicos del modelo. Este trabajo es un intento por establecer una teoría de dinámica macroscópica de sistemas de IA complejos, con el objetivo de elevar el estudio de los agentes de IA de un conjunto de prácticas de ingeniería a una ciencia basada en mediciones efectivas, predecibles y cuantificables.
> Large language model (LLM)-driven agents are emerging as a powerful new paradigm for solving complex problems. Despite the empirical success of these practices, a theoretical framework to understand and unify their macroscopic dynamics remains lacking. This Letter proposes a method based on the least action principle to estimate the underlying generative directionality of LLMs embedded within agents. By experimentally measuring the transition probabilities between LLM-generated states, we statistically discover a detailed balance in LLM-generated transitions, indicating that LLM generation may not be achieved by generally learning rule sets and strategies, but rather by implicitly learning a class of underlying potential functions that may transcend different LLM architectures and prompt templates. To our knowledge, this is the first discovery of a macroscopic physical law in LLM generative dynamics that does not depend on specific model details. This work is an attempt to establish a macroscopic dynamics theory of complex AI systems, aiming to elevate the study of AI agents from a collection of engineering practices to a science built on effective measurements that are predictable and quantifiable.
Enlace al paper
https://arxiv.org/abs/2512.10047
Efficient-DLM: de modelos autorregresivos a modelos de lenguaje por difusión, y más allá en velocidad / Efficient-DLM: From Autoregressive to Diffusion Language Models, and Beyond in Speed
Presentación del paper
Los modelos de lenguaje por difusión (Diffusion Language Models, dLM) están surgiendo como un paradigma prometedor gracias a su generación paralela no autorregresiva, pero tienen el problema de una menor eficiencia de entrenamiento en comparación con los modelos de lenguaje autorregresivos (Autoregressive Language Models, AR). Para resolver este problema, se propuso una metodología para convertir modelos AR en dLM eficientes. Los investigadores analizaron las limitaciones de los métodos existentes de conversión de AR a dLM y descubrieron que mantener la distribución de pesos preentrenados del modelo AR es esencial para una conversión efectiva.
Con base en esto, introdujeron un enfoque de preentrenamiento continuo que conserva el patrón de atención por bloques. Este método permite el modelado bidireccional dentro de cada bloque, lo que ayuda a preservar mejor la distribución de pesos del modelo AR. Además, permite el uso de KV caching, ofreciendo la ventaja de mejorar tanto la precisión como la eficiencia. También se propuso una estrategia de enmascaramiento de tokens dependiente de la posición para reducir la diferencia en la distribución de tokens de máscara durante el entrenamiento; esta estrategia asigna una mayor probabilidad de enmascaramiento a los tokens posteriores durante el entrenamiento, de modo que pueda imitar mejor el comportamiento en prueba.
A través de esta metodología, se llevó a cabo un estudio exhaustivo de los patrones de atención, la dinámica de entrenamiento y las decisiones de diseño de los dLM, lo que ofrece ideas prácticas para una conversión escalable de AR a dLM. Finalmente, la familia Efficient-DLM mostró un rendimiento superior al de los modelos AR y dLM más avanzados: en particular, Efficient-DLM 8B logró una precisión +5.4% y +2.7% mayor, así como un throughput 4.5 veces y 2.7 veces superior, en comparación con Dream 7B y Qwen3 4B, respectivamente. Esta investigación presenta una nueva metodología para la conversión efectiva de modelos AR a dLM y contribuye a mejorar tanto la eficiencia de entrenamiento como el rendimiento del modelo.
Resumen(Abstract)
Los modelos de lenguaje por difusión (dLMs) han surgido como un paradigma prometedor que permite la generación paralela no autorregresiva, pero su eficiencia de aprendizaje queda por detrás de la de los modelos de lenguaje autorregresivos (AR) cuando se entrenan desde cero. Para resolver esto, estudiamos la conversión de AR a dLM para transformar modelos AR preentrenados en dLMs eficientes que destaquen en velocidad mientras preservan la precisión en tareas de los modelos AR. Lo logramos al identificar limitaciones en los patrones de atención y los objetivos de los métodos AR-to-dLM existentes, y luego proponer principios y metodologías para una conversión AR-to-dLM más efectiva. En concreto, primero comparamos de forma sistemática distintos patrones de atención y encontramos que mantener las distribuciones de pesos del AR preentrenado es clave para una conversión AR-to-dLM eficaz. Por ello, introducimos un esquema de preentrenamiento continuo con un patrón de atención por bloques, que mantiene la causalidad entre bloques mientras permite modelado bidireccional dentro de cada bloque. Encontramos que este enfoque puede preservar mejor las distribuciones de pesos de los modelos AR preentrenados que un modelado totalmente bidireccional, además de su beneficio ya conocido de permitir KV caching, y produce una situación ganar-ganar en precisión y eficiencia. En segundo lugar, para mitigar la brecha entre entrenamiento y prueba en las distribuciones de tokens enmascarados, proponemos una estrategia de enmascaramiento de tokens dependiente de la posición que asigna mayores probabilidades de enmascaramiento a los tokens posteriores durante el entrenamiento para imitar mejor el comportamiento en inferencia. Aprovechando este marco, realizamos estudios extensivos sobre los patrones de atención de los dLMs, la dinámica de entrenamiento y otras decisiones de diseño, ofreciendo hallazgos prácticos para una conversión AR-to-dLM escalable. Estos estudios dan lugar a la familia Efficient-DLM, que supera a los modelos AR y dLMs de vanguardia. Por ejemplo, nuestro Efficient-DLM 8B logra una precisión +5.4%/+2.7% mayor y un throughput 4.5x/2.7x superior en comparación con Dream 7B y Qwen3 4B, respectivamente.
> Diffusion language models (dLMs) have emerged as a promising paradigm that enables parallel, non-autoregressive generation, but their learning efficiency lags behind that of autoregressive (AR) language models when trained from scratch. To this end, we study AR-to-dLM conversion to transform pretrained AR models into efficient dLMs that excel in speed while preserving AR models' task accuracy. We achieve this by identifying limitations in the attention patterns and objectives of existing AR-to-dLM methods and then proposing principles and methodologies for more effective AR-to-dLM conversion. Specifically, we first systematically compare different attention patterns and find that maintaining pretrained AR weight distributions is critical for effective AR-to-dLM conversion. As such, we introduce a continuous pretraining scheme with a block-wise attention pattern, which remains causal across blocks while enabling bidirectional modeling within each block. We find that this approach can better preserve pretrained AR models' weight distributions than fully bidirectional modeling, in addition to its known benefit of enabling KV caching, and leads to a win-win in accuracy and efficiency. Second, to mitigate the training-test gap in mask token distributions (uniform vs. highly left-to-right), we propose a position-dependent token masking strategy that assigns higher masking probabilities to later tokens during training to better mimic test-time behavior. Leveraging this framework, we conduct extensive studies of dLMs' attention patterns, training dynamics, and other design choices, providing actionable insights into scalable AR-to-dLM conversion. These studies lead to the Efficient-DLM family, which outperforms state-of-the-art AR models and dLMs, e.g., our Efficient-DLM 8B achieves +5.4%/+2.7% higher accuracy with 4.5x/2.7x higher throughput compared to Dream 7B and Qwen3 4B, respectively.
Enlace del paper
https://arxiv.org/abs/2512.14067
Todo es contexto: abstracción de sistema de archivos agéntico para la ingeniería de contexto / Everything is Context: Agentic File System Abstraction for Context Engineering
Introducción del paper
Los avances de la IA generativa (GenAI) han traído cambios transformadores al diseño de sistemas de software, en particular mediante modelos fundacionales que están redefiniendo la arquitectura y la operación. El principal desafío actual ya no se limita al fine-tuning del modelo, sino que se ha desplazado hacia la “ingeniería de contexto”, es decir, capturar y estructurar de manera efectiva conocimiento externo, memoria, herramientas e input humano. Los enfoques existentes, como la ingeniería de prompts o la generación aumentada por recuperación (RAG), son fragmentarios, y por ello los artefactos de contexto generados suelen ser efímeros y difíciles de verificar.
Inspirado en la filosofía de Unix de que “todo es un archivo”, este estudio propone una abstracción de sistema de archivos para la ingeniería de contexto. Esta abstracción proporciona una infraestructura persistente y administrada para gestionar artefactos de contexto heterogéneos, permitiendo montaje consistente, metadatos y control de acceso. Implementada dentro del framework AIGNE, esta arquitectura realiza el ensamblado, la entrega y la verificación del contexto bajo restricciones de tokens mediante un pipeline verificable de ingeniería de contexto compuesto por generadores, loaders y evaluadores de contexto.
A medida que GenAI se posiciona como un colaborador activo en el apoyo a la toma de decisiones, los humanos pasan a cumplir un papel central como curadores, validadores y coinvestigadores del razonamiento. Este estudio demuestra la utilidad práctica de la arquitectura propuesta mediante agentes con memoria y un asistente de GitHub basado en MCP, mostrando su viabilidad operativa en entornos de desarrollo e industriales. Este enfoque establece una base reutilizable para una colaboración de IA responsable y centrada en las personas, y contribuye a respaldar sistemas GenAI verificables y fáciles de mantener.
En conclusión, este estudio subraya la importancia de la ingeniería de contexto en el diseño de sistemas GenAI y muestra cómo una abstracción basada en sistema de archivos puede sentar las bases para una gestión de contexto persistente y transparente.
Resumen (Abstract)
La IA generativa (GenAI) ha reconfigurado el diseño de sistemas de software al introducir modelos fundacionales como subsistemas preentrenados. El nuevo desafío ya no es el fine-tuning del modelo, sino la ingeniería de contexto: cómo el sistema captura, estructura y administra conocimiento externo, memoria, herramientas e input humano para permitir un razonamiento confiable. Prácticas existentes como la ingeniería de prompts, la generación aumentada por recuperación (RAG) y la integración de herramientas siguen estando fragmentadas y producen artefactos transitorios que limitan la trazabilidad y la rendición de cuentas. Este paper propone una abstracción de sistema de archivos para la ingeniería de contexto, inspirada en la idea de Unix de que "todo es un archivo". Esta abstracción ofrece una infraestructura persistente y gobernada para gestionar artefactos de contexto heterogéneos mediante montaje uniforme, metadatos y control de acceso. Implementada dentro del framework open source AIGNE, esta arquitectura materializa un pipeline verificable de ingeniería de contexto compuesto por Context Constructor, Loader y Evaluator, que ensambla, entrega y valida contexto bajo restricciones de tokens. A medida que GenAI se convierte en un colaborador activo en el soporte a la toma de decisiones, los humanos cumplen un papel central como curadores, verificadores y co-razonadores. La arquitectura propuesta establece una base reutilizable para una colaboración responsable y centrada en las personas con IA, demostrada a través de dos ejemplos: un agente con memoria y un asistente de GitHub basado en MCP. La implementación dentro del framework AIGNE muestra cómo esta arquitectura puede operacionalizarse en entornos de desarrollo e industriales, respaldando sistemas GenAI verificables, mantenibles y listos para la industria.
> Generative AI (GenAI) has reshaped software system design by introducing foundation models as pre-trained subsystems that redefine architectures and operations. The emerging challenge is no longer model fine-tuning but context engineering-how systems capture, structure, and govern external knowledge, memory, tools, and human input to enable trustworthy reasoning. Existing practices such as prompt engineering, retrieval-augmented generation (RAG), and tool integration remain fragmented, producing transient artefacts that limit traceability and accountability. This paper proposes a file-system abstraction for context engineering, inspired by the Unix notion that 'everything is a file'. The abstraction offers a persistent, governed infrastructure for managing heterogeneous context artefacts through uniform mounting, metadata, and access control. Implemented within the open-source AIGNE framework, the architecture realises a verifiable context-engineering pipeline, comprising the Context Constructor, Loader, and Evaluator, that assembles, delivers, and validates context under token constraints. As GenAI becomes an active collaborator in decision support, humans play a central role as curators, verifiers, and co-reasoners. The proposed architecture establishes a reusable foundation for accountable and human-centred AI co-work, demonstrated through two exemplars: an agent with memory and an MCP-based GitHub assistant. The implementation within the AIGNE framework demonstrates how the architecture can be operationalised in developer and industrial settings, supporting verifiable, maintainable, and industry-ready GenAI systems.
Enlace al paper
https://arxiv.org/abs/2512.05470
Hacia una ciencia del escalamiento de sistemas de agentes / Towards a Science of Scaling Agent Systems
Introducción al paper
Los agentes y los sistemas basados en modelos de lenguaje están desempeñando un papel cada vez más importante en aplicaciones reales de inteligencia artificial, pero los principios que determinan el rendimiento de estos sistemas aún no han sido explorados lo suficiente. Este estudio busca cerrar esa brecha derivando principios cuantitativos de escalamiento para sistemas de agentes, con el fin de ayudar a los profesionales a tomar decisiones de diseño basadas en principios y no únicamente en métodos empíricos. La investigación se lleva a cabo sobre cuatro benchmarks diversos —Finance-Agent, BrowseComp-Plus, PlanCraft y Workbench—, evaluando de forma controlada 180 configuraciones al aplicar cinco arquitecturas típicas (single, standalone, centralizada, distribuida e híbrida) a tres familias de modelos de lenguaje.
El núcleo de esta investigación es derivar un modelo predictivo utilizando métricas empíricas de coordinación. Este modelo considera diversos factores, como eficiencia, overhead, amplificación de errores y redundancia, y alcanza un valor de R² validado de forma cruzada de 0.513. El estudio identificó tres efectos principales. Primero, el trade-off entre herramientas y coordinación muestra que, bajo un presupuesto de cómputo fijo, las tareas centradas en herramientas se ven afectadas de manera desproporcionada por el overhead multiagente. Segundo, el fenómeno de saturación de capacidades muestra que, cuando el rendimiento de un solo agente supera aproximadamente el 45%, la coordinación ofrece rendimientos decrecientes o incluso negativos. Tercero, la amplificación de errores dependiente de la topología indica que los agentes independientes amplifican los errores 17.2 veces, mientras que la coordinación centralizada limita esa cifra a 4.4 veces.
La coordinación centralizada mejora el rendimiento en un 80.9% en tareas paralelizables como el razonamiento financiero, mientras que la coordinación distribuida muestra un rendimiento relativamente superior en navegación web dinámica. Sin embargo, en tareas de razonamiento secuencial, todas las variantes multiagente reducen el rendimiento entre 39% y 70%. Estos hallazgos representan una contribución importante para predecir el rendimiento de sistemas de agentes y proponer estrategias óptimas de coordinación, al ofrecer principios predictivos basados en las características de las tareas agentivas. Al derivar cuantitativamente los principios de escalamiento de sistemas de agentes, este estudio sienta una base para que los profesionales puedan diseñar y optimizar sistemas de forma más efectiva.
Resumen(Abstract)
Los agentes, sistemas basados en modelos de lenguaje (LM) capaces de razonar, planificar y actuar, se están convirtiendo en el paradigma dominante para las aplicaciones de IA del mundo real. A pesar de esta adopción generalizada, los principios que determinan su rendimiento siguen estando poco explorados, lo que deja a los profesionales dependiendo de heurísticas en lugar de decisiones de diseño fundamentadas. Abordamos esta brecha derivando principios cuantitativos de escalamiento para sistemas de agentes. Evaluamos esto en cuatro benchmarks diversos: Finance-Agent, BrowseComp-Plus, PlanCraft y Workbench. Utilizando cinco arquitecturas canónicas (Single, Independent, Centralized, Decentralized, Hybrid) implementadas en tres familias de LLM, realizamos una evaluación controlada que abarca 180 configuraciones con herramientas y presupuestos de tokens estandarizados. Derivamos un modelo predictivo usando métricas empíricas de coordinación, incluyendo eficiencia, sobrecarga, amplificación de errores y redundancia, que alcanza una validación cruzada de $R^2=0.513$. Identificamos tres efectos dominantes: (1) una compensación entre herramientas y coordinación: bajo presupuestos computacionales fijos, las tareas con uso intensivo de herramientas sufren de forma desproporcionada por la sobrecarga multiagente. (2) una saturación de capacidad: la coordinación produce rendimientos decrecientes o negativos (beta=-0.408, p<0.001) una vez que las líneas base de agente único superan ~45%. (3) amplificación de errores dependiente de la topología: los agentes independientes amplifican los errores 17.2x mediante propagación sin control, mientras que la coordinación centralizada limita esto a 4.4x. La coordinación centralizada mejora el rendimiento en 80.9% en tareas paralelizables como el razonamiento financiero, mientras que la coordinación descentralizada sobresale en navegación web dinámica (+9.2% vs. +0.2%). Sin embargo, para tareas de razonamiento secuencial, todas las variantes multiagente degradaron el rendimiento entre 39% y 70%. El marco predice la estrategia de coordinación óptima para el 87% de las configuraciones retenidas, proporcionando un principio predictivo de escalamiento agéntico basado en propiedades medibles de la tarea.
> Agents, language model (LM)-based systems that are capable of reasoning, planning, and acting are becoming the dominant paradigm for real-world AI applications. Despite this widespread adoption, the principles that determine their performance remain underexplored, leaving practitioners to rely on heuristics rather than principled design choices. We address this gap by deriving quantitative scaling principles for agent systems. We evaluate this across four diverse benchmarks: Finance-Agent, BrowseComp-Plus, PlanCraft, and Workbench. Using five canonical architectures (Single, Independent, Centralized, Decentralized, Hybrid) instantiated across three LLM families, we perform a controlled evaluation spanning 180 configurations with standardized tools and token budgets. We derive a predictive model using empirical coordination metrics, including efficiency, overhead, error amplification, and redundancy, that achieves cross-validated $R^2=0.513$. We identify three dominant effects: (1) a tool-coordination trade-off: under fixed computational budgets, tool-heavy tasks suffer disproportionately from multi-agent overhead. (2) a capability saturation: coordination yields diminishing or negative returns (beta=-0.408, p<0.001) once single-agent baselines exceed ~45%. (3) topology-dependent error amplification: independent agents amplify errors 17.2x through unchecked propagation, while centralized coordination contains this to 4.4x. Centralized coordination improves performance by 80.9% on parallelizable tasks like financial reasoning, while decentralized coordination excels on dynamic web navigation (+9.2% vs. +0.2%). Yet for sequential reasoning tasks, all multi-agent variants degraded performance by 39-70%. The framework predicts the optimal coordination strategy for 87% of held-out configurations, providing a predictive principle of agentic scaling based on measurable task properties.
Enlace al paper
https://arxiv.org/abs/2512.08296
LMCache: una capa eficiente de caché KV para inferencia de LLM a escala empresarial / LMCache: An Efficient KV Cache Layer for Enterprise-Scale LLM Inference
Introducción al paper
Se propuso LMCache como un nuevo enfoque para mejorar la eficiencia de la inferencia de modelos de lenguaje de gran tamaño (LLM). Tradicionalmente, la caché KV se almacena en la memoria GPU y se usa para acelerar la etapa de decodificación de los LLM, pero recientemente la cantidad de caché KV que almacenan los usuarios ha superado la capacidad de la memoria GPU. En este contexto, LMCache se ha consolidado como la primera solución open source que mueve la caché KV fuera de la GPU y permite su reutilización entre distintas consultas y motores de inferencia.
La función central de LMCache es admitir el offloading de caché y la desagregación prefill-decode (PD). Gracias a esto, se habilita la reutilización de prefijos entre consultas y se facilita la transferencia de caché entre distintas GPU. LMCache maximiza el rendimiento mediante tres contribuciones principales. Primero, optimiza el movimiento de datos de la caché KV a través de operaciones de movimiento de datos por lotes y pipelining de cómputo y entrada/salida (I/O). Segundo, introduce conectores modulares de caché KV para responder con flexibilidad a la evolución de distintos motores de inferencia. Tercero, ofrece una API de control de primer nivel para la coordinación de caché entre capas de GPU, CPU, almacenamiento y red, brindando flexibilidad a los usuarios.
El rendimiento de LMCache, combinado con vLLM, mostró mejoras de throughput de hasta 15 veces en diversas tareas como preguntas y respuestas de múltiples rondas y análisis de documentos. A través de casos de uso reales, se confirmó que traer la caché KV desde almacenamiento remoto es efectivo para reducir la latencia de prefill, y también se aportó una observación importante: la técnica de truncamiento de contexto ampliamente usada en la industria puede reducir a la mitad la tasa de aciertos de caché de prefijos.
En conclusión, LMCache es una solución innovadora que mejora significativamente la eficiencia de la inferencia de LLM, y se espera que contribuya a distintas industrias mediante su adopción a gran escala en entornos empresariales. Esto transforma a los motores de LLM en un ecosistema de cómputo distribuido y almacenamiento, y sugiere la posibilidad de que los datos nativos de IA se conviertan en la base de la inferencia de LLM en el futuro.
Resumen(Abstract)
El caché KV se ha almacenado tradicionalmente en la memoria GPU para acelerar la fase de decodificación de la inferencia de modelos de lenguaje grandes (LLM). Sin embargo, cada vez es más necesario mover los cachés KV fuera de los dispositivos GPU para permitir la reutilización del caché entre distintas consultas y motores de inferencia. Nuestras estadísticas de uso en el mundo real confirman esta tendencia: con el tiempo, el total de caché KV almacenado por los usuarios ha crecido rápidamente, superando por mucho la capacidad de la memoria GPU. A pesar de esta necesidad, sigue faltando una solución eficiente para descargar y transferir cachés KV. Presentamos LMCACHE, la primera y hasta ahora la solución open source de caché KV más eficiente, que extrae y almacena fuera de la memoria GPU los cachés KV generados por motores LLM modernos (vLLM y SGLang) y los comparte entre motores y consultas. LMCACHE soporta tanto el offloading de caché (reutilización de prefijos entre consultas) como la desagregación prefill-decode (PD) (transferencia de caché entre motores/GPU). El alto rendimiento y la amplia adopción de LMCACHE provienen de los siguientes aportes: (1) movimiento de datos del caché KV altamente optimizado, impulsado por operaciones de movimiento de datos por lotes y por pipelining de cómputo y E/S; (2) un componente modular de conector de caché KV, que desacopla a LMCACHE de la rápida evolución de los motores de inferencia; (3) una API de control de primera clase para la orquestación flexible del caché entre las capas de GPU, CPU, almacenamiento y red. Nuestra evaluación muestra que combinar LMCACHE con vLLM logra hasta 15 veces más throughput en cargas de trabajo como preguntas y respuestas de múltiples rondas y análisis de documentos. La adopción a gran escala de LMCACHE en entornos empresariales nos aporta ideas valiosas; por ejemplo, recuperar caché KV desde almacenamiento remoto beneficia, como era de esperarse, la latencia de prefill, y el truncamiento de contexto, una técnica ampliamente aplicada en la industria, puede reducir drásticamente a la mitad la tasa de acierto del caché de prefijos. El código fuente de LMCACHE está disponible en el siguiente enlace: https://github.com/LMCache/LMCache.
> El caché KV se ha almacenado tradicionalmente en la memoria GPU para acelerar la fase de decodificación de la inferencia de modelos de lenguaje grandes (LLM). Sin embargo, cada vez es más necesario mover los cachés KV fuera de los dispositivos GPU para permitir la reutilización del caché entre distintas consultas y motores de inferencia. Nuestras estadísticas de uso en el mundo real confirman esta tendencia: con el tiempo, el total de caché KV almacenado por los usuarios ha crecido rápidamente, superando por mucho la capacidad de la memoria GPU. A pesar de esta necesidad, sigue faltando una solución eficiente para descargar y transferir cachés KV. Presentamos LMCACHE, la primera y hasta ahora la solución open source de caché KV más eficiente, que extrae y almacena fuera de la memoria GPU los cachés KV generados por motores LLM modernos (vLLM y SGLang) y los comparte entre motores y consultas. LMCACHE soporta tanto el offloading de caché (reutilización de prefijos entre consultas) como la desagregación prefill-decode (PD) (transferencia de caché entre motores/GPU). El alto rendimiento y la amplia adopción de LMCACHE provienen de los siguientes aportes: (1) movimiento de datos del caché KV altamente optimizado, impulsado por operaciones de movimiento de datos por lotes y por pipelining de cómputo y E/S; (2) un componente modular de conector de caché KV, que desacopla a LMCACHE de la rápida evolución de los motores de inferencia; (3) una API de control de primera clase para la orquestación flexible del caché entre las capas de GPU, CPU, almacenamiento y red. Nuestra evaluación muestra que combinar LMCACHE con vLLM logra hasta 15 veces más throughput en cargas de trabajo como preguntas y respuestas de múltiples rondas y análisis de documentos. La adopción a gran escala de LMCACHE en entornos empresariales nos aporta ideas valiosas; por ejemplo, recuperar caché KV desde almacenamiento remoto beneficia, como era de esperarse, la latencia de prefill, y el truncamiento de contexto, una técnica ampliamente aplicada en la industria, puede reducir drásticamente a la mitad la tasa de acierto del caché de prefijos. El código fuente de LMCACHE está en: https://github.com/LMCache/LMCache.
Enlace al paper
https://arxiv.org/abs/2510.09665
Leer más
https://github.com/LMCache/LMCache
https://discuss.pytorch.kr/t/lmcache-llm/7179
ReFusion: modelo de lenguaje grande por difusión con decodificación autorregresiva paralela / ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding
Introducción al paper
ReFusion es un innovador modelo de difusión enmascarada que aprovecha la decodificación autorregresiva paralela, diseñado para superar las limitaciones de los modelos autorregresivos (ARM) y los modelos de difusión enmascarada (MDM) existentes. Los ARM tradicionales experimentan una inferencia lenta debido a su decodificación secuencial, mientras que los MDM, aunque asumen independencia condicional, ven reducida su eficiencia por cuellos de botella arquitectónicos y problemas de generación inconsistente. Para resolver estos problemas, ReFusion eleva la decodificación paralela al nivel de slots, que son subsecuencias contiguas de longitud fija.
El núcleo de ReFusion es un proceso de decodificación de "planificación y relleno" (plan-and-infill). En este proceso, la primera etapa identifica slots con dependencias débiles, y en la segunda estos slots se decodifican en paralelo. Este diseño basado en slots permite reutilizar el caché Key-Value (KV), evitando tener que recalcular cada vez el estado KV de todo el contexto. Como resultado, la complejidad del entrenamiento se reduce del espacio de combinaciones de tokens al espacio de permutaciones a nivel de slots, mejorando significativamente la eficiencia.
Según los resultados experimentales, ReFusion registró una mejora de rendimiento del 34% frente a MDM anteriores y una aceleración promedio de 18 veces, además de reducir la brecha de rendimiento con ARM potentes y lograr una aceleración promedio de 2.33 veces. Estos resultados muestran que ReFusion supera las limitaciones de los modelos existentes y plantea nuevas posibilidades para los modelos de difusión.
ReFusion aporta innovaciones tanto en rendimiento como en velocidad mediante la reutilización del caché KV y la reducción de la complejidad del entrenamiento, y ofrece ideas importantes sobre futuras direcciones de investigación. Se espera que este modelo contribuya al avance de los modelos de lenguaje grandes al combinar las ventajas de los modelos de difusión y los modelos autorregresivos.
Resumen(Abstract)
Los modelos autorregresivos (ARMs) están limitados por la lenta inferencia secuencial. Los modelos de difusión enmascarada (MDMs) ofrecen una alternativa paralela, pero tienen desventajas importantes: un alto overhead computacional por excluir el caché de clave-valor (KV), y una generación incoherente derivada de aprender dependencias sobre un espacio intratable de combinaciones de tokens. Para abordar estas limitaciones, presentamos ReFusion, un nuevo modelo de difusión enmascarada. ReFusion mejora la decodificación paralela elevándola a un nivel superior de slots, donde cada slot es una subsecuencia contigua de longitud fija, logrando así un rendimiento y una eficiencia superiores. Esto se consigue mediante un proceso iterativo de decodificación de "planificación y relleno": primero, una etapa de planificación basada en difusión identifica un conjunto de slots débilmente dependientes, y luego una etapa autorregresiva de relleno decodifica en paralelo los slots seleccionados. El diseño basado en slots permite simultáneamente la reutilización completa del caché KV dentro de un marco causal unificado, y reduce la complejidad del aprendizaje desde el espacio de combinaciones de tokens a un espacio manejable de permutaciones a nivel de slots. Los extensos experimentos en siete benchmarks diversos muestran que ReFusion no solo supera de forma contundente a los MDMs anteriores con una mejora de rendimiento del 34% y una aceleración promedio de más de 18$\times$, sino que también cierra la brecha de rendimiento frente a ARMs sólidos mientras mantiene una aceleración promedio de 2.33$\times$.
> Autoregressive models (ARMs) are hindered by slow sequential inference. While masked diffusion models (MDMs) offer a parallel alternative, they suffer from critical drawbacks: high computational overhead from precluding Key-Value (KV) caching, and incoherent generation arising from learning dependencies over an intractable space of token combinations. To address these limitations, we introduce ReFusion, a novel masked diffusion model that achieves superior performance and efficiency by elevating parallel decoding from the token level to a higher slot level, where each slot is a fixed-length, contiguous sub-sequence. This is achieved through an iterative ``plan-and-infill'' decoding process: a diffusion-based planning step first identifies a set of weakly dependent slots, and an autoregressive infilling step then decodes these selected slots in parallel. The slot-based design simultaneously unlocks full KV cache reuse with a unified causal framework and reduces the learning complexity from the token combination space to a manageable slot-level permutation space. Extensive experiments on seven diverse benchmarks show that ReFusion not only overwhelmingly surpasses prior MDMs with 34% performance gains and an over 18$\times$ speedup on average, but also bridges the performance gap to strong ARMs while maintaining a 2.33$\times$ average speedup.
Enlace al paper
https://arxiv.org/abs/2512.13586
Leer más
https://github.com/ML-GSAI/ReFusion
https://huggingface.co/GSAI-ML/ReFusion
Enfoque de preentrenamiento escalable para la generación de tokenizadores visuales / Towards Scalable Pre-training of Visual Tokenizers for Generation
Introducción al paper
La calidad del espacio latente de los tokenizadores visuales influye de manera crucial en el rendimiento de los modelos generativos modernos. Sin embargo, los métodos tradicionales de entrenamiento basados en reconstrucción generan espacios latentes sesgados hacia información de bajo nivel, lo que provoca que una mejor precisión a nivel de píxel no garantice necesariamente una generación de mayor calidad. Este fenómeno se define como el "problema de escalamiento del preentrenamiento" y plantea la necesidad de que, para contar con modelos generativos efectivos, el espacio latente exprese de forma compacta la semántica de alto nivel.
En este estudio se propone VTP (Visual Tokenizer Pre-training), un nuevo marco unificado de preentrenamiento para tokenizadores visuales. VTP adopta un enfoque innovador que optimiza conjuntamente el contraste imagen-texto, el aprendizaje autosupervisado y la pérdida de reconstrucción, contribuyendo así a mejorar el rendimiento generativo. A través de un estudio a gran escala, se obtuvieron dos hallazgos principales. Primero, se confirmó que la comprensión semántica es el principal motor de la generación. Segundo, VTP muestra excelentes propiedades de escalamiento, con mejoras efectivas del rendimiento generativo a medida que aumentan los recursos computacionales, los parámetros del modelo y el tamaño de los datos.
VTP alcanza una precisión zero-shot de 78.2% y un rFID de 0.36 en ImageNet, además de registrar una convergencia 4.1 veces más rápida que los métodos avanzados de destilación existentes. Asimismo, al invertir más FLOPS en el preentrenamiento sin modificar la especificación estándar de entrenamiento de DiT, VTP logró una mejora del 65.8% en FID en generación downstream. Estos resultados muestran que VTP supera a los enfoques tradicionales de autoencoder y puede posicionarse como un modelo escalable.
En conclusión, VTP contribuye a resolver el problema de escalamiento del preentrenamiento de los tokenizadores visuales y a establecer una fuerte correlación entre la comprensión del espacio latente y la capacidad de generación. Este estudio propone una nueva dirección para mejorar el rendimiento de los modelos generativos y podrá servir como base importante para investigaciones futuras.
Resumen(Abstract)
La calidad del espacio latente en los tokenizadores visuales (p. ej., VAE) es crucial para los modelos generativos modernos. Sin embargo, el paradigma estándar de entrenamiento basado en reconstrucción produce un espacio latente sesgado hacia información de bajo nivel, lo que provoca una falla fundamental: una mejor precisión a nivel de píxel no conduce a una generación de mayor calidad. Esto implica que invertir grandes recursos de cómputo en el preentrenamiento de tokenizadores visuales se traduce pobremente en mejoras del rendimiento generativo. Definimos esto como el "problema de escalado del preentrenamiento" y proponemos que, para que sea eficaz en generación, un espacio latente debe representar de forma concisa la semántica de alto nivel. Presentamos VTP, un marco unificado de preentrenamiento de tokenizadores visuales que lidera la optimización conjunta de pérdidas contrastivas imagen-texto, auto-supervisadas y de reconstrucción. Nuestro estudio a gran escala revela dos hallazgos principales: (1) la comprensión es un motor clave de la generación, y (2) el rendimiento generativo muestra propiedades de escalado mucho mejores, donde escala eficazmente con el cómputo, los parámetros y los datos asignados al preentrenamiento del tokenizador visual. Tras un preentrenamiento a gran escala, nuestro tokenizador ofrece un perfil competitivo (78.2 de precisión zero-shot y 0.36 rFID en ImageNet) y una convergencia 4.1 veces más rápida en generación en comparación con métodos avanzados de destilación. Más importante aún, escala de forma efectiva: sin modificar las especificaciones estándar de entrenamiento de DiT, solo invertir más FLOPS en el preentrenamiento de VTP logra una mejora de 65.8% en FID en la generación downstream, mientras que el autoencoder convencional se estanca muy temprano con 1/10 de los FLOPS. Nuestros modelos preentrenados están disponibles en https://github.com/MiniMax-AI/VTP.
> The quality of the latent space in visual tokenizers (e.g., VAEs) is crucial for modern generative models. However, the standard reconstruction-based training paradigm produces a latent space that is biased towards low-level information, leading to a foundation flaw: better pixel-level accuracy does not lead to higher-quality generation. This implies that pouring extensive compute into visual tokenizer pre-training translates poorly to improved performance in generation. We identify this as the pre-training scaling problem and suggest a necessary shift: to be effective for generation, a latent space must concisely represent high-level semantics. We present VTP, a unified visual tokenizer pre-training framework, pioneering the joint optimization of image-text contrastive, self-supervised, and reconstruction losses. Our large-scale study reveals two principal findings: (1) understanding is a key driver of generation, and (2) much better scaling properties, where generative performance scales effectively with compute, parameters, and data allocated to the pretraining of the visual tokenizer. After large-scale pre-training, our tokenizer delivers a competitive profile (78.2 zero-shot accuracy and 0.36 rFID on ImageNet) and 4.1 times faster convergence on generation compared to advanced distillation methods. More importantly, it scales effectively: without modifying standard DiT training specs, solely investing more FLOPS in pretraining VTP achieves 65.8% FID improvement in downstream generation, while conventional autoencoder stagnates very early at 1/10 FLOPS. Our pre-trained models are available at https://github.com/MiniMax-AI/VTP.
Enlace al paper
https://arxiv.org/abs/2512.13687
Leer más
https://github.com/MiniMax-AI/VTP
CLaRa: integración de búsqueda y generación mediante razonamiento latente continuo / CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning
Introducción al paper
CLaRa (Continuous Latent Reasoning) es un framework innovador desarrollado para superar las limitaciones de los sistemas de generación aumentada por recuperación (Retrieval-augmented generation, RAG). Los enfoques RAG existentes tienen dificultades para procesar contextos largos, y además sufren una menor eficiencia porque la optimización entre recuperación y generación está separada. Para resolver estos problemas, CLaRa propone una nueva metodología que integra recuperación y generación mediante compresión basada en embeddings y optimización conjunta dentro de un espacio continuo compartido.
Uno de los componentes centrales de CLaRa, SCP (síntesis de datos con preservación de claves), utiliza supervisión de preguntas-respuestas (QA) y paráfrasis para generar vectores comprimidos semánticamente ricos y recuperables. Este proceso contribuye a mejorar la precisión de la recuperación mientras mantiene la diversidad y calidad de los datos. Después, CLaRa entrena de extremo a extremo el reranker y el generador mediante una única pérdida de modelado de lenguaje, lo que optimiza el flujo de gradientes entre ambos módulos. Este enfoque de optimización integrada desempeña un papel importante para alinear la relevancia de la recuperación con la calidad de las respuestas generadas.
En los resultados experimentales, CLaRa mostró un rendimiento de compresión y reranking de nivel estado del arte, superando a los métodos previos basados en texto en varios benchmarks de preguntas-respuestas (QA). En particular, CLaRa mostró resultados favorables para manejar contextos largos de forma efectiva, lo que demuestra que su método de optimización integrada realmente funciona. Estos resultados sugieren que CLaRa tiene el potencial de mejorar significativamente el rendimiento de los sistemas RAG.
El enfoque de CLaRa se diferencia de las investigaciones RAG previas y, como el primer método que optimiza directamente la recuperación y la generación, muestra potencial para aplicarse en diversos campos en el futuro. Este estudio presenta nuevas posibilidades para los sistemas RAG y se espera que sirva como una base importante para investigaciones futuras.
Resumen del paper (Abstract)
La generación aumentada por recuperación (RAG) refuerza a los modelos de lenguaje grandes (LLM) con conocimiento externo, pero todavía sufre por los contextos largos y por la optimización separada entre recuperación y generación. En este trabajo, proponemos CLaRa (Continuous Latent Reasoning), un marco unificado que realiza compresión basada en embeddings y optimización conjunta en un espacio continuo compartido. Para obtener vectores comprimidos semánticamente ricos y recuperables, introducimos SCP, un marco de síntesis de datos que preserva claves y utiliza supervisión de QA y paráfrasis. Luego, CLaRa entrena de extremo a extremo al reranker y al generador mediante una sola pérdida de modelado de lenguaje, con gradientes que fluyen a través de ambos módulos usando un estimador top-k diferenciable. Teóricamente, esta optimización unificada alinea la relevancia de la recuperación con la calidad de la respuesta. Los experimentos en múltiples benchmarks de QA muestran que CLaRa logra rendimiento de vanguardia en compresión y reranking, y a menudo supera las líneas base ajustadas con fine-tuning basado en texto.
> Retrieval-augmented generation (RAG) enhances large language models (LLMs) with external knowledge but still suffers from long contexts and disjoint retrieval-generation optimization. In this work, we propose CLaRa (Continuous Latent Reasoning), a unified framework that performs embedding-based compression and joint optimization in a shared continuous space. To obtain semantically rich and retrievable compressed vectors, we introduce SCP, a key-preserving data synthesis framework using QA and paraphrase supervision. CLaRa then trains the reranker and generator end-to-end via a single language modeling loss, with gradients flowing through both modules using a differentiable top-k estimator. Theoretically, this unified optimization aligns retrieval relevance with answer quality. Experiments across multiple QA benchmarks show that CLaRa achieves state-of-the-art compression and reranking performance, often surpassing text-based fine-tuned baselines.
Enlace al paper
https://arxiv.org/abs/2511.18659
Leer más
https://github.com/apple/ml-clara
⚠️Publicidad⚠️: ¿Te resultó útil este artículo recopilado por 🔥Comunidad de usuarios de PyTorch en Corea🇰🇷? Si te registras como miembro, te enviaremos los artículos principales por correo electrónico💌. (La opción predeterminada es Weekly, pero también puedes cambiarla a Daily.)
Aún no hay comentarios.