[2025/09/29 ~ 10/05] Artículos de AI/ML para revisar esta semana
(discuss.pytorch.kr)[2025/09/29 ~ 10/05] Artículos de AI/ML para revisar esta semana
PyTorchKR🔥🇰🇷 🤔💭
1️⃣ Mejora de la veracidad y confiabilidad de la información: varios artículos proponen distintos enfoques para aumentar la precisión y confiabilidad de la información. Por ejemplo, en "Incentive-Aligned Multi-Source LLM Summaries" se garantiza la veracidad de la información mediante el marco Truthful Text Summarization (TTS), y en "AgentMaster" se aprovecha un sistema multiagente para respaldar la búsqueda y el análisis de información confiable.
2️⃣ Avance de los sistemas multiagente: en múltiples investigaciones está aumentando el uso de los sistemas multiagente (MAS, Multi-Agent System), lo que está ayudando mucho a resolver tareas complejas. Los artículos "TUMIX" y "AgentMaster" presentan métodos para mejorar el rendimiento mediante la colaboración y la interacción entre agentes que utilizan diversas herramientas.
3️⃣ Inyección de conocimiento y aprendizaje continuo: en los artículos "How to inject knowledge efficiently?" y "Continual Learning for VLMs" se investiga cómo inyectar conocimiento de dominio de manera eficiente y cómo aprender de forma continua a partir de datos anómalos. Estos trabajos se centran en mejorar el rendimiento de los modelos y en evitar la pérdida del conocimiento ya adquirido.
ARE: ampliación de entornos y evaluaciones de agentes / ARE: Scaling Up Agent Environments and Evaluations
Introducción del artículo
Meta Superintelligence Lab presentó Meta Agents Research Environments (ARE), una plataforma de investigación innovadora que mejora la escalabilidad de los entornos para agentes, permite integrar aplicaciones sintéticas o reales, y ejecutar la orquestación de agentes. ARE ofrece abstracciones simples para construir entornos complejos y diversos, de modo que cada entorno tenga sus propias reglas, herramientas, contenidos y verificadores, ayudando así a cerrar la brecha entre el desarrollo de modelos y el despliegue en el mundo real.
Una de las principales innovaciones de ARE es la introducción del benchmark llamado Gaia2. Gaia2 fue diseñado para medir las capacidades generales de los agentes e incluye requisitos complejos que van más allá de la simple búsqueda y ejecución: los agentes deben manejar ambigüedad y ruido, adaptarse a entornos dinámicos, colaborar con otros agentes y trabajar bajo restricciones de tiempo. En particular, Gaia2 se ejecuta de manera asíncrona, lo que revela nuevos modos de falla que no aparecen en entornos estáticos y permite evaluar el rendimiento de los agentes con mayor precisión.
Los resultados experimentales muestran que ningún sistema logra dominar todo el espectro de inteligencia, y que una capacidad de razonamiento más fuerte suele tener como costo una menor eficiencia. El estancamiento de las curvas de escalado con presupuesto resalta la necesidad de nuevas arquitecturas y estrategias de cómputo adaptativo. Estos hallazgos marcan una dirección para la investigación en IA y destacan la importancia de ARE y Gaia2.
Las abstracciones de ARE permiten seguir ampliando Gaia2 hacia otros entornos, lo que facilita que la comunidad de investigación genere rápidamente nuevos benchmarks adaptados a sus propios dominios. El avance de la IA dependerá cada vez más de definir tareas significativas y evaluaciones robustas, algo que será posible gracias a las capacidades de ARE. En este contexto, ARE proporcionará las herramientas necesarias para el desarrollo y la evaluación de agentes, y desempeñará un papel importante en la frontera de la investigación en IA.
Resumen del artículo (Abstract)
Presentamos Meta Agents Research Environments (ARE), una plataforma de investigación para la creación escalable de entornos, la integración de aplicaciones sintéticas o reales y la ejecución de orquestaciones de agentes. ARE proporciona abstracciones simples para construir entornos complejos y diversos, cada uno con sus propias reglas, herramientas, contenidos y verificadores, lo que ayuda a cerrar la brecha entre el desarrollo de modelos y el despliegue en el mundo real. También proponemos Gaia2, un benchmark construido sobre ARE y diseñado para medir capacidades generales de agentes. Más allá de la búsqueda y la ejecución, Gaia2 exige que los agentes manejen ambigüedades y ruido, se adapten a entornos dinámicos, colaboren con otros agentes y operen bajo restricciones temporales. A diferencia de benchmarks anteriores, Gaia2 se ejecuta de forma asíncrona, revelando nuevos modos de falla que no son visibles en entornos estáticos. Nuestros experimentos muestran que ningún sistema domina todo el espectro de inteligencia: un razonamiento más potente suele tener el costo de la eficiencia, y las curvas de escalado del presupuesto se estancan, lo que subraya la necesidad de nuevas arquitecturas y estrategias de cómputo adaptativo. Quizá aún más importante, las abstracciones de ARE permiten extender continuamente Gaia2 a otros entornos, dando a la comunidad la capacidad de crear rápidamente nuevos benchmarks adaptados a sus dominios. En la segunda mitad de la IA, el progreso dependerá cada vez más de definir tareas significativas y evaluaciones robustas para impulsar las capacidades de frontera.
We introduce Meta Agents Research Environments (ARE), a research platform for scalable creation of environments, integration of synthetic or real applications, and execution of agentic orchestrations. ARE provides simple abstractions to build complex and diverse environments, each with their own rules, tools, content, and verifiers, helping to bridge the gap between model development and real-world deployment. We also propose Gaia2, a benchmark built in ARE and designed to measure general agent capabilities. Beyond search and execution, Gaia2 requires agents to handle ambiguities and noise, adapt to dynamic environments, collaborate with other agents, and operate under temporal constraints. Unlike prior benchmarks, Gaia2 runs asynchronously, surfacing new failure modes that are invisible in static settings. Our experiments show that no system dominates across the intelligence spectrum: stronger reasoning often comes at the cost of efficiency, and budget scaling curves plateau, highlighting the need for new architectures and adaptive compute strategies. Perhaps more importantly, ARE abstractions enable continuous extension of Gaia2 to other environments, empowering the community to rapidly create new benchmarks tailored to their domains. In AI's second half, progress increasingly depends on defining meaningful tasks and robust evaluations to drive frontier capabilities forward.
Enlace del artículo
https://arxiv.org/abs/2509.17158
Resúmenes LLM multifuente alineados con incentivos / Incentive-Aligned Multi-Source LLM Summaries
Introducción del artículo
Los modelos de lenguaje grandes (LLM) se usan ampliamente en los sistemas modernos de recuperación de información y respuesta para integrar texto de múltiples fuentes y generar una sola respuesta. Sin embargo, los sistemas existentes tienen limitaciones para garantizar la precisión de las fuentes y presentan vulnerabilidades ante contenido adversarial. Para resolver estos problemas, el marco de Truthful Text Summarization (TTS) propuesto ofrece un enfoque innovador que mejora la robustez factual y puede funcionar sin etiquetas reales. TTS descompone un resumen preliminar en afirmaciones atómicas, evalúa las afirmaciones de cada fuente y puntúa las fuentes mediante un mecanismo adaptado de predicción entre pares multitarea que recompensa la consistencia de la información. Este proceso, que vuelve a resumir después de filtrar las fuentes no confiables, alinea los incentivos de las fuentes con la honestidad informativa, de modo que reportar con veracidad se convierta en la estrategia que maximiza la utilidad.
La metodología de TTS presenta un nuevo enfoque para garantizar la veracidad de la información y subraya su diferenciación frente a estudios previos sobre resumen de información y LLM. Los resultados experimentales muestran que TTS logró mejorar la precisión factual y la robustez manteniendo la fluidez, lo que contribuye a desalentar la manipulación mediante la verificación y alineación de la información. Esta investigación plantea la posibilidad de mejorar significativamente la confiabilidad de los sistemas de resumen de información y sienta una base importante para explorar su aplicación futura en diversos campos. TTS mejora la veracidad de la información y, al mismo tiempo, alinea los incentivos de las fuentes, lo que sugiere un gran potencial para aumentar de forma significativa la confiabilidad de los sistemas de resumen de información.
Resumen del artículo (Abstract)
Los modelos de lenguaje grandes (LLM) se usan cada vez más en los sistemas modernos de búsqueda y respuesta para sintetizar múltiples textos, a veces contradictorios, en una sola respuesta; sin embargo, los pipelines actuales ofrecen incentivos débiles para que las fuentes sean precisas y son vulnerables al contenido adversarial. Presentamos Truthful Text Summarization (TTS), un marco de alineación de incentivos que mejora la robustez factual sin etiquetas de verdad de terreno. TTS (i) descompone una síntesis preliminar en afirmaciones atómicas, (ii) obtiene la postura de cada fuente sobre cada afirmación, (iii) puntúa las fuentes con un mecanismo adaptado de predicción entre pares multitarea que recompensa el acuerdo informativo y (iv) filtra las fuentes no confiables antes de volver a resumir. Establecemos garantías formales que alinean los incentivos de una fuente con la honestidad informativa, haciendo que el reporte veraz sea la estrategia que maximiza la utilidad. Los experimentos muestran que TTS mejora la precisión factual y la robustez mientras preserva la fluidez, alineando la exposición con la corroboración informativa y desincentivando la manipulación.
> Large language models (LLMs) are increasingly used in modern search and answer systems to synthesize multiple, sometimes conflicting, texts into a single response, yet current pipelines offer weak incentives for sources to be accurate and are vulnerable to adversarial content. We introduce Truthful Text Summarization (TTS), an incentive-aligned framework that improves factual robustness without ground-truth labels. TTS (i) decomposes a draft synthesis into atomic claims, (ii) elicits each source's stance on every claim, (iii) scores sources with an adapted multi-task peer-prediction mechanism that rewards informative agreement, and (iv) filters unreliable sources before re-summarizing. We establish formal guarantees that align a source's incentives with informative honesty, making truthful reporting the utility-maximizing strategy. Experiments show that TTS improves factual accuracy and robustness while preserving fluency, aligning exposure with informative corroboration and disincentivizing manipulation.
Enlace del artículo
https://arxiv.org/abs/2509.25184
TUMIX: escalado en tiempo de prueba multiagente mediante mezcla de uso de herramientas / TUMIX: Multi-Agent Test-Time Scaling with Tool-Use Mixture
Introducción del artículo
Tool-Use Mixture (TUMIX) es un marco de ensamble que ejecuta múltiples agentes en paralelo para adoptar distintas estrategias de uso de herramientas y diferentes rutas de respuesta. Esta metodología se centra en ofrecer soluciones efectivas para una variedad de preguntas mediante la integración de razonamiento basado en texto, programación y búsqueda. Los agentes de TUMIX comparten y refinan iterativamente sus respuestas con base en la pregunta y las respuestas previas, lo que permite una integración más profunda y la exploración de diversas trayectorias de razonamiento.
TUMIX logró una mejora promedio de precisión de 3.55% frente a los métodos existentes de refuerzo con herramientas y escalado en tiempo de prueba, y mostró un rendimiento sobresaliente en benchmarks clave de razonamiento con los modelos Gemini-2.5-Pro y Gemini-2.5-Flash. Estos resultados muestran que la diversidad y la calidad de los agentes son factores importantes, y el trabajo propone una forma de optimizar automáticamente el diseño de agentes utilizando LLM (modelos de lenguaje grandes). Gracias a esto, TUMIX obtuvo una mejora adicional promedio de precisión de 1.2%.
TUMIX ofrece un enfoque innovador que puede detener el refinamiento al alcanzar un nivel suficiente de confianza, reduciendo así el costo de razonamiento al 49% mientras mantiene el rendimiento. Aunque es posible lograr un rendimiento aún mayor con escalado adicional, el aumento del costo en ese caso es un factor importante que deberá considerarse en investigaciones futuras.
Este estudio presenta una forma de maximizar las capacidades de uso de herramientas y razonamiento de los LLM, contribuyendo a ofrecer soluciones efectivas para distintos tipos de preguntas. TUMIX muestra, mediante un enfoque diferenciado respecto a las metodologías existentes, su potencial para generalizar mejor a aplicaciones del mundo real.
Resumen del artículo (Abstract)
Integrar herramientas como Code Interpreter y Search ha mejorado significativamente el razonamiento de los modelos de lenguaje grandes (LLM) en modelos como ChatGPT Agent y Gemini-Pro, pero todavía falta orientación práctica sobre el uso óptimo de herramientas. El desafío central es combinar de forma efectiva el razonamiento textual, la programación y la búsqueda para distintos tipos de preguntas. En este artículo, se propone Tool-Use Mixture (TUMIX), un framework de ensamble que ejecuta múltiples agentes en paralelo, cada uno con estrategias distintas de uso de herramientas y rutas de respuesta. Los agentes de TUMIX comparten y refinan iterativamente sus respuestas con base en la pregunta y en las respuestas previas. En los experimentos, TUMIX logra mejoras significativas frente a los métodos de vanguardia con herramientas aumentadas y escalado en tiempo de prueba, ofreciendo una mejora promedio de precisión de hasta 3.55% sobre la mejor línea base en Gemini-2.5-Pro y Gemini-2.5-Flash a través de benchmarks clave de razonamiento, con costos de inferencia casi iguales. Encontramos que la diversidad y la calidad de los agentes son cruciales, y que pueden mejorarse usando LLM para autooptimizar el diseño de los agentes. Además, TUMIX puede detener el refinamiento al alcanzar un nivel suficiente de confianza, manteniendo el rendimiento con solo el 49% del costo de inferencia. Un escalado adicional puede lograr un rendimiento más alto, aunque con un mayor costo.
> While integrating tools like Code Interpreter and Search has significantly enhanced Large Language Model (LLM) reasoning in models like ChatGPT Agent and Gemini-Pro, practical guidance on optimal tool use is lacking. The core challenge is effectively combining textual reasoning, coding, and search for diverse questions. In this paper, we propose Tool-Use Mixture (TUMIX), an ensemble framework that runs multiple agents in parallel, each employing distinct tool-use strategies and answer paths. Agents in TUMIX iteratively share and refine responses based on the question and previous answers. In experiments, TUMIX achieves significant gains over state-of-the-art tool-augmented and test-time scaling methods, delivering an average accuracy improvement of up to 3.55% over the best baseline on Gemini-2.5-Pro and Gemini-2.5-Flash across key reasoning benchmarks, with near-equal inference costs. We find that agent diversity and quality are crucial and can be enhanced by using LLMs to auto-optimize agent designs. Furthermore, TUMIX can halt refinement upon reaching sufficient confidence, preserving performance at only 49% of the inference cost. Further scaling can achieve higher performance, albeit at a greater cost.
Enlace al artículo
https://arxiv.org/abs/2510.01279
En sus propias palabras: trazas de razonamiento adaptadas para modelos pequeños los convierten en mejores razonadores / In Their Own Words: Reasoning Traces Tailored for Small Models Make Them Better Reasoners
Introducción al artículo
La transferencia de capacidades de razonamiento desde modelos de lenguaje grandes hacia modelos pequeños suele enfrentar el problema de una degradación del rendimiento contraria a lo esperado. Este fenómeno se origina en una desalineación distribucional (Distributional Misalignment) que ocurre durante el proceso de ajuste fino supervisado (Supervised Fine-Tuning, SFT), ya que las trazas de razonamiento de los modelos grandes incluyen tokens de baja probabilidad que no coinciden con la distribución de probabilidad de los modelos pequeños. Como resultado, los modelos pequeños no logran aprender de forma efectiva los patrones avanzados de razonamiento de los modelos grandes y, en cambio, se topan con una barrera de aprendizaje.
Para resolver este problema, se propuso la metodología Reverse Speculative Decoding (RSD), que funciona de modo que el modelo maestro propone tokens candidatos y el modelo estudiante decide si aceptarlos o no con base en su propia distribución de probabilidad. En este proceso, los tokens de baja probabilidad se filtran, lo que permite conservar pasos de razonamiento útiles dentro del rango que el modelo pequeño puede manejar. RSD se aplicó al modelo Qwen3-0.6B, y mientras que los datos de trazas de razonamiento generados mediante destilación directa redujeron el rendimiento promedio en 20.5%, el entrenamiento con trazas de razonamiento generadas por RSD mostró una mejora significativa de 4.9%.
La efectividad de RSD se observó de manera consistente en distintos benchmarks de razonamiento, lo que resalta que los tokens de baja probabilidad son un cuello de botella clave para una transferencia efectiva del razonamiento. Además, RSD debe optimizarse para cada modelo, lo que sugiere que se requiere una alineación distribucional adaptada a las representaciones internas particulares de cada modelo estudiante. Estos hallazgos se consideran una metodología importante para mejorar el rendimiento de modelos pequeños y muestran su potencial de aplicación en investigaciones futuras.
En conclusión, RSD es un enfoque innovador que permite transferir de manera efectiva las capacidades de razonamiento de los modelos grandes a los modelos pequeños, al contribuir a mejorar la capacidad de razonamiento de estos últimos mediante el filtrado de tokens de baja probabilidad. Esta investigación propone una nueva dirección para mejorar el rendimiento de los modelos pequeños y puede convertirse en una base importante para ampliar las aplicaciones futuras en los campos de la IA y el aprendizaje automático.
Resumen(Abstract)
La transferencia de capacidades de razonamiento desde modelos de lenguaje más grandes hacia modelos más pequeños mediante ajuste fino supervisado a menudo falla de forma contraintuitiva, y el rendimiento se degrada a pesar de tener acceso a demostraciones de alta calidad del modelo maestro. Identificamos que esta falla se origina en una desalineación distribucional: las trazas de razonamiento de los modelos más grandes contienen tokens de baja probabilidad bajo la distribución del estudiante, lo que excede la capacidad de representación interna de las arquitecturas más pequeñas y crea barreras de aprendizaje en lugar de una guía útil. Proponemos Reverse Speculative Decoding (RSD), un mecanismo para generar trazas de razonamiento amigables para el estudiante, en el que el modelo maestro propone tokens candidatos, pero el modelo estudiante decide si aceptarlos según sus propias distribuciones de probabilidad, filtrando los tokens de baja probabilidad. Cuando se aplica a Qwen3-0.6B, la destilación directa de los datos de trazas de razonamiento de s1K-1.1 degrada el rendimiento promedio en los principales benchmarks de razonamiento en 20.5%, mientras que el mismo modelo entrenado con trazas de razonamiento generadas por RSD logra una mejora significativa de 4.9%. Nuestro análisis revela que los tokens de baja probabilidad constituyen el cuello de botella crítico en la transferencia de capacidades de razonamiento. Sin embargo, los experimentos entre modelos demuestran que las trazas RSD son específicas de cada modelo y no universalmente aplicables, lo que indica que la alineación distribucional debe ajustarse a la representación interna única de cada arquitectura estudiante.
> Transferring reasoning capabilities from larger language models to smaller ones through supervised fine-tuning often fails counterintuitively, with performance degrading despite access to high-quality teacher demonstrations. We identify that this failure stems from distributional misalignment: reasoning traces from larger models contain tokens that are low probability under the student's distribution, exceeding the internal representation capacity of smaller architectures and creating learning barriers rather than helpful guidance. We propose Reverse Speculative Decoding (RSD), a mechanism for generating student-friendly reasoning traces in which the teacher model proposes candidate tokens but the student model determines acceptance based on its own probability distributions, filtering low probability tokens. When applied to Qwen3-0.6B, direct distillation of s1K-1.1 reasoning trace data degrades average performance across major reasoning benchmarks by 20.5%, while the same model trained on RSD-generated reasoning traces achieves meaningful improvements of 4.9%. Our analysis reveals that low probability tokens constitute the critical bottleneck in reasoning ability transfer. However, cross-model experiments demonstrate that RSD traces are model-specific rather than universally applicable, indicating that distributional alignment must be tailored for each student architecture's unique internal representation.
Enlace al artículo
https://arxiv.org/abs/2509.22230
AgentMaster: un framework conversacional multiagente que utiliza los protocolos A2A y MCP para la recuperación y análisis de información multimodal / AgentMaster: A Multi-Agent Conversational Framework Using A2A and MCP Protocols for Multimodal Information Retrieval and Analysis
Introducción del artículo
En el campo de la inteligencia artificial (AI), el avance de los Multi-Agent Systems (MAS) está desempeñando un papel importante en la resolución colaborativa de problemas complejos por parte de múltiples agentes inteligentes. Sin embargo, los MAS actuales enfrentan varios desafíos en la comunicación fluida entre agentes, la coordinación y la interacción con diversas herramientas y recursos. Para abordar estos problemas, este estudio propone un nuevo framework MAS modular llamado AgentMaster. Este framework integra el protocolo de comunicación Agent-to-Agent (A2A) y el Model Context Protocol (MCP) para permitir una coordinación dinámica y una comunicación flexible.
AgentMaster ofrece una interfaz conversacional unificada diseñada para que los usuarios puedan interactuar con el sistema en lenguaje natural sin necesidad de conocimientos técnicos especializados. A través de ello, admite respuestas a diversas consultas multimodales, como recuperación de información, preguntas y respuestas, y análisis de imágenes. La contribución central de este estudio es permitir una coordinación efectiva entre agentes y una comunicación fluida entre agentes de recuperación especializados mediante el uso de A2A y MCP. Además, AgentMaster descompone las consultas de los usuarios en workflows especializados, lo que permite la descomposición automatizada de consultas, la asignación de tareas y el enrutamiento dinámico.
En los resultados experimentales, AgentMaster registró un alto desempeño de 96.3% en BERTScore F1 y 87.1% en LLM-as-a-Judge G-Eval. Estos resultados demuestran una sólida coordinación automatizada entre agentes y respuestas relevantes específicas del dominio, contribuyendo a ampliar el potencial de los MAS. Este estudio muestra el carácter innovador de un framework MAS que integra A2A y MCP, y se espera que haga una contribución importante al avance de la AI conversacional colaborativa y escalable.
Resumen del artículo (Abstract)
El auge de los sistemas multiagente (MAS) ha facilitado en gran medida la resolución de tareas complejas al integrarse con los modelos de lenguaje grandes (LLM). Sin embargo, los sistemas actuales todavía enfrentan dificultades en la comunicación y coordinación entre agentes, así como en la interacción con herramientas y recursos heterogéneos. Recientemente se introdujeron el Model Context Protocol (MCP) de Anthropic y el protocolo de comunicación Agent-to-Agent (A2A) de Google, y hasta donde sabemos, son muy pocos los casos en que ambos protocolos se usan simultáneamente dentro de un solo framework MAS. Presentamos un estudio piloto de AgentMaster, un nuevo framework MAS modular y multiprotocolo con A2A y MCP implementados por cuenta propia, que permite coordinación dinámica, comunicación flexible e iteración rápida. A través de una interfaz conversacional unificada, el sistema admite interacción en lenguaje natural sin necesidad de conocimientos técnicos previos y responde a consultas multimodales para tareas que incluyen recuperación de información, respuesta a preguntas y análisis de imágenes. Los experimentos se validaron mediante evaluación humana y métricas cuantitativas, incluidas BERTScore F1 (96.3%) y LLM-as-a-Judge G-Eval (87.1%). Estos resultados demuestran una sólida coordinación automatizada entre agentes, descomposición de consultas, asignación de tareas, enrutamiento dinámico y respuestas relevantes específicas del dominio. En conjunto, el framework que proponemos contribuye a las capacidades potenciales de una IA conversacional específica de dominio, cooperativa y escalable impulsada por MAS.
> The rise of Multi-Agent Systems (MAS) in Artificial Intelligence (AI), especially integrated with Large Language Models (LLMs), has greatly facilitated the resolution of complex tasks. However, current systems are still facing challenges of inter-agent communication, coordination, and interaction with heterogeneous tools and resources. Most recently, the Model Context Protocol (MCP) by Anthropic and Agent-to-Agent (A2A) communication protocol by Google have been introduced, and to the best of our knowledge, very few applications exist where both protocols are employed within a single MAS framework. We present a pilot study of AgentMaster, a novel modular multi-protocol MAS framework with self-implemented A2A and MCP, enabling dynamic coordination, flexible communication, and rapid development with faster iteration. Through a unified conversational interface, the system supports natural language interaction without prior technical expertise and responds to multimodal queries for tasks including information retrieval, question answering, and image analysis. The experiments are validated through both human evaluation and quantitative metrics, including BERTScore F1 (96.3%) and LLM-as-a-Judge G-Eval (87.1%). These results demonstrate robust automated inter-agent coordination, query decomposition, task allocation, dynamic routing, and domain-specific relevant responses. Overall, our proposed framework contributes to the potential capabilities of domain-specific, cooperative, and scalable conversational AI powered by MAS.
Enlace al artículo
https://arxiv.org/abs/2507.21105
Método eficiente de inyección de conocimiento: ley de escalado de la inyección de conocimiento para el preentrenamiento de modelos de lenguaje grandes / How to inject knowledge efficiently? Knowledge Infusion Scaling Law for Pre-training Large Language Models
Introducción del artículo
Los modelos de lenguaje grandes (LLMs) muestran un rendimiento sobresaliente en diversas tareas, pero cuando carecen de optimización especializada por dominio, pueden rendir mal en benchmarks de conocimiento experto y provocar alucinaciones. Este estudio propone una metodología para inyectar estratégicamente conocimiento de dominio durante el proceso de preentrenamiento, poniendo especial atención al fenómeno de colapso de memoria (memory collapse) que surge en ese proceso. El colapso de memoria ocurre por una inyección excesiva de conocimiento, lo que deteriora drásticamente la capacidad del modelo para retener conocimiento. El equipo de investigación obtuvo dos observaciones principales. Primero, cada modelo presenta un punto crítico en el que su capacidad de retención de conocimiento cae abruptamente; segundo, estos puntos de colapso escalan de manera consistente con el tamaño del modelo.
Con base en estas ideas, el estudio propuso una ley de escalado de la inyección de conocimiento (knowledge infusion scaling law). Esta ley ayuda a predecir la cantidad óptima de conocimiento de dominio que debe inyectarse en LLMs de gran escala, y su efectividad y generalidad se validaron mediante experimentos sobre distintos tamaños de modelo y presupuestos de tokens asociados. En particular, se muestra que el colapso de memoria se produce por una inyección excesiva de conocimiento, lo que sugiere que una inyección de conocimiento escasa a nivel de token es suficiente incluso en datasets de gran escala.
La investigación también evaluó el rendimiento de retención de memoria según distintos tamaños de datasets de entrenamiento y frecuencias de inyección, y descubrió que los modelos grandes pueden alcanzar la saturación incluso con pequeñas cantidades de conocimiento. Estos resultados ofrecen ideas importantes para la especialización y optimización por dominio de los LLM y se espera que contribuyan al diseño de estrategias de inyección de conocimiento en futuras investigaciones. Este estudio se centra en evaluar el efecto de la inyección de conocimiento en modelos de lenguaje grandes, presentar una metodología para evaluar la capacidad de retención y predecir puntos de colapso, y analizar el impacto de distintas plantillas.
Resumen (Abstract)
Los modelos de lenguaje de gran tamaño (LLM) han atraído mucha atención debido a sus impresionantes capacidades generales en diversas tareas downstream. Sin embargo, sin una optimización específica por dominio, a menudo rinden por debajo de lo esperado en benchmarks de conocimiento especializado e incluso producen alucinaciones. Estudios recientes muestran que inyectar estratégicamente conocimiento de dominio durante el preentrenamiento puede mejorar sustancialmente el rendimiento en tareas downstream. Un desafío crítico está en equilibrar este trade-off de inyección: si se inyectan muy pocos datos específicos del dominio, se obtiene una especialización insuficiente; en cambio, una inyección excesiva provoca olvido catastrófico del conocimiento adquirido previamente. En este trabajo, nos enfocamos en el fenómeno del colapso de memoria inducido por la sobreinyección. A través de experimentos sistemáticos, hacemos dos observaciones clave: 1) Punto crítico de colapso: cada modelo presenta un umbral más allá del cual sus capacidades de retención de conocimiento se degradan bruscamente. 2) Correlación con la escala: estos puntos de colapso escalan de manera consistente con el tamaño del modelo. A partir de estas observaciones, proponemos una ley de escalado de inyección de conocimiento que predice la cantidad óptima de conocimiento de dominio que debe inyectarse en LLM grandes mediante el análisis de sus contrapartes más pequeñas. Experimentos extensivos en distintos tamaños de modelo y presupuestos de tokens correspondientes validan tanto la efectividad como la generalización de nuestra ley de escalado.
> Large language models (LLMs) have attracted significant attention due to their impressive general capabilities across diverse downstream tasks. However, without domain-specific optimization, they often underperform on specialized knowledge benchmarks and even produce hallucination. Recent studies show that strategically infusing domain knowledge during pretraining can substantially improve downstream performance. A critical challenge lies in balancing this infusion trade-off: injecting too little domain-specific data yields insufficient specialization, whereas excessive infusion triggers catastrophic forgetting of previously acquired knowledge. In this work, we focus on the phenomenon of memory collapse induced by over-infusion. Through systematic experiments, we make two key observations, i.e. 1) Critical collapse point: each model exhibits a threshold beyond which its knowledge retention capabilities sharply degrade. 2) Scale correlation: these collapse points scale consistently with the model's size. Building on these insights, we propose a knowledge infusion scaling law that predicts the optimal amount of domain knowledge to inject into large LLMs by analyzing their smaller counterparts. Extensive experiments across different model sizes and pertaining token budgets validate both the effectiveness and generalizability of our scaling law.
Enlace al artículo
https://arxiv.org/abs/2509.19371
Bifrost-1: conexión entre LLM multimodales y modelos de difusión con latentes CLIP a nivel de parche / Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents
Introducción del artículo
Bifrost-1 propone un framework innovador que conecta modelos de lenguaje multimodales de gran tamaño (MLLM) preentrenados y modelos de difusión mediante embeddings de imagen CLIP (Contrastive Language-Image Pretraining) a nivel de parche. Los enfoques existentes enfrentaban altos costos de entrenamiento y problemas de eficiencia porque los LLM no habían experimentado representaciones de imagen durante el preentrenamiento. Para resolver este problema, Bifrost-1 aprovecha embeddings de imagen a nivel de parche alineados de forma natural con el codificador visual CLIP del MLLM y los integra en el modelo de difusión. En este proceso, mediante una adaptación ligera de ControlNet, conserva la capacidad original de razonamiento multimodal del MLLM y al mismo tiempo añade una rama de generación visual para predecir embeddings de imagen a nivel de parche.
La principal innovación de Bifrost-1 es que permite una conexión eficiente entre MLLM y modelos de difusión usando latentes CLIP a nivel de parche. Esto hace posible la generación de imágenes controlable y de alta fidelidad, al tiempo que mejora significativamente la eficiencia del entrenamiento. Los resultados experimentales muestran que Bifrost-1 iguala o supera a métodos previos en fidelidad visual y comprensión multimodal, además de reducir de forma notable el costo computacional durante el entrenamiento.
Además, mediante estudios de ablación exhaustivos, se demostró que las decisiones de diseño de Bifrost-1 son efectivas. Estos estudios subrayan la importancia del procesamiento de información multimodal y contribuirán a construir sistemas de IA más avanzados mediante la integración entre LLM y modelos de difusión. Se espera que Bifrost-1 establezca un nuevo referente para la generación y comprensión multimodal y se convierta en un hito importante para futuras investigaciones.
Resumen (Abstract)
Está creciendo el interés por integrar capacidades de síntesis visual de alta fidelidad en los modelos de lenguaje grandes (LLM) sin comprometer sus sólidas capacidades de razonamiento. Los métodos existentes, que entrenan directamente los LLM o buscan conectar LLM y modelos de difusión (diffusion model), suelen enfrentar costos de entrenamiento elevados porque el LLM base no ha visto representaciones de imágenes durante el pretraining. Proponemos Bifrost-1, un marco unificado que conecta modelos multimodales de lenguaje grandes preentrenados (MLLM) y modelos de difusión usando embeddings de imagen CLIP a nivel de parche como variables latentes. Estos embeddings de imagen a nivel de parche están alineados de forma nativa con el codificador visual CLIP del MLLM. Dichos embeddings se integran en el modelo de difusión mediante una adaptación ligera de ControlNet. Para conservar las capacidades originales de razonamiento multimodal del MLLM, incorporamos al MLLM una rama de generación visual inicializada a partir de los parámetros originales del MLLM al predecir los embeddings de imagen a nivel de parche. Al integrar de forma fluida MLLM preentrenados y modelos de difusión con latentes CLIP a nivel de parche, nuestro marco permite la generación de imágenes controlable y de alta fidelidad, al tiempo que mejora significativamente la eficiencia del entrenamiento. Los resultados experimentales muestran que Bifrost-1 logra un desempeño comparable o superior al de métodos anteriores tanto en fidelidad visual como en comprensión multimodal, mientras reduce de forma considerable el costo computacional durante el entrenamiento. Además, presentamos estudios de ablación (ablation studies) exhaustivos que muestran la efectividad de nuestras decisiones de diseño.
> There is growing interest in integrating high-fidelity visual synthesis capabilities into large language models (LLMs) without compromising their strong reasoning capabilities. Existing methods that directly train LLMs or bridge LLMs and diffusion models usually suffer from costly training since the backbone LLMs have not seen image representations during pretraining. We present Bifrost-1, a unified framework that bridges pretrained multimodal LLMs (MLLMs) and diffusion models using patch-level CLIP image embeddings as latent variables, which are natively aligned with the MLLM's CLIP visual encoder. These patch-level image embeddings are integrated into the diffusion model with a lightweight adaptation of its ControlNet. To retain the original multimodal reasoning capabilities of MLLMs, we equip the MLLM with a visual generation branch initialized from the original MLLM parameters when predicting the patch-level image embeddings. By seamlessly integrating pretrained MLLMs and diffusion models with patch-level CLIP latents, our framework enables high-fidelity controllable image generation with significant training efficiency. Our experiments demonstrate that Bifrost-1 achieves comparable or better performance than previous methods in terms of visual fidelity and multimodal understanding, with substantially lower compute during training. We also provide comprehensive ablation studies showing the effectiveness of our design choices.
Enlace al artículo
https://arxiv.org/abs/2508.05954
Leer más
Aprendizaje continuo para VLM: encuesta y taxonomía más allá del olvido / Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting
Introducción al artículo
Los modelos visión-lenguaje (Vision-Language Models, VLM) muestran un rendimiento sobresaliente en diversas tareas multimodales gracias al pretraining a gran escala, pero existen varios desafíos para aprender de manera continua a partir de datos no estacionarios. Este problema se vuelve aún más evidente porque la alineación entre modalidades y la capacidad de generalización son especialmente vulnerables al olvido catastrófico. El aprendizaje continuo en VLM (VLM-CL) presenta problemas propios que difieren del aprendizaje continuo unimodal tradicional, y este artículo identifica tres modos principales de falla en VLM-CL y propone una taxonomía basada en desafíos para abordarlos.
La taxonomía propuesta se compone de (1) estrategias de replay multimodal, (2) regularización entre modalidades y (3) adaptación eficiente en parámetros. Las estrategias de replay multimodal contribuyen a mitigar la deriva de características entre modalidades al reproducir información de tareas pasadas, mientras que la regularización entre modalidades se centra en mantener la alineación de modalidades durante las actualizaciones. La adaptación eficiente en parámetros es una metodología que congela el modelo preentrenado principal y actualiza solo una pequeña cantidad de parámetros nuevos para resolver el problema de interferencia entre módulos compartidos.
Este artículo ofrece una revisión integral de VLM-CL y analiza los protocolos de evaluación, conjuntos de datos y métricas actuales, subrayando la necesidad de mejores benchmarks que puedan capturar el olvido específico de los VLM y la generalización composicional. Además, presenta direcciones futuras de investigación, incluido el pretraining continuo y el aprendizaje zero-shot composicional, para servir como referencia útil a investigadores que buscan desarrollar sistemas visión-lenguaje para aprendizaje a lo largo de toda la vida. Este enfoque sistemático y diagnóstico contribuirá a impulsar la innovación en el campo del aprendizaje continuo para VLM y a sentar las bases para construir sistemas de IA multimodal con aprendizaje verdaderamente permanente.
Resumen(Abstract)
Los modelos de visión-lenguaje (VLM) han logrado un rendimiento impresionante en diversas tareas multimodales al aprovechar el preentrenamiento a gran escala. Sin embargo, permitirles aprender de forma continua a partir de datos no estacionarios sigue siendo un desafío importante, ya que sus capacidades de alineación entre modalidades y de generalización son particularmente vulnerables al olvido catastrófico. A diferencia del aprendizaje continuo (CL) unimodal tradicional, los VLM enfrentan desafíos únicos como la deriva de características entre modalidades, la interferencia de parámetros debido a arquitecturas compartidas y el deterioro de la capacidad zero-shot. Este artículo de revisión ofrece la primera revisión enfocada y sistemática del aprendizaje continuo para VLM (VLM-CL). Comenzamos identificando tres modos centrales de falla que pueden degradar el rendimiento en VLM-CL. Con base en esto, proponemos una taxonomía guiada por desafíos para abordar el problema: (1) \textit{estrategias de repetición multimodal} que resuelven la deriva entre modalidades mediante mecanismos de memoria explícitos o implícitos; (2) \textit{regularización entre modalidades} que mantiene la alineación de modalidades durante las actualizaciones; y (3) \textit{adaptación eficiente en parámetros} que mitiga la interferencia de parámetros mediante actualizaciones modulares o de bajo rango. Además, analizamos los protocolos de evaluación, conjuntos de datos y métricas actuales, y destacamos la necesidad de mejores benchmarks que capturen el olvido específico de los VLM y la generalización composicional. Por último, presentamos problemas abiertos y direcciones futuras, incluido el preentrenamiento continuo y el aprendizaje zero-shot composicional. Este artículo de revisión busca servir como una referencia integral y de diagnóstico para investigadores que desarrollan sistemas de visión-lenguaje de aprendizaje permanente. Todos los recursos están disponibles en el siguiente enlace: https://github.com/YuyangSunshine/….
> Vision-language models (VLMs) have achieved impressive performance across diverse multimodal tasks by leveraging large-scale pre-training. However, enabling them to learn continually from non-stationary data remains a major challenge, as their cross-modal alignment and generalization capabilities are particularly vulnerable to catastrophic forgetting. Unlike traditional unimodal continual learning (CL), VLMs face unique challenges such as cross-modal feature drift, parameter interference due to shared architectures, and zero-shot capability erosion. This survey offers the first focused and systematic review of continual learning for VLMs (VLM-CL). We begin by identifying the three core failure modes that degrade performance in VLM-CL. Based on these, we propose a challenge-driven taxonomy that maps solutions to their target problems: (1) \textit{Multi-Modal Replay Strategies} address cross-modal drift through explicit or implicit memory mechanisms; (2) \textit{Cross-Modal Regularization} preserves modality alignment during updates; and (3) \textit{Parameter-Efficient Adaptation} mitigates parameter interference with modular or low-rank updates. We further analyze current evaluation protocols, datasets, and metrics, highlighting the need for better benchmarks that capture VLM-specific forgetting and compositional generalization. Finally, we outline open problems and future directions, including continual pre-training and compositional zero-shot learning. This survey aims to serve as a comprehensive and diagnostic reference for researchers developing lifelong vision-language systems. All resources are available at: https://github.com/YuyangSunshine/….
Enlace al artículo
https://arxiv.org/abs/2508.04227
Leer más
https://github.com/YuyangSunshine/…
Federación de agentes: una estructura de comunicación con conciencia semántica para AI agéntica a gran escala / Federation of Agents: A Semantics-Aware Communication Fabric for Large-Scale Agentic AI
Introducción del artículo
Federation of Agents (FoA) es un marco innovador de orquestación distribuida que transforma la coordinación estática de múltiples agentes en una colaboración dinámica centrada en capacidades. Este sistema introduce los Versioned Capability Vectors (VCVs), que convierten las capacidades de los agentes en perfiles legibles por máquina, permitiendo que los agentes anuncien de manera efectiva sus capacidades, costos y limitaciones. La arquitectura de FoA incluye tres innovaciones principales. Primero, mediante enrutamiento semántico, asigna tareas a agentes utilizando un índice HNSW fragmentado y realiza una optimización sesgada por costo que respeta las restricciones operativas. Segundo, mediante técnicas de descomposición dinámica de tareas, agentes compatibles colaboran descomponiendo tareas complejas en subtareas con forma de DAG (Directed Acyclic Graph), ejecutándolas de manera cooperativa a través de una fusión basada en consenso. Tercero, mediante técnicas de agrupamiento inteligente, agrupa en canales de colaboración a agentes que realizan subtareas similares y refina aún más las tareas mediante un proceso de refinamiento de k rondas.
FoA admite entrega de mensajes escalable basada en la semántica publish-subscribe de MQTT, y logra complejidad sublineal mediante emparejamiento jerárquico de capacidades y mantenimiento eficiente del índice. Los resultados de la evaluación en HealthBench muestran que FoA ofrece una mejora de rendimiento de 13 veces frente a una línea base de modelo único, demostrando en particular que la colaboración reforzada por clustering es efectiva en tareas complejas de razonamiento que requieren múltiples perspectivas. Al mantener un rendimiento consistente mientras escala horizontalmente, este sistema demuestra que la orquestación semántica, mediante colaboración estructurada, puede aprovechar de manera efectiva la inteligencia colectiva de una federación heterogénea de agentes de AI. Se espera que esta investigación contribuya al avance del campo de la AI al proponer una metodología para maximizar la eficiencia de los sistemas multiagente y procesar tareas complejas de manera más efectiva.
Resumen del artículo (Abstract)
A continuación se presenta el resumen de un artículo del área de AI/ML. Presentamos Federation of Agents (FoA), un marco de orquestación distribuida que transforma la coordinación estática de múltiples agentes en una colaboración dinámica impulsada por capacidades. FoA introduce los Versioned Capability Vectors (VCVs), perfiles legibles por máquina que hacen que las capacidades de los agentes sean buscables mediante embeddings semánticos, permitiendo que los agentes anuncien sus capacidades, costo y limitaciones. Nuestra arquitectura combina tres innovaciones clave: (1) enrutamiento semántico que empareja tareas con agentes sobre índices HNSW fragmentados mientras aplica restricciones operativas mediante optimización sesgada por costo, (2) descomposición dinámica de tareas en la que agentes compatibles descomponen de forma colaborativa tareas complejas en DAGs de subtareas mediante fusión basada en consenso, y (3) clustering inteligente que agrupa agentes que trabajan en subtareas similares en canales de colaboración para una refinación de k rondas antes de la síntesis. Construido sobre la semántica de publicación-suscripción de MQTT, FoA logra complejidad sublineal mediante emparejamiento jerárquico de capacidades y un mantenimiento eficiente de índices. La evaluación en HealthBench muestra mejoras de 13x frente a líneas base de un solo modelo, y demuestra que la colaboración mejorada por clustering es particularmente efectiva para tareas complejas de razonamiento que requieren múltiples perspectivas. El sistema escala horizontalmente mientras mantiene un rendimiento consistente, lo que demuestra que la orquestación semántica con colaboración estructurada puede liberar la inteligencia colectiva de federaciones heterogéneas de agentes de AI.
> We present Federation of Agents (FoA), a distributed orchestration framework that transforms static multi-agent coordination into dynamic, capability-driven collaboration. FoA introduces Versioned Capability Vectors (VCVs): machine-readable profiles that make agent capabilities searchable through semantic embeddings, enabling agents to advertise their capabilities, cost, and limitations. Our aarchitecturecombines three key innovations: (1) semantic routing that matches tasks to agents over sharded HNSW indices while enforcing operational constraints through cost-biased optimization, (2) dynamic task decomposition where compatible agents collaboratively break down complex tasks into DAGs of subtasks through consensus-based merging, and (3) smart clustering that groups agents working on similar subtasks into collaborative channels for k-round refinement before synthesis. Built on top of MQTT,s publish-subscribe semantics for scalable message passing, FoA achieves sub-linear complexity through hierarchical capability matching and efficient index maintenance. Evaluation on HealthBench shows 13x improvements over single-model baselines, with clustering-enhanced laboration particularly effective for complex reasoning tasks requiring multiple perspectives. The system scales horizontally while maintaining consistent performance, demonstrating that semantic orchestration with structured collaboration can unlock the collective intelligence of heterogeneous federations of AI agents.
Enlace del artículo
https://arxiv.org/abs/2509.20175
Encuesta sobre mecanismos de atención eficientes para modelos de lenguaje a gran escala / Efficient Attention Mechanisms for Large Language Models: A Survey
Introducción del artículo
La arquitectura basada en transformers es el núcleo de los modelos de lenguaje grandes, pero la complejidad cuadrática en tiempo y memoria de la self-attention supone una gran limitación para procesar contextos largos. Para resolver esto, investigaciones recientes han propuesto dos grandes enfoques de atención eficiente: la atención lineal, que utiliza aproximación por kernels, estructuras recurrentes y dinámicas de fast weights, y la atención dispersa, que emplea patrones fijos, enrutamiento por bloques y clustering. Este artículo de revisión organiza sistemáticamente estos métodos integrando tanto las innovaciones algorítmicas como la perspectiva del hardware, y analiza diversas estrategias de diseño de grandes modelos de lenguaje preentrenados que aplican atención eficiente. Con ello, ofrece una base que conecta la teoría con estrategias prácticas para el diseño de modelos de lenguaje escalables y eficientes.
Resumen del artículo (Abstract)
Las arquitecturas basadas en Transformers se han convertido en la columna vertebral predominante de los modelos de lenguaje de gran tamaño. Sin embargo, la complejidad cuadrática en tiempo y memoria de la self-attention sigue siendo un obstáculo fundamental para el modelado eficiente de contextos largos. Para abordar esta limitación, investigaciones recientes han propuesto dos categorías principales de mecanismos de atención eficiente. Los métodos de atención lineal (linear attention) logran complejidad lineal mediante aproximaciones de kernel, formulaciones recurrentes o dinámicas de fastweight, lo que permite una inferencia escalable con menor costo computacional. En cambio, las técnicas de atención dispersa (sparse attention) restringen el cálculo de atención a subconjuntos seleccionados de tokens con base en patrones fijos, enrutamiento por bloques o estrategias de clustering, mejorando la eficiencia sin perder cobertura contextual. Este artículo de revisión ofrece una visión general sistemática e integral de estos avances, integrando tanto innovaciones algorítmicas como consideraciones a nivel de hardware. Además, analiza casos en los que la atención eficiente se ha incorporado a modelos de lenguaje preentrenados a gran escala, incluidas tanto arquitecturas construidas completamente sobre atención eficiente como diseños híbridos que combinan componentes locales (local) y globales (global). Al alinear los fundamentos teóricos con estrategias prácticas de despliegue, este trabajo busca servir como una referencia fundamental para avanzar en el diseño de modelos de lenguaje escalables y eficientes.
> Transformer-based architectures have become the prevailing backbone of large language models. However, the quadratic time and memory complexity of self-attention remains a fundamental obstacle to efficient long-context modeling. To address this limitation, recent research has introduced two principal categories of efficient attention mechanisms. Linear attention methods achieve linear complexity through kernel approximations, recurrent formulations, or fastweight dynamics, thereby enabling scalable inference with reduced computational overhead. Sparse attention techniques, in contrast, limit attention computation to selected subsets of tokens based on fixed patterns, block-wise routing, or clustering strategies, enhancing efficiency while preserving contextual coverage. This survey provides a systematic and comprehensive overview of these developments, integrating both algorithmic innovations and hardware-level considerations. In addition, we analyze the incorporation of efficient attention into largescale pre-trained language models, including both architectures built entirely on efficient attention and hybrid designs that combine local and global components. By aligning theoretical foundations with practical deployment strategies, this work aims to serve as a foundational reference for advancing the design of scalable and efficient language models.
Enlace al artículo
https://arxiv.org/abs/2507.19595
⚠️Publicidad⚠️: ¿Te resultó útil este artículo recopilado por 🔥la comunidad de usuarios de PyTorch en Corea🇰🇷? Si te registras como miembro, te enviaremos los artículos principales por correo electrónico💌. (La opción predeterminada es Weekly, pero también puedes cambiarla a Daily.)
Aún no hay comentarios.