[2025/09/15 ~ 21] Artículos de AI/ML para revisar esta semana
(discuss.pytorch.kr)PyTorchKR🔥🇰🇷 🤔💭
1️⃣ Integración y optimización de modelos multimodales: Los artículos recientes proponen diversos enfoques para mejorar el rendimiento de los Unified Multimodal Models (UMM). Por ejemplo, "Reconstruction Alignment" presenta un método para realinear la capacidad de comprensión y generación del modelo mediante la combinación de imagen y texto, mientras que "AToken" desarrolla un tokenizador unificado para imágenes, video y activos 3D, con el fin de procesar distintas entradas visuales. Estos estudios están sentando las bases para el avance de los sistemas de IA multimodal.
2️⃣ Diseño de sistemas de datos centrados en agentes: Los artículos "Supporting Our AI Overlords" y "Scaling Agents via Continual Pre-training" sostienen que los agentes basados en large language models (LLM) desempeñarán un papel importante en los sistemas de datos. Subrayan que, para desarrollar las capacidades necesarias para manipular y analizar datos, los agentes deben aprender mediante interacciones en diversos entornos. Esto abre nuevas oportunidades de investigación para el diseño de arquitecturas de sistemas de datos centradas en agentes.
3️⃣ Aprendizaje autónomo y modelos en evolución: El artículo "R-Zero" destaca la necesidad de modelos que generen datos y aprendan de forma autónoma. Mientras que los métodos existentes dependen de tareas y etiquetas refinadas por humanos, R-Zero crea un currículo de aprendizaje autoevolutivo mediante dos modelos que proponen y resuelven tareas por sí mismos. Se espera que este enfoque desempeñe un papel importante en la evolución de los sistemas de IA hacia capacidades que superen la inteligencia humana.
Reconstruction Alignment mejora los Unified Multimodal Models / Reconstruction Alignment Improves Unified Multimodal Models
Introducción del artículo
Unified Multimodal Models (UMMs) es un enfoque innovador que integra capacidades de comprensión visual y generación para realizar diversas tareas dentro de una sola arquitectura. Sin embargo, los métodos de entrenamiento existentes dependen de pares imagen-texto, lo que hace que los captions tiendan a omitir detalles visuales finos y provoquen una caída en el rendimiento. Para superar estas limitaciones, se propuso Reconstruction Alignment (RecA). RecA es una técnica de post-training eficiente en recursos que utiliza embeddings del encoder de comprensión visual como "text prompts" densos para proporcionar señales de supervisión ricas sin necesidad de captions.
La clave de RecA está en optimizar el UMM para que reconstruya la imagen de entrada condicionándose a sus propios embeddings de comprensión visual. En este proceso, alinear la comprensión y la generación del modelo mediante una pérdida de reconstrucción autosupervisada permite aprovechar la información visual de manera más efectiva. RecA puede aplicarse a diversas arquitecturas, incluidos UMMs autoregressive, masked autoregressive y basados en diffusion, y muestra mejoras consistentes en fidelidad de generación y edición.
Según los resultados experimentales, después de aplicar RecA, el rendimiento de generación de imágenes en GenEval mejoró de 0.73 a 0.90, y en DPGBench de 80.93 a 88.15. Además, en benchmarks de edición de imágenes también se lograron mejoras, pasando de 3.38 a 3.75 en ImgEdit y de 6.94 a 7.25 en GEdit. Estos resultados muestran que RecA supera el rendimiento de modelos open source existentes mucho más grandes y que tiene potencial para aplicarse ampliamente a distintas arquitecturas UMM.
RecA se perfila como un método eficaz para alinear las capacidades de comprensión y generación de los UMM, con potencial para establecerse como una estrategia de post-training eficiente en recursos. En investigaciones futuras, será importante ampliar el alcance de aplicación de RecA y evaluar su rendimiento en otras tareas multimodales. Se espera que estos estudios contribuyan al avance de los modelos multimodales.
Resumen del artículo (Abstract)
Los Unified Multimodal Models (UMM) integran la comprensión visual y la generación dentro de una sola arquitectura. Sin embargo, los enfoques de entrenamiento convencionales suelen depender de pares de imagen-texto (o secuencias), cuyos captions normalmente son escasos y omiten detalles visuales finos, incluso cuando usan cientos de palabras para describir una imagen simple. Presentamos Reconstruction Alignment (RecA), un método de post-training eficiente en recursos que aprovecha embeddings del encoder de comprensión visual como "text prompts" densos, proporcionando supervisión rica sin captions. En concreto, RecA condiciona un UMM a sus propios embeddings de comprensión visual y lo optimiza para reconstruir la imagen de entrada mediante una pérdida de reconstrucción autosupervisada, realineando así la comprensión y la generación. A pesar de su simplicidad, RecA es ampliamente aplicable a UMMs autoregressive, masked autoregressive y basados en diffusion, y mejora de forma consistente la fidelidad de generación y edición. Con solo 27 horas de GPU, el post-training con RecA mejora de forma sustancial el rendimiento de generación de imágenes en GenEval (0.73$\rightarrow$0.90) y en DPGBench (80.93$\rightarrow$88.15), además de impulsar los benchmarks de edición (ImgEdit 3.38$\rightarrow$3.75, GEdit 6.94$\rightarrow$7.25). En particular, RecA supera a modelos open source mucho más grandes y se aplica ampliamente a diversas arquitecturas UMM, consolidándose como una estrategia de alineación de post-training eficiente y general para UMMs.
> Unified multimodal models (UMMs) unify visual understanding and generation within a single architecture. However, conventional training relies on image-text pairs (or sequences) whose captions are typically sparse and miss fine-grained visual details--even when they use hundreds of words to describe a simple image. We introduce Reconstruction Alignment (RecA), a resource-efficient post-training method that leverages visual understanding encoder embeddings as dense "text prompts," providing rich supervision without captions. Concretely, RecA conditions a UMM on its own visual understanding embeddings and optimizes it to reconstruct the input image with a self-supervised reconstruction loss, thereby realigning understanding and generation. Despite its simplicity, RecA is broadly applicable: across autoregressive, masked-autoregressive, and diffusion-based UMMs, it consistently improves generation and editing fidelity. With only 27 GPU-hours, post-training with RecA substantially improves image generation performance on GenEval (0.73$\rightarrow$0.90) and DPGBench (80.93$\rightarrow$88.15), while also boosting editing benchmarks (ImgEdit 3.38$\rightarrow$3.75, GEdit 6.94$\rightarrow$7.25). Notably, RecA surpasses much larger open-source models and applies broadly across diverse UMM architectures, establishing it as an efficient and general post-training alignment strategy for UMMs
Enlace al artículo
https://arxiv.org/abs/2509.07295
Apoyando a nuestros señores de la IA: rediseñando los sistemas de datos para que sean agent-first / Supporting Our AI Overlords: Redesigning Data Systems to be Agent-First
Introducción del artículo
Se espera que la forma en que los agentes de modelos de lenguaje a gran escala (LLM) manipulan y analizan datos traiga cambios importantes al futuro de los sistemas de datos. Estos agentes realizan tareas mediante un proceso de especulación agéntica (agentic speculation), en el que exploran a gran velocidad y proponen soluciones según la solicitud del usuario. Sin embargo, la generación masiva y la ineficiencia de esta especulación agéntica pueden representar un reto para los sistemas de datos actuales. Por ello, los sistemas de datos deben evolucionar para poder dar soporte de forma nativa a estas cargas de trabajo agénticas.
Este estudio presenta oportunidades de investigación para una nueva arquitectura de sistemas de datos orientada primero a agentes, aprovechando las características de la especulación agéntica: escala, heterogeneidad, redundancia y capacidad de direccionamiento. A partir de esto, se exploran enfoques innovadores como nuevas interfaces de consulta, técnicas de procesamiento de consultas y almacenes de memoria agéntica. En particular, si los agentes llegan a convertirse en el mecanismo principal de interacción con los datos, podrían abrir la puerta a mejoras significativas en la productividad de los sistemas de datos.
Mediante estudios de caso, se analizaron las características de las cargas de trabajo agénticas y, con ello, se identificaron oportunidades de optimización. En el primer estudio, se exploró cómo los LLM pueden mejorar la precisión aumentando el número de solicitudes con el dataset BIRD; en el segundo, se llevó a cabo una tarea compleja que combinaba información de dos bases de datos. Estos resultados muestran que la especulación agéntica tiene el potencial de aumentar la eficiencia de los sistemas de datos.
Por último, se propusieron un almacén de memoria agéntica y un nuevo framework transaccional para abordar la redundancia y la heterogeneidad que surgen durante la etapa de exploración de la especulación agéntica. Este enfoque subraya la necesidad de rediseñar los sistemas de datos con una visión centrada en agentes y plantea una nueva visión para futuras investigaciones.
Resumen del artículo (Abstract)
Los agentes de modelos de lenguaje a gran escala (LLM), que actúan en nombre de sus usuarios para manipular y analizar datos, tienen muchas probabilidades de convertirse en la carga de trabajo dominante de los sistemas de datos en el futuro. Al trabajar con datos, los agentes emplean un proceso de alto rendimiento de exploración y formulación de soluciones para la tarea dada, al que llamamos especulación agéntica (agentic speculation). El gran volumen y las ineficiencias de la especulación agéntica pueden plantear desafíos para los sistemas de datos actuales. Sostenemos que los sistemas de datos deben adaptarse para dar soporte de forma más nativa a las cargas de trabajo agénticas. Aprovechamos las características identificadas de la especulación agéntica —escala, heterogeneidad, redundancia y capacidad de direccionamiento— para delinear diversas oportunidades de investigación hacia una nueva arquitectura de sistemas de datos orientada primero a agentes, que abarcan desde nuevas interfaces de consulta hasta nuevas técnicas de procesamiento de consultas y nuevos almacenes de memoria agéntica.
> Large Language Model (LLM) agents, acting on their users' behalf to manipulate and analyze data, are likely to become the dominant workload for data systems in the future. When working with data, agents employ a high-throughput process of exploration and solution formulation for the given task, one we call agentic speculation. The sheer volume and inefficiencies of agentic speculation can pose challenges for present-day data systems. We argue that data systems need to adapt to more natively support agentic workloads. We take advantage of the characteristics of agentic speculation that we identify, i.e., scale, heterogeneity, redundancy, and steerability - to outline a number of new research opportunities for a new agent-first data systems architecture, ranging from new query interfaces, to new query processing techniques, to new agentic memory stores.
Enlace del artículo
https://arxiv.org/abs/2509.00997
AToken: tokenizador unificado para visión / AToken: A Unified Tokenizer for Vision
Introducción del artículo
AToken es el primer tokenizador visual unificado que logra simultáneamente reconstrucción de alta fidelidad y comprensión semántica en imágenes, video y activos 3D. Mientras que los tokenizadores existentes suelen especializarse en reconstrucción o comprensión para una sola modalidad, AToken codifica diversas entradas visuales en un espacio latente 4D compartido e integra ambas tareas y modalidades en un solo framework. Este sistema introduce una arquitectura puramente Transformer con embeddings posicionales rotacionales 4D para procesar entradas visuales con resolución y duración temporal arbitrarias. Para garantizar un entrenamiento estable, AToken propone un objetivo de aprendizaje sin adversarios que combina pérdida perceptual y pérdida gramétrica, logrando una calidad de reconstrucción de nivel estado del arte. Mediante un currículo de aprendizaje progresivo, AToken se expande gradualmente desde imágenes individuales hacia video y 3D, y admite tanto tokens latentes continuos como discretos. AToken alcanza 0.21 rFID y 82.2% de precisión en ImageNet para imágenes, 3.01 rFVD y 32.6% de rendimiento de recuperación en MSRVTT para video, y 28.19 PSNR y 90.9% de precisión de clasificación para 3D. En aplicaciones downstream, AToken habilita tareas de generación visual como generación de imágenes, generación de texto a video y síntesis de imagen a 3D, así como tareas de comprensión como los modelos multimodales de lenguaje a gran escala (LLM), mostrando un rendimiento competitivo en todos los benchmarks. Estos resultados muestran el potencial de la próxima generación de sistemas de IA multimodal basados en tokenización visual unificada.
Resumen del artículo (Abstract)
Presentamos AToken, el primer tokenizador visual unificado que logra tanto reconstrucción de alta fidelidad como comprensión semántica en imágenes, video y activos 3D. A diferencia de los tokenizadores existentes, que se especializan en reconstrucción o comprensión para una sola modalidad, AToken integra ambas tareas y modalidades dentro de un único framework al codificar estas diversas entradas visuales en un espacio latente 4D compartido. En concreto, introducimos una arquitectura puramente Transformer con embeddings posicionales rotacionales 4D para procesar entradas visuales con resolución y duración temporal arbitrarias. Para garantizar un entrenamiento estable, introducimos un objetivo de aprendizaje sin adversarios que combina pérdida perceptual y pérdida de matriz de Gram, logrando una calidad de reconstrucción de nivel estado del arte. Aprovechando un currículo de aprendizaje progresivo, AToken se expande gradualmente desde imagen individual a video y 3D, y soporta tanto tokens latentes continuos como discretos. AToken alcanza 0.21 rFID y 82.2% de precisión en ImageNet para imágenes, 3.01 rFVD y 32.6% de tasa de recuperación en MSRVTT para video, y 28.19 PSNR y 90.9% de precisión de clasificación para 3D. En aplicaciones downstream, AToken habilita tanto tareas de generación visual (por ejemplo, generación de imágenes, generación de texto a video y síntesis de imagen a 3D usando tokens continuos y discretos) como tareas de comprensión (por ejemplo, modelos multimodales de lenguaje a gran escala), logrando un rendimiento competitivo en todos los benchmarks. Estos resultados ofrecen una visión sobre los sistemas de IA multimodal de próxima generación construidos sobre tokenización visual unificada.
Presentamos AToken, el primer tokenizador visual unificado que logra tanto reconstrucción de alta fidelidad como comprensión semántica en imágenes, videos y activos 3D. A diferencia de los tokenizadores existentes, que se especializan ya sea en reconstrucción o en comprensión para modalidades individuales, AToken codifica estas diversas entradas visuales en un espacio latente 4D compartido, unificando ambas tareas y modalidades en un solo marco. En concreto, presentamos una arquitectura puramente transformer con embeddings posicionales rotatorios 4D para procesar entradas visuales de resoluciones arbitrarias y duraciones temporales variables. Para garantizar un entrenamiento estable, introducimos un objetivo de entrenamiento libre de adversarios que combina pérdidas perceptuales y de matriz de Gram, logrando una calidad de reconstrucción de última generación. Mediante un currículo de entrenamiento progresivo, AToken se expande gradualmente desde imágenes individuales hacia video y 3D, y admite tanto tokens latentes continuos como discretos. AToken logra 0.21 rFID con 82.2% de precisión en ImageNet para imágenes, 3.01 rFVD con 32.6% de recuperación en MSRVTT para videos, y 28.19 PSNR con 90.9% de precisión de clasificación para 3D. En aplicaciones posteriores, AToken habilita tanto tareas de generación visual (p. ej., generación de imágenes con tokens continuos y discretos, generación de texto a video, síntesis de imagen a 3D) como tareas de comprensión (p. ej., LLM multimodales), logrando un rendimiento competitivo en todos los benchmarks. Estos resultados arrojan luz sobre los sistemas de IA multimodal de próxima generación construidos sobre tokenización visual unificada.
Enlace del artículo
https://arxiv.org/abs/2509.14476
Mejora de la inteligencia agéntica general mediante escalado de entornos / Towards General Agentic Intelligence via Environment Scaling
Presentación del artículo
La inteligencia agéntica avanzada se ha convertido en un elemento esencial para desplegar de forma efectiva modelos de lenguaje a gran escala (LLM) en aplicaciones reales. Diversas API del mundo real exigen una inteligencia de llamado de funciones precisa y robusta, lo que implica que los agentes deben desarrollar estas capacidades mediante la interacción en distintos entornos. En este estudio, se propone escalar los entornos como un paso para mejorar la inteligencia agéntica general, con el fin de abordar dos desafíos principales. Primero, cómo escalar los entornos de manera principista; segundo, cómo aprender de forma efectiva las capacidades del agente a través de la interacción con estos entornos.
Para resolver estos problemas, el equipo de investigación diseñó un marco escalable que construye automáticamente entornos heterogéneos. Este marco se centra en escalar sistemáticamente entornos completamente simulados para ampliar el espacio de escenarios de llamado de funciones. Además, introduce una estrategia de fine-tuning del agente en dos etapas: en la primera se otorgan capacidades agénticas básicas al agente, y en la segunda se especializan según el contexto específico del dominio.
La metodología de construcción y escalado de entornos propuesta en este trabajo incluye un pipeline sistemático que recopila más de 30,000 API y deriva particiones y distribuciones de dominio mediante modelado de grafos de dependencias entre herramientas. Esto permite que el agente inicialice el estado del entorno y genere secuencias válidas al muestrear secuencias de herramientas lógicamente coherentes a partir de grafos de herramientas específicos por dominio. Este proceso garantiza la consistencia del estado a nivel de base de datos y la coincidencia exacta de las secuencias de herramientas, mejorando de forma significativa la capacidad del agente para llamar funciones.
Como resultado, el modelo AgentScaler desarrollado en este estudio mejora de manera notable la capacidad de llamado de funciones de los agentes, y se espera que haga una contribución importante al desarrollo futuro de la inteligencia agéntica. Este enfoque ayudará a que los agentes operen de manera efectiva en diversos entornos y ampliará aún más las posibilidades de aplicaciones prácticas de la inteligencia agéntica.
Resumen(Abstract)
La inteligencia agéntica avanzada es un prerrequisito para desplegar modelos de lenguaje a gran escala en aplicaciones del mundo real. Diversas API reales requieren una inteligencia de llamado de funciones precisa y robusta, lo que significa que los agentes deben desarrollar estas capacidades mediante la interacción con distintos entornos. La amplitud de la capacidad de llamado de funciones está estrechamente relacionada con la diversidad de los entornos en los que se entrena al agente. En este trabajo, escalamos los entornos como un paso para mejorar la inteligencia agéntica general. Esto plantea dos desafíos clave: (i) cómo escalar los entornos de manera principista, y (ii) cómo entrenar eficazmente las capacidades del agente a partir de la experiencia obtenida mediante la interacción con esos entornos. Para abordarlos, diseñamos un marco escalable que construye automáticamente entornos heterogéneos y amplía sistemáticamente el espacio de escenarios de llamado de funciones. También aplicamos una estrategia de fine-tuning del agente en dos etapas, que primero le otorga capacidades agénticas básicas y luego lo especializa para contextos específicos de dominio. A través de experimentos extensivos en los benchmarks de agentes tau-bench, tau2-Bench y ACEBench, demostramos que nuestro modelo entrenado, AgentScaler, mejora significativamente la capacidad de llamado de funciones del modelo.
La inteligencia agéntica avanzada es un requisito previo para desplegar Large Language Models en aplicaciones prácticas del mundo real. Las diversas APIs del mundo real exigen una inteligencia de function calling precisa y robusta, lo que requiere que los agentes desarrollen estas capacidades mediante la interacción en entornos variados. La amplitud de la competencia en function calling está estrechamente vinculada con la diversidad de entornos en los que se entrenan los agentes. En este trabajo, escalamos los entornos como un paso hacia el avance de la inteligencia agéntica general. Esto da lugar a dos desafíos centrales: (i) cómo escalar los entornos de manera fundamentada, y (ii) cómo entrenar eficazmente capacidades agénticas a partir de experiencias derivadas de la interacción con estos entornos. Para abordarlos, diseñamos un marco escalable que construye automáticamente entornos heterogéneos completamente simulados, ampliando sistemáticamente el espacio de escenarios de function calling. Además, adaptamos una estrategia de fine-tuning de agentes en dos fases: primero dotamos a los agentes de capacidades agénticas fundamentales y luego los especializamos para contextos específicos de dominio. Experimentos extensivos en benchmarks agénticos, tau-bench, tau2-Bench y ACEBench demuestran que nuestro modelo entrenado, AgentScaler, mejora significativamente la capacidad de function calling de los modelos.
Enlace al artículo
https://arxiv.org/abs/2509.13311
Leer más
https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
¿El aprendizaje en contexto es realmente aprendizaje? / Is In-Context Learning Learning?
Presentación del artículo
In-Context Learning (ICL) muestra que los modelos autorregresivos pueden resolver diversas tareas mediante la predicción del siguiente token sin entrenamiento adicional. Este enfoque ha llevado a afirmar que el modelo puede resolver tareas no vistas con solo unos pocos ejemplos, pero existe debate sobre si ICL realmente realiza aprendizaje. Este estudio sostiene que ICL constituye aprendizaje en términos matemáticos, aunque subraya que se necesita análisis empírico para comprender completamente sus características.
A través de un análisis a gran escala, se evalúa el rendimiento de ICL considerando memoria, preentrenamiento, cambios de distribución y sensibilidad al estilo y la sintaxis del prompt. Los resultados muestran que ICL funciona como un paradigma de aprendizaje efectivo, pero tiene limitaciones en su capacidad para generalizar a tareas no vistas. En particular, a medida que aumenta el número de ejemplos, la exactitud se vuelve menos sensible a la distribución de los ejemplos, al modelo o al estilo del prompt, y en cambio aparece una tendencia a inferir patrones a partir de la regularidad del prompt. Esto produjo sensibilidad distribucional, especialmente en ciertos estilos de prompt como Chain-of-Thought.
Las diferencias de exactitud en tareas formalmente similares sugieren que la codificación ad hoc de los modelos autorregresivos no es un mecanismo de aprendizaje sólido y apuntan a una generalidad limitada. Este estudio muestra que ICL funciona como mecanismo de aprendizaje, pero también deja claras sus limitaciones y su comportamiento, además de evidenciar que el rendimiento de los LLM (modelos de lenguaje grandes) puede variar según la distribución de los datos. Estos resultados representan una contribución importante para explorar el potencial de ICL y se espera que ayuden a comprender con mayor profundidad sus características y limitaciones en investigaciones futuras.
Resumen del artículo (Abstract)
El aprendizaje en contexto (In-Context Learning, ICL) permite que algunos modelos autorregresivos resuelvan tareas mediante la predicción del siguiente token sin necesidad de entrenamiento adicional. Esto ha dado lugar a afirmaciones sobre la capacidad de estos modelos para resolver (aprender) tareas no vistas con solo unos pocos ejemplos (shots) en el prompt. Sin embargo, inferir no siempre implica aprender, ya que ICL no codifica explícitamente una observación dada. En cambio, los modelos dependen de su conocimiento previo y de los ejemplos proporcionados, si los hay. Sostenemos que, matemáticamente, ICL sí constituye aprendizaje, pero que su caracterización completa requiere trabajo empírico. A continuación, realizamos un análisis a gran escala de ICL eliminando o teniendo en cuenta la memorización, el preentrenamiento, los cambios de distribución y el estilo y la redacción del prompting. Encontramos que ICL es un paradigma de aprendizaje efectivo, pero limitado en su capacidad para aprender y generalizar a tareas no vistas. Observamos que, en el límite en que los ejemplos se vuelven más numerosos, la exactitud es insensible a la distribución de los ejemplos, al modelo, al estilo del prompt y a las características lingüísticas de la entrada. En cambio, deduce patrones a partir de regularidades del prompt, lo que genera sensibilidad distribucional, especialmente en estilos de prompting como chain-of-thought. Dadas las variaciones de exactitud en tareas formalmente similares, concluimos que la codificación ad hoc de la autorregresión no es un mecanismo robusto y sugiere una generalización de propósito general limitada.
In-context learning (ICL) allows some autoregressive models to solve tasks via next-token prediction and without needing further training. This has led to claims about these model's ability to solve (learn) unseen tasks with only a few shots (exemplars) in the prompt. However, deduction does not always imply learning, as ICL does not explicitly encode a given observation. Instead, the models rely on their prior knowledge and the exemplars given, if any. We argue that, mathematically, ICL does constitute learning, but its full characterisation requires empirical work. We then carry out a large-scale analysis of ICL ablating out or accounting for memorisation, pretraining, distributional shifts, and prompting style and phrasing. We find that ICL is an effective learning paradigm, but limited in its ability to learn and generalise to unseen tasks. We note that, in the limit where exemplars become more numerous, accuracy is insensitive to exemplar distribution, model, prompt style, and the input's linguistic features. Instead, it deduces patterns from regularities in the prompt, which leads to distributional sensitivity, especially in prompting styles such as chain-of-thought. Given the varied accuracies on formally similar tasks, we conclude that autoregression's ad-hoc encoding is not a robust mechanism, and suggests limited all-purpose generalisability.
Enlace al artículo
https://arxiv.org/abs/2509.10414
DeepDive: avance de los agentes de búsqueda profunda con grafos de conocimiento y RL multi-turno / DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL
Introducción al artículo
DeepDive propone un enfoque innovador que utiliza grafos de conocimiento (Knowledge Graph, KG) y aprendizaje por refuerzo multi-turno (Multi-Turn Reinforcement Learning, RL) para convertir a los modelos de lenguaje de gran escala (LLM) en agentes de búsqueda profunda. Los LLM existentes presentan un rendimiento deficiente al integrarse con herramientas de navegación porque carecen de capacidad de razonamiento de largo horizonte y no cuentan con suficientes datos supervisados para resolver preguntas complejas. Para abordar estos problemas, DeepDive introduce dos técnicas principales.
Primero, desarrolló un método para sintetizar automáticamente preguntas complejas y difíciles de encontrar utilizando KG. Los KG representan de forma estructurada las entidades y sus relaciones, proporcionando un entorno donde el agente puede realizar razonamiento de largo horizonte. En este proceso, se incrementan la complejidad y la ambigüedad de las preguntas mediante random walks, y se usan LLM para generar pares desafiantes de preguntas y respuestas. Esta síntesis automatizada de datos proporciona datos de alta calidad necesarios para entrenar agentes de búsqueda profunda.
Segundo, DeepDive aplica RL multi-turno end-to-end para mejorar la capacidad de razonamiento de largo horizonte de los LLM. Este método incluye una estructura estricta de recompensas que ayuda al agente a aprender paso a paso cómo buscar, qué buscar y cuándo detener la búsqueda. El RL multi-turno permite que el agente llegue a la respuesta final mediante razonamiento iterativo y llamadas a herramientas, lo que contribuye de forma importante a mejorar la capacidad de búsqueda profunda.
Los resultados experimentales de DeepDive alcanzaron un nuevo resultado competitivo open source en BrowseComp y mostraron un desempeño superior al de varios modelos existentes. Este estudio hace una contribución importante a la mejora del rendimiento de los agentes de búsqueda profunda, aumenta la reproducibilidad con datasets y código públicos, y ofrece una base para investigaciones futuras. DeepDive presenta un nuevo enfoque para resolver problemas complejos de recuperación de información y amplía aún más el potencial de uso de los LLM.
Resumen del artículo (Abstract)
Agregar herramientas de navegación a los modelos de lenguaje de gran escala (LLM) mejora sustancialmente su potencial como agentes de búsqueda profunda para resolver tareas complejas del mundo real. Sin embargo, los LLM abiertos aún rinden mal en estos entornos debido a su limitada capacidad de razonamiento de largo horizonte con herramientas de navegación y a la falta de datos supervisados suficientemente difíciles. Para abordar estos desafíos, proponemos DeepDive para avanzar en los agentes de búsqueda profunda. Primero, proponemos una estrategia para sintetizar automáticamente preguntas complejas, difíciles y difíciles de encontrar a partir de grafos de conocimiento abiertos. Segundo, aplicamos aprendizaje por refuerzo (RL) multi-turno end-to-end para fortalecer el razonamiento de largo horizonte de los LLM mediante búsqueda profunda. Los experimentos muestran que DeepDive-32B logra un nuevo resultado competitivo open source en BrowseComp, superando a WebSailor, DeepSeek-R1-Browse y Search-o1. Demostramos que el entrenamiento con RL multi-turno mejora la capacidad de búsqueda profunda y contribuye significativamente a las mejoras de rendimiento en múltiples benchmarks. Además, observamos que DeepDive permite el escalado en tiempo de prueba de las llamadas a herramientas y el muestreo en paralelo. Todos los datasets, modelos y código están disponibles públicamente en https://github.com/THUDM/DeepDive.
Augmenting large language models (LLMs) with browsing tools substantially improves their potential as deep search agents to solve complex, real-world tasks. Yet, open LLMs still perform poorly in such settings due to limited long-horizon reasoning capacity with browsing tools and the lack of sufficiently difficult supervised data. To address these challenges, we present DeepDive to advance deep search agents. First, we propose a strategy to automatically synthesize complex, difficult, and hard-to-find questions from open knowledge graphs. Second, we apply end-to-end multi-turn reinforcement learning (RL) to enhance LLMs' long-horizon reasoning with deep search. Experiments show that DeepDive-32B achieves a new open-source competitive result on BrowseComp, outperforming WebSailor, DeepSeek-R1-Browse, and Search-o1. We demonstrate that multi-turn RL training improves deep search ability and significantly contributes to the performance improvements across multiple benchmarks. We observe that DeepDive enables test-time scaling of tool calls and parallel sampling. All datasets, models, and code are publicly available at https://github.com/THUDM/DeepDive.
Enlace al artículo
https://arxiv.org/abs/2509.10446
Leer más
https://github.com/THUDM/DeepDive
Encuesta sobre video temporal grounding con modelos multimodales de lenguaje de gran escala / A Survey on Video Temporal Grounding with Multimodal Large Language Model
Introducción al artículo
El campo de Video Temporal Grounding (VTG) desempeña un papel importante en la identificación y comprensión de eventos temporales específicos dentro de un video, y su rendimiento ha mejorado considerablemente en los últimos años gracias a los avances en los modelos multimodales de lenguaje de gran escala (Multimodal Large Language Models, MLLMs). Basados en sus sobresalientes capacidades de comprensión y razonamiento multimodal, los MLLMs están mostrando resultados que superan a los métodos tradicionales de fine-tuning en los enfoques de VTG. Este estudio analiza sistemáticamente las tendencias actuales de investigación en este campo mediante una revisión integral de los VTG-MLLMs, y las explica en tres dimensiones: el rol funcional de los MLLMs, los paradigmas de aprendizaje y las técnicas de procesamiento de características de video.
Los MLLMs cumplen dos funciones principales en VTG. Primero, como facilitadores, apoyan la interacción entre video y lenguaje; segundo, como ejecutores, funcionan como modelos que realizan la tarea real de VTG. A través de estos roles, diversos modelos están maximizando su rendimiento en tareas de VTG. Los paradigmas de aprendizaje se dividen en preentrenamiento, fine-tuning y sin entrenamiento, y cada uno influye de manera importante en el rendimiento y la capacidad de generalización del modelo. En particular, el paradigma sin entrenamiento plantea la posibilidad de lograr un rendimiento efectivo incluso con pocos datos.
Las técnicas de procesamiento de características de video también tienen un impacto significativo en el rendimiento de los VTG-MLLMs. Las metodologías para procesar de manera efectiva las características visuales y temporales son esenciales para determinar la representación espacial y temporal del video. Junto con esto, los datasets de benchmark y los protocolos de evaluación cumplen un papel importante para medir el rendimiento de los VTG-MLLMs y verificar la capacidad de generalización de los modelos.
Por último, este estudio identifica las limitaciones actuales de los VTG-MLLMs y propone direcciones para investigaciones futuras. La falta de diversidad en los datasets, la complejidad de los modelos y las dificultades del procesamiento en tiempo real siguen siendo desafíos clave por resolver. La investigación para superar estas limitaciones deberá centrarse en el desarrollo de nuevos datasets y en la optimización de modelos. Este artículo ofrece una revisión integral de los VTG-MLLMs y proporciona información útil para los investigadores de esta área.
Resumen del artículo (Abstract)
Los avances recientes en video temporal grounding (VTG) han mejorado significativamente la comprensión detallada de video, impulsados principalmente por los multimodal large language models (MLLMs). Gracias a sus capacidades superiores de comprensión y razonamiento multimodal, los enfoques de VTG basados en MLLMs (VTG-MLLMs) están superando gradualmente a los métodos tradicionales de fine-tuning. No solo logran un rendimiento competitivo, sino que también destacan en la generalización en entornos zero-shot, multi-task y multi-domain. A pesar de que existen amplios surveys sobre comprensión general de video-lenguaje, siguen siendo escasas las revisiones integrales centradas específicamente en VTG-MLLMs. Para cubrir este vacío, este survey examina de forma sistemática la investigación actual sobre VTG-MLLMs mediante una taxonomía de tres dimensiones: 1) los roles funcionales de los MLLMs, destacando su importancia arquitectónica; 2) los paradigmas de entrenamiento, analizando estrategias para el razonamiento temporal y la adaptación a tareas; y 3) las técnicas de procesamiento de características de video, que determinan la efectividad de la representación espaciotemporal. Además, se analizan datasets de benchmark, protocolos de evaluación y se resumen los hallazgos empíricos. Por último, se identifican las limitaciones actuales y se proponen direcciones de investigación prometedoras. Para recursos y detalles adicionales, se recomienda a los lectores visitar https://github.com/ki-lw/Awesome-MLLMs-for-Video-Temporal-Grounding.
> The recent advancement in video temporal grounding (VTG) has significantly enhanced fine-grained video understanding, primarily driven by multimodal large language models (MLLMs). With superior multimodal comprehension and reasoning abilities, VTG approaches based on MLLMs (VTG-MLLMs) are gradually surpassing traditional fine-tuned methods. They not only achieve competitive performance but also excel in generalization across zero-shot, multi-task, and multi-domain settings. Despite extensive surveys on general video-language understanding, comprehensive reviews specifically addressing VTG-MLLMs remain scarce. To fill this gap, this survey systematically examines current research on VTG-MLLMs through a three-dimensional taxonomy: 1) the functional roles of MLLMs, highlighting their architectural significance; 2) training paradigms, analyzing strategies for temporal reasoning and task adaptation; and 3) video feature processing techniques, which determine spatiotemporal representation effectiveness. We further discuss benchmark datasets, evaluation protocols, and summarize empirical findings. Finally, we identify existing limitations and propose promising research directions. For additional resources and details, readers are encouraged to visit our repository at https://github.com/ki-lw/Awesome-MLLMs-for-Video-Temporal-Grounding.
Enlace al artículo
https://arxiv.org/abs/2508.10922
Leer más
https://github.com/ki-lw/Awesome-MLLMs-for-Video-Temporal-Grounding
Escalando agentes mediante preentrenamiento continuo / Scaling Agents via Continual Pre-training
Introducción al artículo
Los large language models (LLM) han evolucionado hacia sistemas agentes capaces de uso autónomo de herramientas y razonamiento de múltiples pasos para resolver problemas complejos. Sin embargo, los enfoques de post-training basados en modelos fundacionales de propósito general han mostrado de forma consistente un bajo rendimiento en tareas de agentes. La causa raíz de este problema es la ausencia de un modelo fundacional sólido para agentes, lo que genera una tensión de optimización durante el proceso de post-training, ya que debe aprender diversos comportamientos de agente al mismo tiempo que se ajusta a demostraciones de expertos. Para resolver esto, proponemos por primera vez integrar agentic continual pre-training (Agentic CPT) en un pipeline de entrenamiento para agentes de investigación profunda. Con base en este enfoque, desarrollamos un modelo de agente de investigación profunda llamado AgentFounder. AgentFounder-30B fue evaluado en 10 benchmarks, alcanzó rendimiento state-of-the-art y mostró una fuerte capacidad de uso de herramientas, manteniendo en particular un Pass@1 de 39.9% en BrowseComp-en, 43.3% en BrowseComp-zh y 31.5% en HLE.
Resumen del artículo (Abstract)
Los large language models (LLM) han evolucionado hacia sistemas agentes capaces de uso autónomo de herramientas y razonamiento de múltiples pasos para resolver problemas complejos. Sin embargo, los enfoques de post-training basados en modelos fundacionales de propósito general muestran de forma consistente un bajo rendimiento en tareas de agentes, especialmente en implementaciones open source. Identificamos la causa raíz: la ausencia de un modelo fundacional sólido para agentes provoca una tensión básica de optimización durante el proceso de post-training, ya que el modelo debe aprender simultáneamente diversos comportamientos de agente mientras los alinea con demostraciones de expertos. Para abordar esto, proponemos por primera vez integrar agentic continual pre-training (Agentic CPT) en un pipeline de entrenamiento para agentes de investigación profunda con el fin de construir un modelo fundacional robusto para agentes. Con base en este enfoque, desarrollamos un modelo de agente de investigación profunda llamado AgentFounder. Evaluamos AgentFounder-30B en 10 benchmarks, donde alcanzó rendimiento state-of-the-art manteniendo una sólida capacidad de uso de herramientas, con resultados destacados de 39.9% en BrowseComp-en, 43.3% en BrowseComp-zh y Pass@1 de 31.5% en HLE.
Large language models (LLMs) han evolucionado hacia sistemas agénticos capaces de usar herramientas de forma autónoma y de realizar razonamiento en múltiples pasos para resolver problemas complejos. Sin embargo, los enfoques de post-entrenamiento construidos sobre modelos fundacionales de propósito general muestran de forma consistente un rendimiento inferior en tareas agénticas, particularmente en implementaciones de código abierto. Identificamos la causa raíz: la ausencia de modelos fundacionales agénticos robustos obliga a los modelos, durante el post-entrenamiento, a aprender simultáneamente comportamientos agénticos diversos mientras se alinean con demostraciones de expertos, lo que genera tensiones fundamentales de optimización. Con este fin, somos los primeros en proponer la incorporación de Agentic Continual Pre-training (Agentic CPT) en la tubería de entrenamiento de agentes de investigación profunda para construir modelos fundacionales agénticos potentes. Con base en este enfoque, desarrollamos un modelo de agente de investigación profunda llamado AgentFounder. Evaluamos nuestro AgentFounder-30B en 10 benchmarks y logramos rendimiento de estado del arte mientras conserva una fuerte capacidad de uso de herramientas, en particular 39.9% en BrowseComp-en, 43.3% en BrowseComp-zh y 31.5% Pass@1 en HLE.
Enlace al artículo
https://arxiv.org/abs/2509.13310
Leer más
https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
Leyes de escalado para modelos de lenguaje con privacidad diferencial / Scaling Laws for Differentially Private Language Models
Introducción del artículo
La investigación sobre las leyes de escalado del entrenamiento de modelos de lenguaje grandes (Large Language Model, LLM) con privacidad diferencial (Differential Privacy, DP) representa un avance importante en el campo moderno de la inteligencia artificial (AI). El objetivo principal de este estudio es establecer leyes de escalado que modelen con precisión la complejidad del entrenamiento de LLM con DP, aclarando los trade-offs entre cómputo, privacidad y utilidad, y proponiendo configuraciones óptimas de entrenamiento. En el entrenamiento tradicional de LLM, las leyes de escalado cumplen un papel importante al predecir mejoras de rendimiento y ofrecer guías para la selección de hiperparámetros, pero la dinámica del entrenamiento con DP es algo distinta y sus leyes de escalado todavía no se comprenden lo suficiente.
En este estudio, se establecieron las leyes de escalado del entrenamiento de LLM con DP mediante el ajuste de una función que estima la pérdida, (L(M,T,\bar{\sigma})). Aquí, (M) representa el número de parámetros del modelo, (T) el número de iteraciones de entrenamiento y (\bar{\sigma}) la proporción de ruido por lote; esta función se ajusta mediante interpolación lineal. Implementada con scipy.interpolate.RegularGridInterpolator de Python, esta función se define considerando parámetros que cambian de manera natural en el espacio logarítmico. Este enfoque contribuye a comprender la dinámica compleja del entrenamiento de LLM con DP y produce resultados bien definidos dentro del rango de la configuración experimental.
Además, el estudio presenta un método que, mediante la ecuación de la función ajustada y los detalles de implementación, hace coincidir con precisión los datos suaves en los puntos de evaluación y aproxima también los valores intermedios. Esto proporciona una base importante para comprender las leyes de escalado del entrenamiento de LLM con DP, y en investigaciones futuras será necesario realizar experimentos sobre diversas arquitecturas de DP LLM con base en las leyes de escalado propuestas y desarrollar aún más el modelo teórico.
Como resultado, este estudio, al establecer leyes de escalado para el entrenamiento de modelos de lenguaje grandes con privacidad diferencial, ayudará a comprender la complejidad del entrenamiento de DP LLM y ofrecerá lineamientos importantes para el entrenamiento y la optimización futuros de los LLM. Se espera que estos hallazgos contribuyan a mejorar la aplicabilidad práctica de los DP LLM.
Resumen del artículo (Abstract)
Las leyes de escalado se han convertido en componentes importantes del entrenamiento de modelos de lenguaje grandes (LLM), ya que pueden predecir ganancias de rendimiento a través de la escala y brindar orientación sobre elecciones importantes de hiperparámetros que, de otro modo, serían costosas. Los LLM también dependen de conjuntos de datos de entrenamiento grandes y de alta calidad, como los obtenidos de datos de usuarios (a veces sensibles). Entrenar modelos con estos datos sensibles de usuarios requiere protecciones de privacidad cuidadosas como la privacidad diferencial (Differential Privacy, DP). Sin embargo, la dinámica del entrenamiento con DP es significativamente diferente y, en consecuencia, sus leyes de escalado aún no se comprenden por completo. En este trabajo, establecemos leyes de escalado que modelan con precisión las complejidades del entrenamiento de LLM con DP, proporcionando un panorama completo de los trade-offs entre cómputo, privacidad y utilidad, así como de las configuraciones óptimas de entrenamiento en muchos escenarios.
Scaling laws have emerged as important components of large language model (LLM) training as they can predict performance gains through scale, and provide guidance on important hyper-parameter choices that would otherwise be expensive. LLMs also rely on large, high-quality training datasets, like those sourced from (sometimes sensitive) user data. Training models on this sensitive user data requires careful privacy protections like differential privacy (DP). However, the dynamics of DP training are significantly different, and consequently their scaling laws are not yet fully understood. In this work, we establish scaling laws that accurately model the intricacies of DP LLM training, providing a complete picture of the compute-privacy-utility tradeoffs and the optimal training configurations in many settings.
Enlace al artículo
https://arxiv.org/abs/2501.18914
Leer más
https://services.google.com/fh/files/blogs/vaultgemma_tech_report.pdf
https://huggingface.co/google/vaultgemma-1b
https://research.google/blog/…
https://discuss.pytorch.kr/t/vaultgemma-llm-feat-differential-privacy/…
https://discuss.pytorch.kr/t/vaultgemma-llm-feat-differential-privacy/…
R-Zero: LLM de razonamiento que evoluciona por sí mismo desde datos cero / R-Zero: Self-Evolving Reasoning LLM from Zero Data
Introducción del artículo
Los modelos de lenguaje grandes (LLM) autoevolutivos ofrecen una ruta escalable hacia la superinteligencia al generar y aprender de forma autónoma a partir de sus propias experiencias. Los métodos de entrenamiento existentes dependen de tareas y etiquetas curadas por humanos a gran escala, lo que limita el avance de los sistemas de IA. Para superar esto, se propone R-Zero, un marco completamente autónomo que parte de un LLM base e inicializa dos modelos independientes llamados Challenger y Solver. Estos modelos se optimizan mediante interacción mutua, y R-Zero genera un currículo de auto-mejora orientado a objetivos sin tareas ni etiquetas preexistentes, mejorando de forma significativa la capacidad de razonamiento de diversos LLM.
Resumen del artículo (Abstract)
Los modelos de lenguaje grandes (LLM) autoevolutivos ofrecen una ruta escalable hacia la superinteligencia al generar, refinar y aprender de forma autónoma a partir de sus propias experiencias. Sin embargo, los métodos existentes para entrenar estos modelos todavía dependen en gran medida de enormes volúmenes de tareas y etiquetas curadas por humanos, normalmente mediante ajuste fino (fine-tuning) o aprendizaje por refuerzo (reinforcement learning), lo que plantea un cuello de botella fundamental para llevar a los sistemas de IA hacia capacidades más allá de la inteligencia humana. Para superar esta limitación, presentamos R-Zero. R-Zero es un marco completamente autónomo que genera sus propios datos de entrenamiento desde cero. Partiendo de un único LLM base, R-Zero inicializa dos modelos independientes con roles distintos: un Challenger y un Solver. Estos modelos se optimizan por separado y coevolucionan mediante la interacción: el Challenger recibe recompensas por proponer tareas cerca del límite de capacidad del Solver, y el Solver recibe recompensas por resolver tareas cada vez más desafiantes planteadas por el Challenger. Este proceso produce un currículo orientado a objetivos y de auto-mejora sin tareas ni etiquetas preexistentes. Empíricamente, R-Zero mejora de forma sustancial la capacidad de razonamiento en distintos LLM base; por ejemplo, mejora a Qwen3-4B-Base en +6.49 en benchmarks de razonamiento matemático y en +7.54 en benchmarks de razonamiento de dominio general.
> Los modelos de lenguaje grandes (LLM) autoevolutivos ofrecen una ruta escalable hacia la superinteligencia al generar, refinar y aprender de forma autónoma a partir de sus propias experiencias. Sin embargo, los métodos existentes para entrenar estos modelos todavía dependen en gran medida de enormes volúmenes de tareas y etiquetas curadas por humanos, normalmente mediante ajuste fino (fine-tuning) o aprendizaje por refuerzo (reinforcement learning), lo que plantea un cuello de botella fundamental para llevar a los sistemas de IA hacia capacidades más allá de la inteligencia humana. Para superar esta limitación, presentamos R-Zero, un marco completamente autónomo que genera sus propios datos de entrenamiento desde cero. Partiendo de un único LLM base, R-Zero inicializa dos modelos independientes con roles distintos: un Challenger y un Solver. Estos modelos se optimizan por separado y coevolucionan mediante la interacción: el Challenger recibe recompensas por proponer tareas cerca del límite de capacidad del Solver, y el Solver recibe recompensas por resolver tareas cada vez más desafiantes planteadas por el Challenger. Este proceso produce un currículo orientado a objetivos y de auto-mejora sin tareas ni etiquetas preexistentes. Empíricamente, R-Zero mejora de forma sustancial la capacidad de razonamiento en distintos LLM base; por ejemplo, mejora a Qwen3-4B-Base en +6.49 en benchmarks de razonamiento matemático y en +7.54 en benchmarks de razonamiento de dominio general.
Enlace al artículo
https://arxiv.org/abs/2508.05004
¿Te resultó útil este artículo recopilado por 🔥Comunidad de Usuarios de PyTorch en Corea🇰🇷? Si te unes como miembro, te enviaremos por correo electrónico💌 los artículos principales. (La opción predeterminada es Weekly, pero también puedes cambiarla a Daily.)
🎁 Si presionas Me gusta ❤️ aquí abajo↘️, nos ayudas a seguir publicando estas noticias~ 🤗
Este artículo se basa en un texto resumido con un modelo GPT, por lo que podría haber contenido resumido de forma diferente al contenido o la intención del texto original. Si el tema te interesa, consulta también la fuente original. Si mientras lees encuentras algo extraño o incorrecto, te agradeceremos que nos lo indiques en los comentarios. 🤗
⚠️Publicidad⚠️: ¿Te resultó útil este artículo recopilado por 🔥Comunidad de Usuarios de PyTorch en Corea🇰🇷? Si te unes como miembro, te enviaremos por correo electrónico💌 los artículos principales. (La opción predeterminada es Weekly, pero también puedes cambiarla a Daily.)
Aún no hay comentarios.