ML para revisar esta semana

(discuss.pytorch.kr)

7 puntos por ninebow 2025-10-01 | Aún no hay comentarios. | Compartir por WhatsApp

[2025/09/22 ~ 28] Artículos de AI/ML para revisar esta semana

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ Avances de los agentes de AI: estudios recientes están explorando cómo convertir artículos académicos en agentes de AI. Por ejemplo, Paper2Agent transforma resultados de investigación en sistemas activos para que los usuarios puedan aprovecharlos más fácilmente. Este enfoque promueve la difusión y reutilización de los resultados de investigación, y propone un nuevo paradigma en el que la AI puede desempeñar un papel de asistencia en la investigación.

2️⃣ Integración del pensamiento paralelo y el aprendizaje por refuerzo: investigaciones como Parallel-R1 y ParaThinker proponen maneras de usar pensamiento paralelo para mejorar la capacidad de razonamiento de los modelos grandes de lenguaje (LLM). Mediante aprendizaje por refuerzo (RL), exploran simultáneamente distintas rutas de razonamiento necesarias para resolver problemas complejos, mejorando así el rendimiento. Este enfoque está contribuyendo a lograr una mayor precisión en comparación con los modelos tradicionales de razonamiento secuencial.

3️⃣ Integración de búsqueda y estructuración de información: trabajos como Retrieval And Structuring (RAS) Augmented Generation exploran cómo integrar búsqueda dinámica de información y representación estructurada del conocimiento para superar las limitaciones de los LLM. Este enfoque contribuye a mejorar el rendimiento de los LLM al transformar texto no estructurado en formas organizadas y explorar diversos mecanismos de acceso a conocimiento externo.

Paper2Agent: Reimaginar artículos de investigación como agentes de AI interactivos y confiables / Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents

Introducción del artículo

Paper2Agent es un framework automatizado que convierte artículos de investigación en agentes de inteligencia artificial (AI) interactivos, y presenta un enfoque innovador para acelerar el uso y la difusión de los resultados de investigación. Los artículos académicos tradicionales exigen un esfuerzo considerable por parte del lector para comprender y aplicar su contenido, lo que se convierte en una barrera para la reutilización y propagación de esos resultados. Para resolver este problema, Paper2Agent analiza de forma sistemática el artículo y su codebase asociada, y utiliza múltiples agentes para construir un servidor Model Context Protocol (MCP). Durante este proceso, mejora y refuerza el MCP mediante pruebas iterativas, hasta generar finalmente un agente de AI capaz de realizar consultas científicas complejas en lenguaje natural.

Este framework desarrolló agentes que realizan interpretación de variantes genómicas y análisis de célula única utilizando diversas metodologías como AlphaGenome, ScanPy y TISSUE. Estos agentes no solo pueden reproducir los resultados del artículo original, sino también responder con precisión a nuevas consultas de los usuarios. Al transformar artículos de investigación estáticos en agentes de AI dinámicos e interactivos, Paper2Agent propone un nuevo paradigma para la difusión del conocimiento y sienta las bases de un ecosistema de AI co-científica.

Esta investigación cambia de forma innovadora la manera en que se realiza la comunicación científica, y contribuye a convertir los resultados de investigación de simples documentos en sistemas activos basados en conocimiento. Paper2Agent permite que los investigadores apliquen fácilmente métodos de investigación interactuando con agentes en lenguaje natural, sin necesidad de dominar ecosistemas de software complejos. Este enfoque cumple un papel importante al mejorar la accesibilidad a los resultados de investigación, promover la democratización de metodologías avanzadas y acelerar la velocidad de aplicación práctica de la investigación.

Como resultado, Paper2Agent se perfila como una plataforma innovadora que maximiza la utilidad de los artículos científicos y hace posible una difusión interactiva y colaborativa del conocimiento científico.

Resumen del artículo (Abstract)

Presentamos Paper2Agent, un framework automatizado que convierte artículos de investigación en agentes de AI. Paper2Agent transforma los resultados de investigación de productos pasivos en sistemas activos que pueden acelerar su uso posterior, adopción y descubrimiento. Los artículos científicos convencionales exigen que los lectores inviertan un esfuerzo considerable para comprender el código, los datos y los métodos de un trabajo, y adaptarlos a sus propias tareas, lo que crea barreras para su difusión y reutilización. Paper2Agent aborda este desafío convirtiendo automáticamente un artículo en un agente de AI que actúa como un asistente de investigación con amplio conocimiento. El sistema analiza de forma sistemática el artículo y la codebase asociada utilizando múltiples agentes para construir un servidor Model Context Protocol (MCP), y luego genera y ejecuta pruebas de manera iterativa para refinar y robustecer el MCP resultante. Estos MCP de artículos pueden conectarse de forma flexible con un agente conversacional (por ejemplo, Claude Code) para realizar consultas científicas complejas en lenguaje natural mientras invocan herramientas y flujos de trabajo del artículo original. Demostramos la efectividad de Paper2Agent para crear agentes de artículos confiables y capaces mediante estudios de caso en profundidad. Paper2Agent creó un agente que aprovecha AlphaGenome para interpretar variantes genómicas y agentes basados en ScanPy y TISSUE para realizar análisis de transcriptómica espacial y de célula única. Validamos que estos agentes pueden reproducir los resultados del artículo original y ejecutar correctamente nuevas consultas de los usuarios. Al convertir artículos estáticos en agentes de AI dinámicos e interactivos, Paper2Agent introduce un nuevo paradigma para la difusión del conocimiento y una base para el ecosistema colaborativo de co-científicos de AI.
> We introduce Paper2Agent, an automated framework that converts research papers into AI agents. Paper2Agent transforms research output from passive artifacts into active systems that can accelerate downstream use, adoption, and discovery. Conventional research papers require readers to invest substantial effort to understand and adapt a paper's code, data, and methods to their own work, creating barriers to dissemination and reuse. Paper2Agent addresses this challenge by automatically converting a paper into an AI agent that acts as a knowledgeable research assistant. It systematically analyzes the paper and the associated codebase using multiple agents to construct a Model Context Protocol (MCP) server, then iteratively generates and runs tests to refine and robustify the resulting MCP. These paper MCPs can then be flexibly connected to a chat agent (e.g. Claude Code) to carry out complex scientific queries through natural language while invoking tools and workflows from the original paper. We demonstrate Paper2Agent's effectiveness in creating reliable and capable paper agents through in-depth case studies. Paper2Agent created an agent that leverages AlphaGenome to interpret genomic variants and agents based on ScanPy and TISSUE to carry out single-cell and spatial transcriptomics analyses. We validate that these paper agents can reproduce the original paper's results and can correctly carry out novel user queries. By turning static papers into dynamic, interactive AI agents, Paper2Agent introduces a new paradigm for knowledge dissemination and a foundation for the collaborative ecosystem of AI co-scientists.

Enlace del artículo

https://arxiv.org/abs/2509.06917

Leer más

https://github.com/jmiao24/Paper2Agent

https://huggingface.co/spaces/Paper2Agent/alphagenome_agent

Pensamiento paralelo: método para mejorar la capacidad de pensamiento paralelo mediante aprendizaje por refuerzo / Parallel-R1: Towards Parallel Thinking via Reinforcement Learning

Introducción del artículo

El pensamiento paralelo es un enfoque innovador para mejorar la capacidad de razonamiento de los modelos de lenguaje grandes (LLM), y consiste en explorar múltiples rutas de razonamiento de manera simultánea. Sin embargo, el método existente de aprendizaje supervisado (Supervised Fine-Tuning, SFT) depende de datos sintéticos, lo que hace que el modelo se limite al aprendizaje por imitación simple y obstaculiza la exploración y la generalización. Para resolver este problema, se propuso Parallel-R1, el primer framework de aprendizaje por refuerzo (Reinforcement Learning, RL) que permite comportamientos de pensamiento paralelo para resolver problemas complejos del mundo real.

Parallel-R1 adopta un proceso de entrenamiento de dos etapas con un currículo progresivo: primero aprende con problemas sencillos y luego, mediante RL, explora y generaliza la capacidad de pensamiento paralelo frente a problemas más difíciles. En este proceso, el modelo tiende a usar el pensamiento paralelo como estrategia de exploración en la etapa inicial y, en etapas posteriores, lo desarrolla como estrategia para la verificación desde múltiples perspectivas. Los resultados experimentales muestran que Parallel-R1 logró una mejora de precisión de 8.4% frente a modelos de pensamiento secuencial existentes en varios benchmarks matemáticos y, en particular, registró una mejora de rendimiento de 42.9% en el benchmark AIME25.

La principal contribución de este estudio es proponer un framework de RL para pensamiento paralelo que induce al modelo a aprender por sí mismo esta capacidad. Además, mediante el mecanismo de exploración del pensamiento paralelo, guía al modelo hacia regiones más efectivas dentro del espacio de políticas, cumpliendo así un papel estructural que contribuye al aprendizaje de la política final. Parallel-R1 puede servir como una base importante para mejorar la capacidad de razonamiento de los LLM y se espera que contribuya a desarrollar aún más el concepto de pensamiento paralelo en investigaciones futuras.

Resumen del artículo (Abstract)

El pensamiento paralelo es un nuevo enfoque para mejorar la capacidad de razonamiento de los modelos de lenguaje grandes (LLM), explorando múltiples rutas de razonamiento al mismo tiempo. Sin embargo, activar esta capacidad mediante entrenamiento sigue siendo un desafío, ya que los métodos existentes dependen principalmente del ajuste fino supervisado (SFT) sobre datos sintéticos, lo que fomenta la imitación forzada por el profesor más que la exploración y la generalización. En contraste, proponemos \textbf{Parallel-R1}, el primer framework de aprendizaje por refuerzo (RL) que habilita comportamientos de pensamiento paralelo para tareas complejas de razonamiento del mundo real. Nuestro framework emplea un currículo progresivo que aborda explícitamente el problema de cold start en el entrenamiento del pensamiento paralelo con RL. Primero usamos SFT sobre trayectorias generadas por prompts a partir de tareas más sencillas para inculcar la capacidad de pensamiento paralelo, y luego hacemos la transición a RL para explorar y generalizar esta habilidad en problemas más difíciles. Los experimentos en diversos benchmarks matemáticos, incluidos MATH, AMC23 y AIME, muestran que Parallel-R1 incorpora con éxito el pensamiento paralelo, logrando una mejora de precisión de 8.4% sobre el modelo de pensamiento secuencial entrenado directamente con RL en tareas desafiantes. Un análisis adicional revela un cambio claro en el comportamiento de pensamiento del modelo: en una etapa temprana usa el pensamiento paralelo como estrategia de exploración, mientras que en una etapa posterior usa esa misma capacidad para la verificación desde múltiples perspectivas. Lo más importante es que validamos el pensamiento paralelo como un \textbf{andamio de exploración a mitad del entrenamiento}, donde esta fase exploratoria temporal desbloquea un techo de rendimiento más alto después de RL, produciendo una mejora de 42.9% sobre la línea base en AIME25. Nuestro modelo, datos y código serán liberados como open source en https://github.com/zhengkid/Parallel-R1.
> Parallel thinking has emerged as a novel approach for enhancing the reasoning capabilities of large language models (LLMs) by exploring multiple reasoning paths concurrently. However, activating such capabilities through training remains challenging, as existing methods predominantly rely on supervised fine-tuning (SFT) over synthetic data, which encourages teacher-forced imitation rather than exploration and generalization. Different from them, we propose \textbf{Parallel-R1}, the first reinforcement learning (RL) framework that enables parallel thinking behaviors for complex real-world reasoning tasks. Our framework employs a progressive curriculum that explicitly addresses the cold-start problem in training parallel thinking with RL. We first use SFT on prompt-generated trajectories from easier tasks to instill the parallel thinking ability, then transition to RL to explore and generalize this skill on harder problems. Experiments on various math benchmarks, including MATH, AMC23, and AIME, show that Parallel-R1 successfully instills parallel thinking, leading to 8.4% accuracy improvements over the sequential thinking model trained directly on challenging tasks with RL. Further analysis reveals a clear shift in the model's thinking behavior: at an early stage, it uses parallel thinking as an exploration strategy, while in a later stage, it uses the same capability for multi-perspective verification. Most significantly, we validate parallel thinking as a \textbf{mid-training exploration scaffold}, where this temporary exploratory phase unlocks a higher performance ceiling after RL, yielding a 42.9% improvement over the baseline on AIME25. Our model, data, and code will be open-source at https://github.com/zhengkid/Parallel-R1.

Enlace del artículo

https://arxiv.org/abs/2509.07980

Leer más

https://zhengkid.github.io/Parallel_R1.github.io/

https://github.com/zhengkid/Parallel-R1

Encuesta sobre generación aumentada por recuperación y estructuración con modelos de lenguaje grandes / A Survey on Retrieval And Structuring Augmented Generation with Large Language Models

Introducción del artículo

Los modelos de lenguaje grandes (LLM) han logrado avances revolucionarios en el campo del procesamiento de lenguaje natural, pero en aplicaciones reales enfrentan problemas como la generación de alucinaciones (hallucination), conocimiento desactualizado y experiencia limitada en dominios específicos. Para superar estas limitaciones, el enfoque de generación aumentada por recuperación y estructuración (Retrieval And Structuring, RAS) integra recuperación dinámica de información y representación estructurada del conocimiento para contribuir a mejorar el rendimiento de los LLM. Este estudio revisa diversos mecanismos de recuperación para acceder a conocimiento externo, incluidos enfoques sparse, dense e hybrid. Estos mecanismos de recuperación ayudan a que los LLM generen información más precisa y confiable.

Además, la tecnología de estructuración de texto, que convierte texto no estructurado en representaciones organizadas, también cumple un papel importante. Mediante métodos como la construcción de taxonomías, la clasificación jerárquica y la extracción de información, los LLM pueden aumentar su especialización en dominios específicos y hacer posible el razonamiento de múltiples pasos ante consultas complejas. RAS integra estas representaciones estructuradas con los LLM para mejorar la capacidad de generación de respuestas mediante métodos basados en prompts, marcos de razonamiento y técnicas de embedding de conocimiento.

Este estudio identifica los desafíos técnicos de RAS y destaca la importancia de la eficiencia de recuperación, la calidad de la estructura y la integración del conocimiento. También presenta oportunidades de investigación futura, como la recuperación multimodal, las estructuras multilingües y los sistemas interactivos, con el fin de ampliar la aplicabilidad de los LLM. Se espera que el enfoque RAS contribuya al avance del procesamiento de lenguaje natural como una metodología innovadora capaz de maximizar el rendimiento de los LLM.

Resumen del artículo (Abstract)

Los modelos de lenguaje a gran escala (LLM) han revolucionado el procesamiento de lenguaje natural con sus notables capacidades en generación de texto y razonamiento. Sin embargo, estos modelos enfrentan desafíos críticos cuando se implementan en aplicaciones del mundo real, incluidos la generación de alucinaciones, el conocimiento desactualizado y la limitada especialización por dominio. La generación aumentada con recuperación y estructuración (RAS) aborda estas limitaciones al integrar la recuperación dinámica de información con representaciones estructuradas del conocimiento. Este survey (1) examina mecanismos de recuperación, incluidos enfoques dispersos, densos e híbridos para acceder a conocimiento externo; (2) explora técnicas de estructuración de texto, como la construcción de taxonomías, la clasificación jerárquica y la extracción de información, que transforman texto no estructurado en representaciones organizadas; y (3) investiga cómo estas representaciones estructuradas se integran con los LLM mediante métodos basados en prompts, marcos de razonamiento y técnicas de embedding de conocimiento. También identifica desafíos técnicos en la eficiencia de recuperación, la calidad de la estructura y la integración del conocimiento, a la vez que destaca oportunidades de investigación en recuperación multimodal, estructuras multilingües y sistemas interactivos. Esta visión general integral proporciona a investigadores y profesionales perspectivas sobre los métodos RAS, sus aplicaciones y direcciones futuras.

Large Language Models (LLMs) have revolutionized natural language processing with their remarkable capabilities in text generation and reasoning. However, these models face critical challenges when deployed in real-world applications, including hallucination generation, outdated knowledge, and limited domain expertise. Retrieval And Structuring (RAS) Augmented Generation addresses these limitations by integrating dynamic information retrieval with structured knowledge representations. This survey (1) examines retrieval mechanisms including sparse, dense, and hybrid approaches for accessing external knowledge; (2) explore text structuring techniques such as taxonomy construction, hierarchical classification, and information extraction that transform unstructured text into organized representations; and (3) investigate how these structured representations integrate with LLMs through prompt-based methods, reasoning frameworks, and knowledge embedding techniques. It also identifies technical challenges in retrieval efficiency, structure quality, and knowledge integration, while highlighting research opportunities in multimodal retrieval, cross-lingual structures, and interactive systems. This comprehensive overview provides researchers and practitioners with insights into RAS methods, applications, and future directions.

Enlace del artículo

https://arxiv.org/abs/2509.10697

ParaThinker: pensamiento paralelo nativo como un nuevo paradigma para escalar el cómputo en tiempo de prueba de los LLM / ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute

Introducción del artículo

El avance de los modelos de lenguaje a gran escala (LLM) ha dependido en gran medida, recientemente, de estrategias para escalar el cómputo en tiempo de prueba, lo que ha contribuido a mejorar la capacidad de razonamiento de los modelos. Sin embargo, este enfoque enfrenta un cuello de botella en el que la mejora del rendimiento se vuelve marginal a medida que aumenta la cantidad de cómputo. Este problema se debe a un fenómeno llamado "visión de túnel (Tunnel Vision)", en el que un razonamiento incompleto en las etapas iniciales termina fijando al modelo en una ruta no óptima. Para resolverlo, se propone un nuevo paradigma llamado paralelismo nativo del pensamiento (Native Thought Parallelism), que genera simultáneamente múltiples trayectorias de razonamiento diversas y luego las sintetiza para obtener la respuesta final.

El framework end-to-end llamado ParaThinker se centra en implementar este paralelismo del pensamiento. Este sistema entrena al modelo para generar de manera independiente distintos pensamientos, lo que le permite evitar eficazmente el problema de la visión de túnel y maximizar la capacidad potencial de razonamiento del modelo. ParaThinker logra este objetivo mediante tres innovaciones principales. Primero, introduce tokens de control entrenables para garantizar la originalidad de cada trayectoria; segundo, distingue con claridad el origen de cada trayectoria mediante embeddings posicionales específicos para cada pensamiento; y tercero, utiliza una estrategia de ajuste fino supervisado (Supervised Fine-Tuning) para permitir que el modelo genere más trayectorias paralelas.

Este enfoque logró, en benchmarks de razonamiento desafiantes, una mejora de precisión promedio de 12.3% en el modelo de 1.5B y de 7.5% en el modelo de 7B en comparación con modelos autorregresivos de razonamiento existentes, mientras que la latencia se mantuvo en un nivel mínimo de 7.1%. Por ello, ParaThinker plantea la posibilidad de que modelos más pequeños superen a modelos mucho más grandes y propone una nueva vía para la futura escalabilidad de los LLM. Los resultados de la investigación identifican el cuello de botella que surge en el proceso de razonamiento de los LLM y demuestran que el paralelismo nativo del pensamiento es un mejor método de escalado, realizando así una contribución importante al campo de investigación de los LLM.

Resumen del artículo (Abstract)

Los avances recientes en los modelos de lenguaje grandes (LLM) han sido impulsados por el escalado de cómputo en tiempo de prueba, una estrategia que mejora el razonamiento al generar procesos de pensamiento secuenciales más largos. Aunque es efectiva, esta aproximación enfrenta un cuello de botella importante a medida que aumenta el cómputo, donde más cómputo solo ofrece mejoras marginales de rendimiento. Sostenemos que este techo no es un límite inherente de la capacidad del modelo, sino una falla de la propia estrategia de escalado. A este fenómeno lo llamamos "visión de túnel", donde los pasos iniciales imperfectos del modelo lo fijan en una ruta de razonamiento subóptima. Para superar esto, presentamos un nuevo paradigma de escalado: paralelismo nativo del pensamiento. Proponemos ParaThinker, un framework end-to-end que entrena a un LLM para generar en paralelo múltiples rutas de razonamiento diversas y sintetizarlas en una respuesta final superior. Al explorar simultáneamente distintas líneas de pensamiento, ParaThinker evita de forma efectiva el problema de la visión de túnel y permite liberar el potencial latente de razonamiento del modelo. Nuestro enfoque demuestra que escalar el cómputo en paralelo (ancho) es una forma más efectiva y eficiente de lograr un mejor razonamiento que simplemente escalarlo de manera secuencial (profundidad). En benchmarks de razonamiento exigentes, ParaThinker logró mejoras sustanciales de precisión frente a LLM secuenciales (12.3% en promedio para modelos de 1.5B y 7.5% para modelos de 7B), mientras que el sobrecosto de latencia se mantuvo en un nivel mínimo (7.1%). Esto permite que modelos más pequeños superen a otros mucho más grandes y establece el pensamiento en paralelo como una dimensión crítica y eficiente para el escalado futuro de los LLM.

Recent advances in Large Language Models (LLMs) have been driven by test-time compute scaling - a strategy that improves reasoning by generating longer, sequential thought processes. While effective, this approach encounters a significant bottleneck as computation increases, where further computation offers only marginal performance gains. We argue this ceiling is not an inherent limit of the model's capability but a flaw in the scaling strategy itself, a phenomenon we term "Tunnel Vision", where a model's imperfect initial steps lock it into a suboptimal reasoning path. To overcome this, we introduce a new scaling paradigm: native thought parallelism. We present ParaThinker, an end-to-end framework that trains an LLM to generate multiple, diverse reasoning paths in parallel and synthesize them into a superior final answer. By exploring different lines of thoughts simultaneously, ParaThinker effectively sidesteps the Tunnel Vision issue and unlocks the model's latent reasoning potential. Our approach demonstrates that scaling compute in parallel (width) is a more effective and efficient way to superior reasoning than simply scaling sequentially (depth). On challenging reasoning benchmarks, ParaThinker achieves substantial accuracy improvements over sequential LLMs (12.3% for 1.5B and 7.5% for 7B models on average with 8 parallel paths), while adding only negligible latency overhead (7.1%). This enables smaller models to surpass much larger counterparts and establishes parallel thinking as a critical, efficient dimension for scaling future LLMs.

Enlace al artículo

https://arxiv.org/abs/2509.04475

Ajuste fino en contexto para modelos fundacionales de series temporales / In-Context Fine-Tuning for Time-Series Foundation Models

Introducción al artículo

La predicción de datos de series temporales es una tarea importante en diversos campos, y los avances recientes en los modelos fundacionales de series temporales están abriendo nuevas posibilidades para este problema. En este estudio se propone una nueva metodología para maximizar el rendimiento de estos modelos, denominada $\textit{in-context fine-tuning}$. Esta metodología está diseñada para que un modelo fundacional preentrenado pueda predecir hacia el futuro una serie temporal específica utilizando varios ejemplos de series temporales.

El modelo propuesto se entrena para que, durante la inferencia, pueda adaptarse a la distribución específica del dominio objetivo utilizando en la ventana de contexto no solo el historial de la serie temporal objetivo, sino también ejemplos de series temporales relacionadas. Este enfoque permite que el modelo aprenda patrones de diversas series temporales y, con base en ello, realice predicciones más precisas. Los resultados experimentales mostraron que este modelo ofrece un rendimiento muy superior al de métodos de aprendizaje profundo basados en aprendizaje supervisado, modelos estadísticos y otros modelos fundacionales de series temporales ya existentes.

En particular, el enfoque de in-context fine-tuning mostró un rendimiento competitivo incluso frente a modelos ajustados explícitamente para el dominio objetivo, lo que resalta el carácter innovador de esta metodología. La arquitectura del modelo se basa en TimesFM y está configurada para procesar eficazmente datos de series temporales. Los ejemplos de entrada se dividen en parches de longitud $p$ para su procesamiento, y la máscara de padding garantiza la precisión de la predicción.

En el proceso de tokenización, los tokens generados al integrar los parches y la máscara se introducen en capas Transformer apiladas, de donde se obtienen los resultados de predicción. Esta secuencia de pasos cumple un papel clave para que el modelo procese eficazmente los datos de entrada y prediga la serie temporal de los siguientes $h$ pasos. Este estudio presenta un nuevo enfoque para la predicción de datos de series temporales y demuestra empíricamente que el in-context fine-tuning puede ofrecer un rendimiento superior al de los métodos existentes.

Resumen(Abstract)

Impulsados por el éxito reciente de los modelos fundacionales de series temporales para pronóstico zero-shot, presentamos una metodología de $\textit{fine-tuning en contexto}$ para un modelo fundacional de series temporales. En particular, diseñamos un modelo fundacional preentrenado que puede recibir prompts, junto con múltiples ejemplos de series temporales, para pronosticar una serie temporal objetivo hacia el futuro. Nuestro modelo fundacional está entrenado específicamente para aprovechar ejemplos de múltiples series temporales relacionadas dentro de su ventana de contexto, además del historial de la serie temporal objetivo, con el fin de ayudarle a adaptarse a la distribución específica del dominio objetivo en tiempo de inferencia. Mostramos que este tipo de modelo fundacional que usa ejemplos en contexto durante la inferencia puede lograr un rendimiento mucho mejor en benchmarks populares de pronóstico en comparación con métodos supervisados de deep learning, modelos estadísticos y otros modelos fundacionales de series temporales. De forma interesante, nuestro enfoque de fine-tuning en contexto incluso puede competir con el rendimiento de un modelo fundacional ajustado explícitamente al dominio objetivo.
> Motivated by the recent success of time-series foundation models for zero-shot forecasting, we present a methodology for $\textit{in-context fine-tuning}$ of a time-series foundation model. In particular, we design a pretrained foundation model that can be prompted (at inference time) with multiple time-series examples, in order to forecast a target time-series into the future. Our foundation model is specifically trained to utilize examples from multiple related time-series in its context window (in addition to the history of the target time-series) to help it adapt to the specific distribution of the target domain at inference time. We show that such a foundation model that uses in-context examples at inference time can obtain much better performance on popular forecasting benchmarks compared to supervised deep learning methods, statistical models, as well as other time-series foundation models. Interestingly, our in-context fine-tuning approach even rivals the performance of a foundation model that is explicitly fine-tuned on the target domain.

Enlace al artículo

https://arxiv.org/abs/2410.24087

Leer más

https://research.google/blog/…

https://icml.cc/virtual/2025/poster/43707

Con 1 bit basta: redes neuronales normalizadas binarias / 1 bit is all we need: binary normalized neural networks

Presentación del artículo

El avance de los modelos de redes neuronales a gran escala ofrece un rendimiento sobresaliente en diversas aplicaciones, pero el aumento en el tamaño de estos modelos también plantea desafíos en cuanto a requerimientos de memoria y eficiencia computacional. Para abordar este problema, este estudio propone un nuevo tipo de modelo de red neuronal, llamado capa normalizada binaria (binary normalized layer), que restringe a un solo bit los parámetros de todas las capas. Esta capa está diseñada para establecer todos los parámetros, incluidos los pesos del kernel y los sesgos, en 0 o 1, con lo que reduce drásticamente el uso de memoria y al mismo tiempo mantiene un rendimiento similar al de modelos que usan parámetros tradicionales de punto flotante de 32 bits.

La capa normalizada binaria puede aplicarse a diversas arquitecturas de redes neuronales, incluidas capas totalmente conectadas, convolucionales y de atención, y durante el entrenamiento utiliza dos formas de valores, los de precisión completa de 32 bits y los binarizados, para garantizar un aprendizaje estable. En este estudio se construyeron dos modelos que emplean capas normalizadas binarias para resolver problemas de clasificación de imágenes multiclase y decodificación de lenguaje. Los resultados experimentales muestran que estos modelos ofrecen un rendimiento casi idéntico al de modelos que usan parámetros convencionales de 32 bits, mientras que el uso de memoria se reduce 32 veces.

Este enfoque innovador tiene el potencial de mejorar significativamente la eficiencia de los modelos de redes neuronales a gran escala y ofrece además la ventaja de poder implementarse fácilmente incluso en hardware económico. Mediante la capa normalizada binaria, se abre una nueva posibilidad para reducir los requerimientos de memoria de los modelos de redes neuronales y aumentar su aplicabilidad práctica en diversos campos. Se espera que futuras investigaciones avancen en la mejora del rendimiento de la capa normalizada binaria y exploren metodologías para aplicarla en distintas áreas.

Resumen del artículo (Abstract)

Los siguientes son resúmenes de artículos del campo de AI/ML. A medida que aumenta el tamaño de los modelos de redes neuronales a gran escala, en particular los modelos de lenguaje y los modelos fundacionales de imagen, surgen desafíos para su despliegue, lo que ha impulsado esfuerzos para reducir los requisitos de memoria y mejorar la eficiencia computacional. Estos esfuerzos son cruciales para garantizar el despliegue práctico y el uso efectivo de estos modelos en diversas aplicaciones. En este estudio se desarrolló un nuevo tipo de capas y modelos de redes neuronales que utiliza únicamente parámetros de un solo bit. En este nuevo tipo de modelo, todos los parámetros de todas las capas, es decir, los pesos del kernel y los sesgos, solo tienen valores de 0 o 1. Este nuevo tipo de modelo utiliza capas llamadas binary normalized layer. Estas binary normalized layers pueden ser de cualquier tipo, como capas totalmente conectadas, capas convolucionales, capas de atención, etc., y consisten en ligeras variaciones de las capas convencionales correspondientes. Para demostrar la eficacia de las binary normalized layers, se configuraron dos modelos para resolver un problema de clasificación de imágenes multiclase y un decodificador de lenguaje para predecir el siguiente token de una secuencia. Los modelos para resolver la clasificación de imágenes están compuestos por capas convolucionales y capas totalmente conectadas, mientras que el modelo de lenguaje está compuesto por bloques transformer con atención multi-head. Los resultados muestran que los modelos con binary normalized layers obtienen resultados casi idénticos a los de modelos equivalentes con parámetros reales de 32 bits. Las binary normalized layers permiten desarrollar modelos que usan 32 veces menos memoria que los modelos actuales y mantienen un rendimiento equivalente. Además, las binary normalized layers pueden implementarse fácilmente en las computadoras actuales usando arreglos de 1 bit, y no requieren el desarrollo de hardware electrónico dedicado. Este nuevo tipo de capa abre una nueva era para los modelos de redes neuronales a gran escala con menores requisitos de memoria, que pueden desplegarse con hardware simple y de bajo costo, como dispositivos móviles o solo CPUs.
> The increasing size of large neural network models, specifically language models and foundational image models, poses deployment challenges, prompting efforts to reduce memory requirements and enhance computational efficiency. These efforts are critical to ensure practical deployment and effective utilization of these models across various applications. In this work, a novel type of neural network layers and models is developed that uses only single-bit parameters. In this novel type of models all parameters of all layers, including kernel weights and biases, only have values equal to zero or one. This novel type of models uses layers named as binary normalized layer. These binary normalized layers can be of any type, such as fully connected, convolutional, attention, etc., and they consist of slight variations of the corresponding conventional layers. To show the effectiveness of the binary normalized layers, two different models are configured to solve a multiclass image classification problem and a language decoder to predict the next token of a sequence. The model to solve the image classification has convolutional and fully connected layers, and the language model is composed of transformer blocks with multi-head attention. The results show that models with binary normalized layers present almost the same results obtained by equivalent models with real 32-bit parameters. The binary normalized layers allow to develop models that use 32 times less memory than current models and have equivalent performance. Besides, the binary normalized layers can be easily implemented on current computers using 1-bit arrays, and do not require the development of dedicated electronic hardware. This novel type of layers opens a new era for large neural network models with reduced memory requirements that can be deployed using simple and cheap hardware, such as mobile devices or only cpus.

Enlace al artículo

https://arxiv.org/abs/2509.07025

Internalización de la autoconsistencia en modelos de lenguaje: alineación por consenso multiagente / Internalizing Self-Consistency in Language Models: Multi-Agent Consensus Alignment

Introducción al artículo

Los modelos de lenguaje (LM) tienden a generar respuestas contradictorias ante el mismo prompt, lo que muestra un razonamiento inconsistente. Los métodos existentes en tiempo de inferencia pueden mitigar estas discrepancias, pero no resuelven el problema fundamental: la dificultad de seleccionar trayectorias de razonamiento que conduzcan a resultados consistentes. Para abordar esto, este estudio formaliza la autoconsistencia como una propiedad intrínseca de los modelos de razonamiento bien alineados e introduce un marco de aprendizaje por refuerzo llamado Multi-Agent Consensus Alignment (MACA). MACA aprovecha los resultados mayoritarios y minoritarios para ajustar el modelo después del entrenamiento, de modo que prefiera trayectorias de razonamiento alineadas con el consenso interno. Estas trayectorias surgen de discusiones profundas entre agentes y generan señales de consenso más ricas mediante razonamiento basado en argumentos de pares, en lugar de un conjunto de intentos independientes. MACA permite que los agentes aprendan por sí mismos a ser más decididos y concisos sin supervisión externa, y logra mejoras significativas en distintas formas de autoconsistencia, razonamiento de agente único, razonamiento basado en muestreo y toma de decisiones colectiva multiagente. Estos resultados muestran una poderosa autoalineación que extrae de manera más confiable la capacidad latente de razonamiento de los modelos de lenguaje, junto con una sólida capacidad de generalización hacia benchmarks no vistos.

Resumen del artículo (Abstract)

Los modelos de lenguaje (LLM) son razonadores inconsistentes, y a menudo generan respuestas contradictorias ante prompts idénticos. Aunque los métodos en tiempo de inferencia pueden mitigar estas inconsistencias, no resuelven el problema central: los LLM tienen dificultades para seleccionar de forma confiable trayectorias de razonamiento que conduzcan a resultados consistentes bajo muestreo exploratorio. Para abordar esto, formalizamos la autoconsistencia como una propiedad intrínseca de los modelos de razonamiento bien alineados e introducimos Multi-Agent Consensus Alignment (MACA), un marco de aprendizaje por refuerzo que posentrena modelos para favorecer trayectorias de razonamiento alineadas con su consenso interno usando resultados de mayoría/minoría provenientes de debates multiagente. Estas trayectorias surgen de intercambios deliberativos en los que los agentes fundamentan el razonamiento en los argumentos de sus pares, en lugar de limitarse a agregar intentos independientes, lo que genera señales de consenso más ricas que una votación por mayoría de una sola ronda. MACA permite que los agentes se enseñen a sí mismos a ser más decisivos y concisos, y a aprovechar mejor las ideas de sus pares en entornos multiagente sin supervisión externa, lo que impulsa mejoras sustanciales en autoconsistencia (+27.6% on GSM8K), razonamiento de agente único (+23.7% on MATH), inferencia basada en muestreo (+22.4% Pass@20 on MATH) y toma de decisiones de ensamble multiagente (+42.7% on MathQA). Estos hallazgos, junto con una sólida generalización a benchmarks no vistos (+16.3% on GPQA, +11.6% on CommonsenseQA), demuestran una autoalineación robusta que libera de forma más confiable el potencial latente de razonamiento de los modelos de lenguaje.
> Language Models (LMs) are inconsistent reasoners, often generating contradictory responses to identical prompts. While inference-time methods can mitigate these inconsistencies, they fail to address the core problem: LMs struggle to reliably select reasoning pathways leading to consistent outcomes under exploratory sampling. To address this, we formalize self-consistency as an intrinsic property of well-aligned reasoning models and introduce Multi-Agent Consensus Alignment (MACA), a reinforcement learning framework that post-trains models to favor reasoning trajectories aligned with their internal consensus using majority/minority outcomes from multi-agent debate. These trajectories emerge from deliberative exchanges where agents ground reasoning in peer arguments, not just aggregation of independent attempts, creating richer consensus signals than single-round majority voting. MACA enables agents to teach themselves to be more decisive and concise, and better leverage peer insights in multi-agent settings without external supervision, driving substantial improvements across self-consistency (+27.6% on GSM8K), single-agent reasoning (+23.7% on MATH), sampling-based inference (+22.4% Pass@20 on MATH), and multi-agent ensemble decision-making (+42.7% on MathQA). These findings, coupled with strong generalization to unseen benchmarks (+16.3% on GPQA, +11.6% on CommonsenseQA), demonstrate robust self-alignment that more reliably unlocks latent reasoning potential of language models.

Enlace al artículo

https://arxiv.org/abs/2509.15172

Investigación profunda universal: trae tu propio modelo y estrategia / Universal Deep Research: Bring Your Own Model and Strategy

Introducción del artículo

Universal Deep Research (UDR) es un sistema agéntico generalizado desarrollado para superar la limitación de las herramientas existentes de deep research, que están codificadas de forma rígida para ejecutar estrategias de investigación específicas. UDR ofrece a los usuarios la capacidad de crear, editar y mejorar sus propias estrategias personalizadas de deep research, y resulta innovador porque no requiere entrenamiento adicional ni finetuning durante ese proceso. El sistema demuestra su generalidad a través de diversos ejemplos, desde estrategias de investigación mínimas hasta otras amplias y enfocadas.

El núcleo de UDR es facilitar la experimentación mediante una interfaz de usuario, para que los investigadores puedan explorar libremente sus propias estrategias de investigación. Este enfoque brinda a los investigadores la oportunidad de desarrollar metodologías originales sin depender de herramientas preexistentes. En particular, UDR envuelve distintos modelos de lenguaje, lo que le da la flexibilidad de permitir que el usuario elija y use el modelo que prefiera.

Esta investigación contribuye al avance de las herramientas de deep research y se centra en permitir que los investigadores establezcan estrategias de investigación más creativas y personalizadas. Se espera que la introducción de UDR desempeñe un papel importante en aumentar la eficiencia y la eficacia de la investigación. En ese sentido, UDR se perfila como un sistema innovador que abre nuevas posibilidades en el campo del deep research.

Resumen del artículo (Abstract)

Las herramientas de deep research están entre los sistemas agénticos más influyentes y más comunes en la actualidad. Sin embargo, observamos que cada agente de deep research presentado hasta ahora está codificado de forma rígida para ejecutar una estrategia de investigación particular usando una selección fija de herramientas. Presentamos Universal Deep Research (UDR), un sistema agéntico generalista que envuelve cualquier modelo de lenguaje y permite al usuario crear, editar y refinar sus propias estrategias de deep research completamente personalizadas sin necesidad de entrenamiento adicional ni finetuning. Para mostrar la generalidad de nuestro sistema, equipamos a UDR con ejemplos de estrategias de investigación mínimas, expansivas e intensivas, y proporcionamos una interfaz de usuario para facilitar la experimentación con el sistema.
> Deep research tools are among the most impactful and most commonly encountered agentic systems today. We observe, however, that each deep research agent introduced so far is hard-coded to carry out a particular research strategy using a fixed choice of tools. We introduce Universal Deep Research (UDR), a generalist agentic system that wraps around any language model and enables the user to create, edit, and refine their own entirely custom deep research strategies without any need for additional training or finetuning. To showcase the generality of our system, we equip UDR with example minimal, expansive, and intensive research strategies, and provide a user interface to facilitate experimentation with the system.

Enlace al artículo

https://arxiv.org/abs/2509.00244

AlphaAgents: multiagentes basados en grandes modelos de lenguaje para la construcción de portafolios de acciones / AlphaAgents: Large Language Model based Multi-Agents for Equity Portfolio Constructions

Introducción al artículo

El avance de los grandes modelos de lenguaje (LLM) está ayudando a maximizar la eficiencia y la adaptabilidad de los agentes de inteligencia artificial (AI), lo que abre la posibilidad de la colaboración entre múltiples agentes para resolver problemas complejos. Este estudio explora un enfoque basado en roles para la selección de acciones y la gestión de portafolios utilizando este tipo de sistema multiagente. El objetivo central de la investigación es evaluar el desempeño de selección de acciones cuando varios agentes de AI colaboran entre sí y compararlo con benchmarks existentes.

El sistema multiagente está compuesto por agentes con distintas especialidades, como análisis fundamental, análisis de sentimiento y valuación, y estos discuten sus opiniones entre sí para construir un portafolio óptimo. En el estudio, se seleccionan aleatoriamente 15 acciones tecnológicas y se evalúa su desempeño mediante backtesting, analizando la efectividad del portafolio con base en el rendimiento ajustado por riesgo y el ratio de Sharpe. Esta metodología sugiere la posibilidad de derivar mejores estrategias de inversión a través de un proceso colaborativo de toma de decisiones entre múltiples agentes.

Este estudio analiza las ventajas y limitaciones de los sistemas multiagente, y propone una forma de mejorar la toma de decisiones integrando las distintas perspectivas que ofrecen los agentes de AI. Sin embargo, la implementación de estos sistemas presenta desafíos, como la verificación de consistencia lógica mediante revisión humana. Los resultados muestran que los sistemas multiagente pueden ofrecer un enfoque innovador para la construcción de portafolios de acciones, y en investigaciones futuras se planea explorar una función que ajuste el peso de las acciones según la confiabilidad del LLM.

Este tipo de investigación contribuye al desarrollo de estrategias de inversión basadas en AI y muestra el potencial de uso de los sistemas multiagente.

Resumen del artículo (Abstract)

El campo de los agentes de inteligencia artificial (AI) está evolucionando rápidamente, impulsado por las capacidades de los grandes modelos de lenguaje (LLM), que pueden ejecutar y perfeccionar tareas de forma autónoma con una eficiencia y adaptabilidad similares a las humanas. En este contexto, la colaboración multiagente ha surgido como un enfoque prometedor, al permitir que múltiples agentes de AI trabajen juntos para resolver desafíos complejos. Este estudio investiga la aplicación de sistemas multiagente basados en roles para apoyar la selección de acciones en research de renta variable y gestión de portafolios. Presentamos un análisis integral realizado por un equipo de agentes especializados y evaluamos su desempeño en stock picking frente a benchmarks establecidos bajo distintos niveles de tolerancia al riesgo. Además, examinamos las ventajas y limitaciones de emplear frameworks multiagente en análisis de acciones, ofreciendo insights clave sobre su eficacia práctica y los desafíos de implementación.

The field of artificial intelligence (AI) agents is evolving rapidly, driven by the capabilities of Large Language Models (LLMs) to autonomously perform and refine tasks with human-like efficiency and adaptability. In this context, multi-agent collaboration has emerged as a promising approach, enabling multiple AI agents to work together to solve complex challenges. This study investigates the application of role-based multi-agent systems to support stock selection in equity research and portfolio management. We present a comprehensive analysis performed by a team of specialized agents and evaluate their stock-picking performance against established benchmarks under varying levels of risk tolerance. Furthermore, we examine the advantages and limitations of employing multi-agent frameworks in equity analysis, offering critical insights into their practical efficacy and implementation challenges.

Enlace al artículo

https://arxiv.org/abs/2508.11152

Encuesta sobre aprendizaje por refuerzo para grandes modelos de razonamiento / A Survey of Reinforcement Learning for Large Reasoning Models

Introducción al artículo

El aprendizaje por refuerzo (Reinforcement Learning, RL) está desempeñando un papel importante en la mejora de la capacidad de razonamiento de los grandes modelos de lenguaje (Large Language Models, LLM), y este artículo examina su evolución hacia los grandes modelos de razonamiento (Large Reasoning Models, LRM) a través de RL. RL ha mostrado resultados destacados en tareas lógicas complejas como la resolución de problemas matemáticos y trabajos de programación, y se ha consolidado como una metodología fundamental para transformar LLM en LRM. Sin embargo, la expansión de RL para LRM enfrenta varios desafíos en términos de recursos computacionales, diseño de algoritmos, datos de entrenamiento e infraestructura.

Este estudio revisa diversas investigaciones que aplican RL para mejorar la capacidad de razonamiento de LLM y LRM y, en particular, analiza componentes fundamentales de RL, como el diseño de recompensas, la optimización de políticas y las estrategias de muestreo, centrándose en avances recientes, incluido el modelo DeepSeek-R1. El diseño de recompensas es una señal clave que determina la dirección del aprendizaje del modelo, y se destaca la importancia de mecanismos de recompensa verificables. La optimización de políticas es el proceso mediante el cual el modelo aprende a seleccionar la mejor acción, e incluye algoritmos basados en crítico y algoritmos sin crítico. Además, se discuten estrategias de muestreo, como el muestreo dinámico y el ajuste de hiperparámetros, como formas de mejorar la eficiencia de RL.

Este artículo subraya la importancia del proceso de entrenamiento integrado de los LLM mediante RL, así como la calidad y estructura de los recursos de entrenamiento, y muestra la utilidad práctica de RL a través de casos de aplicación en ingeniería de software y tareas robóticas. En particular, la integración de RL con el paradigma de agentes está impulsando avances en generación de código y también está produciendo buenos resultados en tareas multimodales. Este trabajo propone nuevas direcciones para mejorar la capacidad de razonamiento de los LLM y se espera que contribuya, en última instancia, a sentar las bases para alcanzar la superinteligencia artificial (Artificial SuperIntelligence, ASI).

Resumen del artículo (Abstract)

Este artículo revisa los avances recientes en aprendizaje por refuerzo (RL) para el razonamiento con modelos de lenguaje grandes (LLM). RL ha logrado un éxito notable al ampliar las capacidades de los LLM, especialmente para resolver tareas lógicas complejas como matemáticas y programación. Como resultado, RL se ha consolidado como una metodología fundamental para transformar los LLM en modelos de razonamiento grandes (LRM). Con el rápido progreso de este campo, una mayor escalabilidad de RL para los LRM ahora enfrenta desafíos fundamentales no solo en recursos computacionales, sino también en diseño de algoritmos, datos de entrenamiento e infraestructura. Por ello, es oportuno volver a examinar el desarrollo de este campo, reevaluar su trayectoria y explorar estrategias para mejorar la escalabilidad de RL hacia la superinteligencia artificial (ASI). En particular, revisamos la investigación que aplica RL a LLM y LRM para capacidades de razonamiento, especialmente desde el lanzamiento de DeepSeek-R1, incluyendo componentes fundamentales, problemas centrales, recursos de entrenamiento y aplicaciones posteriores, con el fin de identificar oportunidades y direcciones futuras para esta área en rápida evolución. Esperamos que esta revisión impulse futuras investigaciones sobre RL para modelos de razonamiento más amplios. GitHub: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs
> In this paper, we survey recent advances in Reinforcement Learning (RL) for reasoning with Large Language Models (LLMs). RL has achieved remarkable success in advancing the frontier of LLM capabilities, particularly in addressing complex logical tasks such as mathematics and coding. As a result, RL has emerged as a foundational methodology for transforming LLMs into LRMs. With the rapid progress of the field, further scaling of RL for LRMs now faces foundational challenges not only in computational resources but also in algorithm design, training data, and infrastructure. To this end, it is timely to revisit the development of this domain, reassess its trajectory, and explore strategies to enhance the scalability of RL toward Artificial SuperIntelligence (ASI). In particular, we examine research applying RL to LLMs and LRMs for reasoning abilities, especially since the release of DeepSeek-R1, including foundational components, core problems, training resources, and downstream applications, to identify future opportunities and directions for this rapidly evolving area. We hope this review will promote future research on RL for broader reasoning models. Github: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs

Enlace al artículo

https://arxiv.org/abs/2509.08827

Leer más

https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs

⚠️Anuncio⚠️: ¿Te resultó útil este artículo recopilado por 🔥la comunidad de usuarios de PyTorch en Corea🇰🇷? Si te registras como miembro, te enviaremos los artículos principales por correo electrónico💌. (La opción predeterminada es Weekly, pero también puedes cambiarla a Daily.)

[2025/09/22 ~ 28] Artículos de AI/ML para revisar esta semana