ML que vale la pena revisar esta semana

(discuss.pytorch.kr)

11 puntos por ninebow 2025-09-10 | Aún no hay comentarios. | Compartir por WhatsApp

[2025/09/01 ~ 07] Artículos de AI/ML que vale la pena revisar esta semana

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ Límites y control de los modelos de lenguaje a gran escala: varios artículos analizaron las limitaciones de los modelos de lenguaje a gran escala (LLM) y las formas de controlarlas. En particular, "On the Fundamental Impossibility of Hallucination Control in Large Language Models" plantea una imposibilidad teórica: los LLM no pueden lograr al mismo tiempo una representación veraz del conocimiento y la preservación de la información, y destaca la equivalencia matemática entre la alucinación y la creatividad. Esto proporciona una base para gestionar estos comportamientos en sistemas de IA.

2️⃣ Técnicas eficientes de entrenamiento y optimización: artículos como "Fantastic Pretraining Optimizers and Where to Find Them" y "Communication Efficient LLM Pre-training with SparseLoCo" exploran nuevas técnicas de optimización para mejorar la eficiencia durante el entrenamiento de los LLM. En particular, SparseLoCo mostró mejores resultados tanto en rendimiento como en costo de comunicación al usar dispersión y cuantización para aumentar la eficiencia de comunicación.

3️⃣ Mejoras en la colaboración y la memoria de sistemas multiagente: en "Anemoi: A Semi-Centralized Multi-agent Systems Based on Agent-to-Agent Communication MCP server from Coral Protocol" y "Memp: Exploring Agent Procedural Memory" se propusieron enfoques para mejorar la forma de colaboración de los sistemas multiagente y la memoria procedural de los agentes. Anemoi mejora el rendimiento mediante colaboración directa entre agentes, y Memp permite que los agentes cuenten con memoria procedural entrenable para hacer posibles actualizaciones y mejoras continuas.

Estudio sobre la imposibilidad fundamental de controlar las alucinaciones en modelos de lenguaje a gran escala / On the Fundamental Impossibility of Hallucination Control in Large Language Models

Introducción del artículo

El problema de las alucinaciones en los modelos de lenguaje grandes (LLM) es un tema que afecta de manera importante la confiabilidad y la precisión de los sistemas de inteligencia artificial, y este estudio buscó aclarar matemáticamente la imposibilidad fundamental de resolver ese problema. Los autores explican el conjunto de información en bits con la idea de una subasta y analizan el proceso por el cual varios componentes forman una respuesta utilizando su conocimiento parcial. El estudio ofrece una base matemática para la alucinación y la creatividad a través de tres áreas matemáticas independientes: la teoría de diseño de mecanismos, la teoría de reglas de puntuación apropiadas y el análisis directo de la arquitectura Transformer. En particular, los autores presentan una forma de cuantificar la generación de respuestas excesivamente confiadas o intuitivas, rasgo que aparece tanto en la alucinación como en la creatividad.

Además, el estudio introduce los conceptos de medición de información semántica y operador emergente para modelar el razonamiento limitado, y enfatiza que, mientras el razonamiento limitado genera información accesible, el razonamiento ideal e ilimitado preserva estrictamente el contenido semántico. A partir de este análisis, los autores demuestran que la alucinación y la imaginación son fenómenos matemáticamente idénticos que surgen de desviaciones en la veracidad, la preservación de la información semántica, la divulgación del conocimiento relevante y la optimalidad bajo restricciones de conocimiento. Este trabajo proporciona una base teórica con implicaciones importantes para el diseño y la evaluación de sistemas de IA, y ofrece perspectivas sobre futuras líneas de investigación. Se espera que estas contribuciones planteen nuevas preguntas en la intersección entre la teoría de la información y la IA, y ayuden a profundizar la comprensión sobre la naturaleza de la información.

Resumen del artículo (Abstract)

Este artículo establece un teorema fundamental de imposibilidad: ningún LLM capaz de realizar una agregación de conocimiento no trivial puede lograr simultáneamente una representación veraz del conocimiento, la conservación de la información semántica, la revelación completa del conocimiento relevante y la optimalidad bajo restricciones de conocimiento. Esta imposibilidad no es una limitación de ingeniería, sino que surge de la estructura matemática de la propia agregación de información. Los autores establecen este resultado describiendo el proceso de inferencia como una subasta de ideas, donde componentes distribuidos compiten aprovechando su conocimiento parcial para dar forma a las respuestas. La demostración abarca tres dominios matemáticos independientes: la teoría de diseño de mecanismos (Green-Laffont), la teoría de las reglas de puntuación propias (Savage) y el análisis arquitectónico directo de los transformers (convexidad de Log-Sum-Exp). En particular, muestran cómo cuantificar la creación de respuestas sobreconfiadas o intuitivas, la característica distintiva tanto de la alucinación como de la creatividad o la imaginación. Para respaldar este análisis, introducen los conceptos complementarios de medida de información semántica y operador de emergencia para modelar el razonamiento acotado en un entorno general. Demuestran que, mientras el razonamiento acotado genera información accesible y aporta ideas e inspiración valiosas, el razonamiento idealizado sin restricciones preserva estrictamente el contenido semántico. Al demostrar que la alucinación y la imaginación son fenómenos matemáticamente idénticos, basados en desviaciones respecto a la veracidad, la conservación de la información semántica, la revelación del conocimiento relevante y la optimalidad bajo restricciones de conocimiento, ofrecen una base de principios para gestionar estos comportamientos en sistemas de IA avanzados. Por último, presentan algunas ideas especulativas para inspirar la evaluación y el perfeccionamiento de la teoría propuesta.
> This paper establishes a fundamental impossibility theorem: no LLM capable of performing non-trivial knowledge aggregation can simultaneously achieve truthful knowledge representation, semantic information conservation, complete revelation of relevant knowledge, and knowledge-constrained optimality. The impossibility is not an engineering limitation but arises from the mathematical structure of information aggregation itself. We establish this result by describing the inference process as an auction of ideas, where distributed components compete exploiting their partial knowledge to shape responses. The proof spans three independent mathematical domains: mechanism design theory (Green-Laffont), the theory of proper scoring rules (Savage), and direct architectural analysis of transformers (Log-Sum-Exp convexity). In particular, we show how to quantify the creation of overconfident or intuitive responses-the signature of both hallucination and creativity, or imagination. To support this analysis, we introduce the complementary concepts of the semantic information measure and the emergence operator to model bounded reasoning in a general setting. We prove that while bounded reasoning generates accessible information, providing valuable insights and inspirations, the idealized unconstrained reasoning strictly preserves semantic content. By demonstrating that hallucination and imagination are mathematically identical phenomena-grounded in departures from truthfulness, semantic information conservation, revelation of relevant knowledge, and knowledge-constrained optimality-we offer a principled foundation for managing these behaviors in advanced AI systems. Finally, we present some speculative ideas to inspire evaluation and refinements of the proposed theory.

Enlace al artículo

https://arxiv.org/abs/2506.06382

Optimizadores fantásticos de preentrenamiento y dónde encontrarlos / Fantastic Pretraining Optimizers and Where to Find Them

Introducción al artículo

Los optimizadores de preentrenamiento desempeñan un papel importante en el entrenamiento de modelos de lenguaje a gran escala, y AdamW en particular ha sido el estándar durante mucho tiempo. Sin embargo, estudios recientes afirman que optimizadores alternativos ofrecen mejoras de velocidad de entre 1.4x y 2x, aunque muestran que estas afirmaciones en realidad están exageradas. Este estudio señala dos problemas principales que respaldan esas afirmaciones. Primero, el ajuste de hiperparámetros puede realizarse de forma desequilibrada; segundo, la configuración de evaluación puede ser limitada o inducir a conclusiones erróneas. Para abordar esto, los autores compararon sistemáticamente 10 optimizadores de deep learning en distintas escalas de modelo y proporciones entre datos y modelo.

La metodología central del estudio divide el marco de ajuste de hiperparámetros en tres etapas. En la primera, se ajustan finamente los hiperparámetros de cada optimizador para obtener el mejor rendimiento. En la segunda, se optimizan seleccionando solo las partes del ajuste de hiperparámetros que son necesarias para reducir los requisitos de memoria. Por último, en la tercera, se aplican leyes de escalado para predecir los valores óptimos de los hiperparámetros según el tamaño del modelo y el presupuesto de datos. Esta metodología garantiza comparaciones justas y reproducibles entre optimizadores, y los resultados destacan que los optimizadores basados en matrices muestran un rendimiento consistentemente mejor que los optimizadores basados en escalares.

Este estudio subraya la importancia del ajuste de hiperparámetros y la necesidad de evaluar en distintas escalas de modelo y proporciones entre datos y modelo, mostrando que los hiperparámetros óptimos para un optimizador pueden ser subóptimos para otro. Estos hallazgos contribuirán de forma importante a establecer criterios para el diseño y la evaluación de optimizadores en el futuro.

Resumen del artículo (Abstract)

AdamW ha sido durante mucho tiempo el optimizador dominante en el preentrenamiento de modelos de lenguaje, a pesar de las numerosas afirmaciones de que optimizadores alternativos ofrecen una aceleración de 1.4x a 2x. Sostenemos que dos deficiencias metodológicas han impedido comparaciones justas y dificultado su adopción práctica: (i) una optimización desigual de hiperparámetros y (ii) configuraciones de evaluación limitadas o engañosas. Para abordar estos dos problemas, realizamos un estudio sistemático de diez optimizadores de aprendizaje profundo en cuatro escalas de modelo (0.1B-1.2B parámetros) y proporciones datos-modelo (1-8x el óptimo de Chinchilla). Encontramos que las comparaciones justas e informativas requieren una optimización rigurosa de hiperparámetros y evaluaciones a lo largo de distintas escalas de modelo y proporciones datos-modelo, realizadas al final del entrenamiento. Primero, los hiperparámetros óptimos para un optimizador pueden ser subóptimos para otro, por lo que transferir hiperparámetros a ciegas no es justo. Segundo, la aceleración real de muchos optimizadores propuestos frente a líneas base bien ajustadas es menor de lo afirmado y disminuye con el tamaño del modelo, hasta quedar en solo 1.1x para modelos de 1.2B parámetros. Tercero, comparar checkpoints intermedios antes de alcanzar el presupuesto objetivo de entrenamiento puede ser engañoso, ya que el ranking entre dos optimizadores puede invertirse durante el entrenamiento debido al decaimiento de la tasa de aprendizaje. A través de nuestra investigación exhaustiva, encontramos que todos los optimizadores más rápidos, como Muon y Soap, usan matrices como precondicionadores, multiplicando los gradientes con matrices en lugar de escalares elemento por elemento. Sin embargo, la aceleración de los optimizadores basados en matrices es inversamente proporcional a la escala del modelo, disminuyendo de 1.4x sobre AdamW para modelos de 0.1B parámetros a apenas 1.1x para modelos de 1.2B parámetros.
> AdamW has long been the dominant optimizer in language model pretraining, despite numerous claims that alternative optimizers offer 1.4 to 2x speedup. We posit that two methodological shortcomings have obscured fair comparisons and hindered practical adoption: (i) unequal hyperparameter tuning and (ii) limited or misleading evaluation setups. To address these two issues, we conduct a systematic study of ten deep learning optimizers across four model scales (0.1B-1.2B parameters) and data-to-model ratios (1-8x the Chinchilla optimum). We find that fair and informative comparisons require rigorous hyperparameter tuning and evaluations across a range of model scales and data-to-model ratios, performed at the end of training. First, optimal hyperparameters for one optimizer may be suboptimal for another, making blind hyperparameter transfer unfair. Second, the actual speedup of many proposed optimizers over well-tuned baselines is lower than claimed and decreases with model size to only 1.1x for 1.2B parameter models. Thirdly, comparing intermediate checkpoints before reaching the target training budgets can be misleading, as rankings between two optimizers can flip during training due to learning rate decay. Through our thorough investigation, we find that all the fastest optimizers such as Muon and Soap, use matrices as preconditioners -- multiplying gradients with matrices rather than entry-wise scalars. However, the speedup of matrix-based optimizers is inversely proportional to model scale, decreasing from 1.4x over AdamW for 0.1B parameter models to merely 1.1x for 1.2B parameter models.

Enlace al artículo

https://arxiv.org/abs/2509.02046

Leer más

https://wandb.ai/marin-community/optimizer-scaling

Anemoi: servidor MCP para sistemas multiagente semidescentralizados basados en comunicación entre agentes / Anemoi: A Semi-Centralized Multi-agent Systems Based on Agent-to-Agent Communication MCP server from Coral Protocol

Introducción al artículo

Anemoi es un sistema multiagente semidescentralizado (Multi-Agent System, MAS) basado en el modelo de comunicación A2A (Agent-to-Agent) de Coral Protocol, que permite una coordinación eficiente de tareas mediante la colaboración directa entre agentes. Los MAS centralizados existentes funcionan con un agente planificador que coordina de forma unidireccional a múltiples agentes de trabajo, lo que genera problemas como la dependencia de las capacidades del planificador y la pérdida o redundancia de información causada por la comunicación limitada entre agentes. Anemoi fue diseñado para resolver estos problemas y ofrece una estructura en la que todos los agentes pueden monitorear el progreso en tiempo real, identificar cuellos de botella y proponer mejoras.

La clave de Anemoi es el uso del servidor MCP (Multi-Agent Communication Protocol) de comunicación A2A de Coral Protocol para facilitar un flujo de información fluido entre agentes. Este sistema combina un agente planificador con varios agentes de trabajo especializados por dominio, de modo que proporciona un plan inicial y permite que los trabajadores se coordinen directamente. Como resultado, se reduce la dependencia de un planificador centralizado, se habilitan actualizaciones adaptativas del plan y se minimiza la transferencia redundante de contexto, logrando una ejecución más eficiente en costos.

Anemoi fue evaluado en el benchmark GAIA y alcanzó una precisión de 52.73% usando un LLM pequeño (GPT-4.1-mini) como planificador. Esto supera en 9.09% al baseline open source más fuerte, OWL, que obtuvo 43.63% bajo la misma configuración.

Estos resultados muestran que el modelo de comunicación A2A semidescentralizado de Anemoi puede contribuir a mejorar el rendimiento de los sistemas multiagente.

Este estudio abre nuevas posibilidades para los sistemas multiagente al mejorar la colaboración directa y el flujo de información entre agentes, y se espera que haga una contribución importante al desarrollo futuro de sistemas de IA generalizados. La implementación de Anemoi está disponible públicamente en GitHub, lo que brinda a los investigadores la oportunidad de aprovechar este sistema para desarrollar diversas aplicaciones.

Resumen del artículo (Abstract)

Los avances recientes en los sistemas multiagente generalistas (MAS) han seguido en gran medida un paradigma de ingeniería de contexto más centralización, donde un agente planificador coordina múltiples agentes de trabajo mediante el paso unidireccional de prompts. Aunque es efectivo con modelos planificadores sólidos, este diseño presenta dos limitaciones críticas: (1) una fuerte dependencia de la capacidad del planificador, lo que provoca una degradación del rendimiento cuando un LLM más pequeño impulsa al planificador; y (2) una comunicación limitada entre agentes, donde la colaboración depende de la costosa concatenación de prompts y la inyección de contexto, lo que introduce redundancia y pérdida de información. Para abordar estos desafíos, proponemos Anemoi, un MAS sem centralizado construido sobre el servidor MCP de comunicación Agent-to-Agent (A2A) de Coral Protocol. A diferencia de los diseños tradicionales, Anemoi permite una colaboración estructurada y directa entre agentes, lo que permite que todos los agentes monitoreen el progreso, evalúen resultados, identifiquen cuellos de botella y propongan mejoras en tiempo real. Este paradigma reduce la dependencia de un único planificador, admite actualizaciones adaptativas del plan y minimiza el paso redundante de contexto, lo que da como resultado una ejecución más escalable y eficiente en costos. Evaluado en el benchmark GAIA, Anemoi logró una precisión de 52.73% con un LLM pequeño (GPT-4.1-mini) como planificador, superando al baseline open source más fuerte, OWL (43.63%), por +9.09% con la misma configuración de LLM. Nuestra implementación está disponible públicamente en https://github.com/Coral-Protocol/Anemoi.
> Recent advances in generalist multi-agent systems (MAS) have largely followed a context-engineering plus centralized paradigm, where a planner agent coordinates multiple worker agents through unidirectional prompt passing. While effective under strong planner models, this design suffers from two critical limitations: (1) strong dependency on the planner's capability, which leads to degraded performance when a smaller LLM powers the planner; and (2) limited inter-agent communication, where collaboration relies on costly prompt concatenation and context injection, introducing redundancy and information loss. To address these challenges, we propose Anemoi, a semi-centralized MAS built on the Agent-to-Agent (A2A) communication MCP server from Coral Protocol. Unlike traditional designs, Anemoi enables structured and direct inter-agent collaboration, allowing all agents to monitor progress, assess results, identify bottlenecks, and propose refinements in real time. This paradigm reduces reliance on a single planner, supports adaptive plan updates, and minimizes redundant context passing, resulting in more scalable and cost-efficient execution. Evaluated on the GAIA benchmark, Anemoi achieved 52.73% accuracy with a small LLM (GPT-4.1-mini) as the planner, surpassing the strongest open-source baseline OWL (43.63%) by +9.09% under identical LLM settings. Our implementation is publicly available at https://github.com/Coral-Protocol/Anemoi.

Enlace al artículo

https://arxiv.org/abs/2508.17068

Leer más

https://github.com/Coral-Protocol/Anemoi

SparseLoCo para el preentrenamiento de LLM con eficiencia de comunicación / Communication Efficient LLM Pre-training with SparseLoCo

Introducción del artículo

Mejorar la eficiencia de comunicación en el proceso de preentrenamiento de los modelos de lenguaje grandes (LLM) es un tema de investigación muy importante. Los algoritmos recientes de aprendizaje distribuido han despertado gran interés porque son útiles para entrenar LLM en entornos con ancho de banda limitado entre centros de datos o a través de internet. Sin embargo, los métodos existentes todavía requieren transmitir el gradiente completo del modelo, lo que puede generar cuellos de botella de comunicación y provocar una degradación del rendimiento. Para resolver este problema, SparseLoCo, propuesto como un algoritmo de aprendizaje eficiente en comunicación, presenta un método que utiliza sparsificación Top-k y cuantización de 2 bits para lograr tasas de compresión extremas mientras mejora el rendimiento.

La innovación central de SparseLoCo consiste en aproximar el momentum externo combinando feedback de error con una sparsificación agresiva. Con ello, es posible mejorar el rendimiento del modelo al mismo tiempo que se reduce el costo de comunicación. Los resultados del estudio muestran empíricamente que SparseLoCo ofrece ventajas significativas tanto en rendimiento como en costo de comunicación bajo diversos entornos con restricciones de comunicación. En particular, con una sparsidad de 1-3% y cuantización de 2 bits, mostró resultados que mantienen o mejoran el rendimiento mientras reducen de forma notable el costo de comunicación frente al método DDP (Distributed Data Parallel) existente.

Este estudio propone un nuevo método para aumentar la eficiencia de comunicación en el preentrenamiento de LLM y plantea el potencial de desarrollo futuro de SparseLoCo mediante más experimentos y optimizaciones. Se espera que SparseLoCo haga una contribución importante para mejorar la eficiencia del entrenamiento de modelos a gran escala, y que ayude a marcar una nueva dirección para la investigación y el desarrollo de LLM.

Resumen (Abstract)

Los algoritmos de entrenamiento distribuido eficientes en comunicación han recibido una atención considerable recientemente debido a sus beneficios para entrenar Large Language Models (LLM) en entornos con limitaciones de ancho de banda, como entre centros de datos y a través de internet. Aunque estos métodos reducen la frecuencia de comunicación, normalmente aún requieren comunicar una copia completa de los gradientes del modelo, lo que genera un cuello de botella de comunicación incluso en enlaces entre centros de datos. Además, pueden degradar ligeramente el rendimiento en comparación con una línea base ingenua de AdamW DDP. Aunque la cuantización y la retroalimentación de error suelen aplicarse para reducir el tamaño del pseudogradiente, en el contexto del preentrenamiento de LLM los enfoques existentes no han logrado aprovechar adicionalmente la esparsificación y han obtenido una cuantización limitada. En este trabajo, presentamos SparseLoCo, un algoritmo de entrenamiento eficiente en comunicación para LLM que aprovecha eficazmente la esparsificación Top-k y la cuantización para alcanzar relaciones de compresión extremas de hasta 1-3% de esparsidad y cuantización de 2 bits, superando al mismo tiempo a DiLoCo de precisión completa. Nuestras observaciones clave son que el momentum externo puede aproximarse localmente mediante una retroalimentación de error combinada con esparsidad agresiva, y que la agregación dispersa puede de hecho mejorar el rendimiento del modelo. Demostramos empíricamente, en una variedad de entornos de entrenamiento de LLM con restricciones de comunicación, que SparseLoCo ofrece beneficios significativos tanto en rendimiento como en costo de comunicación.
> Communication-efficient distributed training algorithms have received considerable interest recently due to their benefits for training Large Language Models (LLMs) in bandwidth-constrained settings, such as across data centers and over the internet. Despite reducing communication frequency, these methods still typically require communicating a full copy of the model's gradients-resulting in a communication bottleneck even for cross-datacenter links. Furthermore, they can slightly degrade performance compared to a naive AdamW DDP baseline. While quantization and error feedback are often applied to reduce the pseudo-gradient's size, in the context of LLM pre-training, existing approaches have been unable to additionally leverage sparsification and have obtained limited quantization. In this work, we introduce SparseLoCo, a communication-efficient training algorithm for LLMs that effectively leverages Top-k sparsification and quantization to reach extreme compression ratios of up to 1-3% sparsity and 2-bit quantization while outperforming full-precision DiLoCo. Our key observations are that outer momentum can be locally approximated by an error feedback combined with aggressive sparsity and that sparse aggregation can actually improve model performance. We empirically demonstrate in a range of communication-constrained LLM training settings that SparseLoCo provides significant benefits in both performance and communication cost.

Enlace al artículo

https://arxiv.org/abs/2508.15706

Enrutamiento adaptativo de LLM bajo restricciones presupuestarias / Adaptive LLM Routing under Budget Constraints

Introducción del artículo

Los avances en los Large Language Models (LLM) han revolucionado el campo del procesamiento de lenguaje natural, pero el alto costo de estos modelos y la necesidad de responder adecuadamente a distintos tipos de consultas siguen siendo desafíos. En este estudio, reformulamos el problema del enrutamiento de LLM como un problema de bandido contextual y proponemos Preference-prior Informed LinUCB for Adaptive Routing (PILOT), un nuevo algoritmo que selecciona el LLM óptimo bajo restricciones presupuestarias. Los enfoques tradicionales de aprendizaje supervisado tienen la limitación de requerir grandes conjuntos de datos etiquetados, y este trabajo desarrolla una metodología que ajusta dinámicamente la selección de LLM mediante retroalimentación del usuario para superar esas limitaciones.

PILOT consta de dos etapas principales. En la primera, se aprovechan datos offline de preferencias humanas para construir un espacio de embeddings compartido que refleje la afinidad entre las consultas y los LLM. En este proceso, se minimiza la triplet loss para aprender de manera efectiva la relación entre consultas y LLM. En la segunda etapa, se integra retroalimentación online de bandido para seleccionar el LLM adecuado para cada consulta y observar la recompensa correspondiente, mejorando así el rendimiento de forma continua. Este enfoque permite una asignación flexible de recursos teniendo en cuenta el presupuesto y ofrece la capacidad de adaptarse a diversas necesidades de los usuarios.

La principal contribución de este estudio es la formalización del problema de enrutamiento de LLM considerando restricciones presupuestarias y la propuesta del algoritmo PILOT para resolverlo. Los resultados experimentales muestran que PILOT supera a las líneas base de bandido existentes en diversos conjuntos de datos y logra maximizar la eficiencia de costos. Estos hallazgos representan una contribución importante para el despliegue y uso práctico de los LLM, y como dirección futura se propone mejorar la capacidad de adaptación a distintas necesidades de los usuarios y ampliar su aplicabilidad a más conjuntos de datos.

Resumen(Abstract)

Los modelos de lenguaje grandes (LLM) han revolucionado el procesamiento de lenguaje natural, pero sus capacidades y costos variables plantean desafíos en las aplicaciones prácticas. El enrutamiento de LLM aborda esto seleccionando dinámicamente el LLM más adecuado para cada consulta/tarea. Los enfoques anteriores trataban esto como un problema de aprendizaje supervisado, asumiendo un conocimiento completo de las combinaciones óptimas consulta-LLM. Sin embargo, los escenarios del mundo real carecen de estos mapeos integrales y se enfrentan a consultas de usuarios en evolución. Por ello, proponemos estudiar el enrutamiento de LLM como un problema de bandido contextual, lo que permite la toma de decisiones adaptativa usando retroalimentación de bandido sin requerir inferencia exhaustiva sobre todos los LLM para todas las consultas, a diferencia del enrutamiento supervisado. Para abordar este problema, desarrollamos un espacio de embeddings compartido para consultas y LLM, donde los embeddings de consultas y LLM están alineados para reflejar su afinidad. Este espacio se aprende inicialmente a partir de datos offline de preferencias humanas y se refina mediante retroalimentación online de bandido. Materializamos esta idea mediante Preference-prior Informed Linucb fOr adaptive rouTing (PILOT), una nueva extensión de LinUCB. Para manejar diversos presupuestos de usuario para el enrutamiento de modelos, introducimos una política de costos online modelada como un problema de mochila de opción múltiple, lo que garantiza un enrutamiento eficiente en recursos.
> Large Language Models (LLMs) have revolutionized natural language processing, but their varying capabilities and costs pose challenges in practical applications. LLM routing addresses this by dynamically selecting the most suitable LLM for each query/task. Previous approaches treat this as a supervised learning problem, assuming complete knowledge of optimal query-LLM pairings. However, real-world scenarios lack such comprehensive mappings and face evolving user queries. We thus propose to study LLM routing as a contextual bandit problem, enabling adaptive decision-making using bandit feedback without requiring exhaustive inference across all LLMs for all queries (in contrast to supervised routing). To address this problem, we develop a shared embedding space for queries and LLMs, where query and LLM embeddings are aligned to reflect their affinity. This space is initially learned from offline human preference data and refined through online bandit feedback. We instantiate this idea through Preference-prior Informed Linucb fOr adaptive rouTing (PILOT), a novel extension of LinUCB. To handle diverse user budgets for model routing, we introduce an online cost policy modeled as a multi-choice knapsack problem, ensuring resource-efficient routing.

Enlace al artículo

https://arxiv.org/abs/2508.21141

Generación eficiente de conjuntos de imágenes en difusión texto-imagen mediante reutilización de cómputo / Reusing Computation in Text-to-Image Diffusion for Efficient Generation of Image Sets

Introducción del artículo

Los modelos de difusión texto-imagen son muy efectivos para generar imágenes de alta calidad, pero el alto costo computacional que implica este proceso se ha convertido en un gran desafío. Las investigaciones previas se han centrado principalmente en mejorar la eficiencia durante la generación de imágenes individuales, pero este estudio propone un nuevo enfoque para reducir la redundancia entre prompts correlacionados. El método propuesto aprovecha la naturaleza de grueso a fino de los modelos de difusión para capturar estructuras compartidas entre prompts similares en las primeras etapas de eliminación de ruido.

Este estudio adopta un enfoque que no requiere entrenamiento, agrupando prompts según su similitud semántica y compartiendo cómputo en las etapas iniciales de la difusión. Los resultados experimentales mostraron que, en modelos condicionados con embeddings de imagen, este método puede reducir el costo computacional al menos en un 50% mientras mantiene o mejora la calidad de imagen. Además, al aprovechar la información previa de texto a imagen de UnClip, se optimizó la asignación de etapas de difusión para aumentar aún más la eficiencia.

El método propuesto puede integrarse sin problemas con los pipelines existentes de generación texto-imagen, y puede escalar a grandes conjuntos de prompts, lo que puede contribuir a reducir la carga ambiental y financiera. Se espera que este estudio aporte una perspectiva importante sobre la dinámica generativa de los modelos de difusión y sirva como base relevante para explorar futuras estrategias de optimización sostenible.

Resumen del artículo (Abstract)

Los modelos de difusión texto-imagen permiten la generación de imágenes de alta calidad, pero son costosos computacionalmente. Mientras que los trabajos previos se han centrado en optimizar la eficiencia por inferencia, nosotros exploramos un enfoque ortogonal para reducir la redundancia entre prompts correlacionados. Nuestro método aprovecha la naturaleza de grueso a fino de los modelos de difusión para capturar estructuras compartidas entre prompts similares en las primeras etapas de eliminación de ruido. Proponemos un enfoque sin entrenamiento que agrupa prompts con base en su similitud semántica y comparte cómputo en las etapas iniciales de difusión. Los experimentos muestran que, para modelos entrenados condicionados con embeddings de imagen, nuestro enfoque reduce significativamente el costo computacional mientras mejora la calidad de imagen. Al aprovechar la información previa de texto a imagen de UnClip, mejoramos la asignación de etapas de difusión para lograr una mayor eficiencia. Nuestro método se integra sin problemas con los pipelines existentes, escala con conjuntos de prompts y reduce la carga ambiental y financiera de la generación texto-imagen a gran escala. Página del proyecto: https://ddecatur.github.io/hierarchical-diffusion/
> Text-to-image diffusion models enable high-quality image generation but are computationally expensive. While prior work optimizes per-inference efficiency, we explore an orthogonal approach: reducing redundancy across correlated prompts. Our method leverages the coarse-to-fine nature of diffusion models, where early denoising steps capture shared structures among similar prompts. We propose a training-free approach that clusters prompts based on semantic similarity and shares computation in early diffusion steps. Experiments show that for models trained conditioned on image embeddings, our approach significantly reduces compute cost while improving image quality. By leveraging UnClip's text-to-image prior, we enhance diffusion step allocation for greater efficiency. Our method seamlessly integrates with existing pipelines, scales with prompt sets, and reduces the environmental and financial burden of large-scale text-to-image generation. Project page: https://ddecatur.github.io/hierarchical-diffusion/

Enlace al artículo

https://arxiv.org/abs/2508.21032

Lectura adicional

https://ddecatur.github.io/hierarchical-diffusion/

La atención es una spline cúbica suavizada / Attention is a smoothed cubic spline

Introducción del artículo

En la arquitectura transformer, el módulo de atención, pese a su importancia, sigue siendo en gran medida un territorio desconocido. Este estudio ofrece nuevas perspectivas desde el punto de vista de la teoría clásica de aproximación al interpretar este módulo de atención como una spline cúbica suave. Los autores muestran que, usando la función de activación ReLU, la atención, la atención enmascarada y la atención encoder-decoder pueden representarse todas como splines cúbicas. Este enfoque tiene implicaciones importantes, dado que todos los componentes de un transformer están formados por combinaciones de distintos módulos de atención y redes neuronales feed-forward.

La investigación destaca, basándose en la conjetura de Pierce-Birkhoff, que toda spline puede representarse mediante un encoder con activación ReLU. Con ello, aclara la naturaleza matemática del módulo de atención y profundiza la comprensión estructural de los transformers a través de las splines cúbicas. Además, plantea que, al reemplazar ReLU por funciones de activación suaves como SoftMax para obtener una versión suave de tipo $C^\infty$, es posible recuperar los modelos transformer existentes.

Este trabajo profundiza la comprensión de los modelos de aprendizaje automático existentes mediante una interpretación matemática del mecanismo de atención, y explica la esencia de la arquitectura transformer usando un objeto matemático bien conocido: la spline. Los resultados experimentales demuestran que el modelo de spline cúbica propuesto supera a los modelos existentes, probando que la interpretación matemática del módulo de atención tiene un impacto positivo en el rendimiento real. Se espera que estos hallazgos contribuyan al desarrollo futuro de los mecanismos de atención. Este estudio ofrece una nueva forma de mirar el módulo de atención de los transformers y será una base importante para investigadores del área.

Resumen del artículo (Abstract)

Destacamos una idea quizá importante pero no observada hasta ahora: el módulo de atención en un transformer es una spline cúbica suavizada. Visto de esta manera, este componente misterioso pero crucial de un transformer se convierte en un desarrollo natural de una noción antigua profundamente arraigada en la teoría clásica de aproximación. Más precisamente, mostramos que con activación ReLU, la atención, la atención enmascarada y la atención encoder-decoder son todas splines cúbicas. Como todos los componentes de un transformer se construyen a partir de composiciones de varios módulos de atención (= splines cúbicas) y redes neuronales feed-forward (= splines lineales), todos sus componentes —encoder, decoder y bloques encoder-decoder; encoders y decoders multicapa; el transformer mismo— son splines cúbicas o de orden superior. Si asumimos la conjetura de Pierce-Birkhoff, entonces también se cumple la recíproca, es decir, toda spline es un encoder activado con ReLU. Dado que una spline generalmente es solo $C^2$, una manera de obtener una versión suavizada $C^\infty$ es reemplazar ReLU por una activación suave; y si esta activación se elige como SoftMax, recuperamos el transformer original propuesto por Vaswani et al. Esta idea arroja luz sobre la naturaleza del transformer al describirlo por completo en términos de splines, uno de los objetos más conocidos y estudiados a fondo en la matemática aplicada.
> We highlight a perhaps important but hitherto unobserved insight: The attention module in a transformer is a smoothed cubic spline. Viewed in this manner, this mysterious but critical component of a transformer becomes a natural development of an old notion deeply entrenched in classical approximation theory. More precisely, we show that with ReLU-activation, attention, masked attention, encoder-decoder attention are all cubic splines. As every component in a transformer is constructed out of compositions of various attention modules (= cubic splines) and feed forward neural networks (= linear splines), all its components -- encoder, decoder, and encoder-decoder blocks; multilayered encoders and decoders; the transformer itself -- are cubic or higher-order splines. If we assume the Pierce-Birkhoff conjecture, then the converse also holds, i.e., every spline is a ReLU-activated encoder. Since a spline is generally just $C^2$, one way to obtain a smoothed $C^\infty$-version is by replacing ReLU with a smooth activation; and if this activation is chosen to be SoftMax, we recover the original transformer as proposed by Vaswani et al. This insight sheds light on the nature of the transformer by casting it entirely in terms of splines, one of the best known and thoroughly understood objects in applied mathematics.

Enlace al artículo

https://arxiv.org/abs/2408.09624

$Mem^p$: exploración de la memoria procedimental de agentes / $Mem^p$: Exploring Agent Procedural Memory

Introducción del artículo

Los agentes basados en modelos de lenguaje grandes (LLM) muestran un rendimiento sobresaliente en diversas tareas, pero la memoria procedimental existente presenta limitaciones porque suele diseñarse manualmente o depender de parámetros estáticos. Este estudio propone $Mem^p$ como una metodología innovadora para dotar a los agentes de una memoria procedimental de por vida, aprendible y actualizable. $Mem^p$ destila trayectorias pasadas de agentes en instrucciones detalladas paso a paso y scripts de alto nivel, y explora estrategias para la construcción (Build), recuperación (Retrieval) y actualización (Update) de la memoria procedimental.

El núcleo de $Mem^p$ es un régimen dinámico que actualiza, revisa y descarta continuamente la memoria procedimental. Gracias a ello, el agente puede hacer evolucionar su repositorio de memoria según nuevas experiencias, y las evaluaciones empíricas confirmaron mejoras graduales en la tasa de éxito y la eficiencia del agente en TravelPlanner y ALFWorld. En particular, la memoria procedimental construida con modelos más potentes conserva su valor y, al transferirse a modelos más débiles, también produce mejoras significativas de rendimiento.

El proceso de recuperación de la memoria procedimental es esencial para que el agente encuentre de forma efectiva las experiencias más similares ante nuevas tareas. Este proceso se implementa midiendo la similitud mediante modelos de vector embeddings y recuperando la memoria más adecuada. Además, el mecanismo de actualización de la memoria procedimental está diseñado para permitir adiciones, eliminaciones y modificaciones dinámicas conforme aumenta la cantidad de tareas realizadas por el agente. Este enfoque integral contribuye a maximizar la capacidad de aprendizaje del agente y a mejorar su capacidad para ejecutar tareas en diversos entornos.

Al mejorar de forma continua la memoria procedimental del agente, $Mem^p$ ofrece implicaciones importantes para el desarrollo futuro de sistemas de agentes y subraya la importancia de una memoria procedimental aprendible. Se espera que estos resultados contribuyan de forma innovadora a maximizar el rendimiento de los agentes.

Resumen del artículo (Abstract)

Los agentes basados en modelos de lenguaje grandes (LLM) sobresalen en diversas tareas, pero sufren de una memoria procedimental frágil, diseñada manualmente o entrelazada con parámetros estáticos. Este estudio investiga estrategias para dotar a los agentes de una memoria procedimental que pueda aprenderse, actualizarse y usarse de por vida. Proponemos $Mem^p$, que destila trayectorias pasadas del agente tanto en instrucciones detalladas paso a paso como en abstracciones de nivel superior similares a guiones, y exploramos el impacto de distintas estrategias para la construcción (Build), recuperación (Retrieval) y actualización (Update) de la memoria procedimental. Combinado con un esquema dinámico que actualiza, corrige y descarta continuamente su contenido, este repositorio evoluciona junto con la nueva experiencia. Las evaluaciones empíricas en TravelPlanner y ALFWorld muestran que, a medida que se refina el repositorio de memoria, los agentes logran tasas de éxito cada vez mayores y una mayor eficiencia en tareas análogas. Además, la memoria procedimental construida a partir de un modelo más potente conserva su valor, y transferirla a un modelo más débil produce mejoras sustanciales de rendimiento.
> Large Language Models (LLMs) based agents excel at diverse tasks, yet they suffer from brittle procedural memory that is manually engineered or entangled in static parameters. In this work, we investigate strategies to endow agents with a learnable, updatable, and lifelong procedural memory. We propose $Mem^p$ that distills past agent trajectories into both fine-grained, step-by-step instructions and higher-level, script-like abstractions, and explore the impact of different strategies for Build, Retrieval, and Update of procedural memory. Coupled with a dynamic regimen that continuously updates, corrects, and deprecates its contents, this repository evolves in lockstep with new experience. Empirical evaluation on TravelPlanner and ALFWorld shows that as the memory repository is refined, agents achieve steadily higher success rates and greater efficiency on analogous tasks. Moreover, procedural memory built from a stronger model retains its value: migrating the procedural memory to a weaker model yields substantial performance gains.

Enlace al artículo

https://arxiv.org/abs/2508.06433

Momento AlphaGo para el descubrimiento de arquitecturas de modelos / AlphaGo Moment for Model Architecture Discovery

Introducción del artículo

ASI-Arch es un sistema de superinteligencia artificial (ASI4AI) que descubre de forma completamente autónoma arquitecturas innovadoras en el campo de la búsqueda de arquitecturas de redes neuronales. Más allá de la búsqueda de arquitecturas neuronales (NAS) limitada a espacios de búsqueda definidos por humanos, cambia el paradigma de la optimización automática a la innovación automática, llevando a cabo de manera independiente la formulación de hipótesis, implementación, entrenamiento y validación de nuevos conceptos estructurales. A lo largo de 20,000 horas de GPU y 1,773 experimentos, descubrió 106 arquitecturas de atención lineal (linear attention) de última generación, presentando nuevos principios de diseño que superan las bases creadas por humanos. Además, propone leyes de escalado empíricas para el propio descubrimiento científico, demostrando que el progreso de la investigación puede transformarse de un proceso limitado por la cognición humana a uno escalable mediante recursos computacionales.

Resumen del artículo (Abstract)

Mientras los sistemas de AI muestran capacidades que mejoran exponencialmente, el ritmo de la investigación en AI sigue estando linealmente limitado por la capacidad cognitiva humana, lo que crea un cuello de botella de desarrollo cada vez más grave. En este artículo presentamos ASI-Arch, la primera demostración de Artificial Superintelligence for AI research (ASI4AI) en el dominio crítico del descubrimiento de arquitecturas neuronales: un sistema totalmente autónomo que rompe esta restricción fundamental al permitir que la AI lleve a cabo su propia innovación arquitectónica. Más allá del tradicional Neural Architecture Search (NAS), que está fundamentalmente limitado a explorar espacios definidos por humanos, introducimos un cambio de paradigma de la optimización automatizada a la innovación automatizada. ASI-Arch puede realizar investigación científica end-to-end en el dominio del descubrimiento de arquitecturas, formulando de manera autónoma nuevos conceptos arquitectónicos, implementándolos como código ejecutable, entrenándolos y validando empíricamente su desempeño mediante experimentación rigurosa y experiencia previa. ASI-Arch realizó 1,773 experimentos autónomos a lo largo de 20,000 horas de GPU, lo que culminó en el descubrimiento de 106 arquitecturas innovadoras y state-of-the-art (SOTA) de linear attention. Al igual que la jugada 37 (Move 37) de AlphaGo, que reveló ideas estratégicas inesperadas invisibles para los jugadores humanos, las arquitecturas descubiertas por esta AI demuestran principios de diseño emergentes que superan sistemáticamente las líneas base diseñadas por humanos e iluminan caminos antes desconocidos para la innovación arquitectónica. En particular, establecemos la primera ley de escalamiento empírica para el propio descubrimiento científico, demostrando que los avances arquitectónicos pueden escalar computacionalmente y transformando el progreso de la investigación de un proceso limitado por humanos a uno escalable mediante cómputo. Este artículo ofrece un análisis integral de los patrones de diseño emergentes y de las capacidades de investigación autónoma que hicieron posibles estos avances, y presenta un plano para sistemas de AI autoacelerados.
> While AI systems demonstrate exponentially improving capabilities, the pace of AI research itself remains linearly bounded by human cognitive capacity, creating an increasingly severe development bottleneck. We present ASI-Arch, the first demonstration of Artificial Superintelligence for AI research (ASI4AI) in the critical domain of neural architecture discovery--a fully autonomous system that shatters this fundamental constraint by enabling AI to conduct its own architectural innovation. Moving beyond traditional Neural Architecture Search (NAS), which is fundamentally limited to exploring human-defined spaces, we introduce a paradigm shift from automated optimization to automated innovation. ASI-Arch can conduct end-to-end scientific research in the domain of architecture discovery, autonomously hypothesizing novel architectural concepts, implementing them as executable code, training and empirically validating their performance through rigorous experimentation and past experience. ASI-Arch conducted 1,773 autonomous experiments over 20,000 GPU hours, culminating in the discovery of 106 innovative, state-of-the-art (SOTA) linear attention architectures. Like AlphaGo's Move 37 that revealed unexpected strategic insights invisible to human players, our AI-discovered architectures demonstrate emergent design principles that systematically surpass human-designed baselines and illuminate previously unknown pathways for architectural innovation. Crucially, we establish the first empirical scaling law for scientific discovery itself--demonstrating that architectural breakthroughs can be scaled computationally, transforming research progress from a human-limited to a computation-scalable process. We provide comprehensive analysis of the emergent design patterns and autonomous research capabilities that enabled these breakthroughs, establishing a blueprint for self-accelerating AI systems.

Enlace al artículo

https://arxiv.org/abs/2507.18074

Inducción de capacidades en modelos de lenguaje mediante aprendizaje no supervisado / Unsupervised Elicitation of Language Models

Introducción del artículo

Al adaptar un modelo de lenguaje preentrenado a una tarea específica, los métodos existentes requieren supervisión humana, pero en modelos con capacidades sobrehumanas la supervisión humana de alta calidad resulta difícil o imposible. Para resolver esto, se propone Internal Coherence Maximization (ICM), un algoritmo de aprendizaje no supervisado que ajusta finamente el modelo usando etiquetas generadas por el propio modelo sin supervisión externa. ICM muestra un desempeño igual o superior al aprendizaje basado en supervisión humana en varios benchmarks, y en particular obtiene mejores resultados que el aprendizaje con etiquetas humanas en tareas con capacidades sobrehumanas. Además, utilizando este método se entrenaron modelos de recompensa y sistemas auxiliares para modelos de lenguaje state-of-the-art, demostrando mejoras de rendimiento frente a modelos supervisados por humanos.

Resumen del artículo (Abstract)

Para ajustar los modelos de lenguaje preentrenados a tareas específicas, el paradigma actual de post-training depende de que los humanos especifiquen los comportamientos deseados. Sin embargo, en el caso de modelos con capacidades superhumanas, obtener supervisión humana de alta calidad es difícil o imposible. Para abordar este problema, proponemos un nuevo algoritmo no supervisado, Internal Coherence Maximization (ICM), que ajusta modelos de lenguaje preentrenados usando etiquetas generadas por el propio modelo, \emph{without external supervision}. En las tareas de GSM8k-verification, TruthfulQA y modelado de recompensas de Alpaca, este método iguala el rendimiento del entrenamiento con supervisión dorada (golden supervision) y supera al entrenamiento con supervisión humana obtenida por crowdsourcing. En tareas donde las capacidades de los LLM son marcadamente superhumanas, este método puede extraer esas capacidades de forma mucho más efectiva que el entrenamiento con etiquetas humanas. Por último, mostramos que este método puede mejorar el entrenamiento de LLM de frontera. Usamos este método para entrenar un modelo de recompensas no supervisado y, mediante aprendizaje por refuerzo, entrenamos un asistente basado en Claude 3.5 Haiku. Tanto este modelo de recompensas como el asistente muestran un rendimiento superior al de sus equivalentes con supervisión humana.
> To steer pretrained language models for downstream tasks, today's post-training paradigm relies on humans to specify desired behaviors. However, for models with superhuman capabilities, it is difficult or impossible to get high-quality human supervision. To address this challenge, we introduce a new unsupervised algorithm, Internal Coherence Maximization (ICM), to fine-tune pretrained language models on their own generated labels, \emph{without external supervision}. On GSM8k-verification, TruthfulQA, and Alpaca reward modeling tasks, our method matches the performance of training on golden supervision and outperforms training on crowdsourced human supervision. On tasks where LMs' capabilities are strongly superhuman, our method can elicit those capabilities significantly better than training on human labels. Finally, we show that our method can improve the training of frontier LMs: we use our method to train an unsupervised reward model and use reinforcement learning to train a Claude 3.5 Haiku-based assistant. Both the reward model and the assistant outperform their human-supervised counterparts.

Enlace al artículo

https://arxiv.org/abs/2506.10139

Este texto está basado en un resumen elaborado con un modelo GPT, por lo que puede haber partes resumidas de forma distinta al contenido o la intención del texto original. Si el tema te interesa, te recomendamos consultar también el texto original. Si mientras lees encuentras contenido extraño o incorrecto, te agradeceremos que nos lo hagas saber en los comentarios. 🤗
⚠️Publicidad⚠️ ¿Te resultó útil este artículo recopilado por 🔥la comunidad de usuarios de PyTorch en Corea🇰🇷? Si te registras como miembro, te enviaremos los artículos principales por correo electrónico💌. (Por defecto es Weekly, pero también puedes cambiarlo a Daily.)

[2025/09/01 ~ 07] Artículos de AI/ML que vale la pena revisar esta semana