[2025/09/08 ~ 14] Artículos de AI/ML que vale la pena revisar esta semana
(discuss.pytorch.kr)[2025/09/08 ~ 14] Artículos de AI/ML que vale la pena revisar esta semana
PyTorchKR🔥🇰🇷 🤔💭
1️⃣ Alucinaciones en los modelos de lenguaje: investigaciones recientes destacan que los modelos de lenguaje de gran escala muestran el fenómeno de las “alucinaciones”, en el que generan afirmaciones plausibles pero inexactas cuando no están seguros y terminan adivinando. Esto se debe a que los procesos de entrenamiento y evaluación tienden a recompensar las conjeturas en lugar de reconocer la incertidumbre, y se sostiene que para resolver estas alucinaciones es necesario modificar el sistema de puntuación de los benchmarks existentes.
2️⃣ Comprensión de la estructura semántica: cada vez hay más estudios que analizan cómo se estructura la relación semántica en las matrices de embeddings de los modelos de lenguaje de gran escala. Estas investigaciones destacan el hallazgo de una estructura de baja dimensionalidad similar a la evaluación semántica humana, y muestran que la proyección según las direcciones semánticas de las palabras presenta una alta correlación con las evaluaciones humanas. Esto sugiere que los modelos de lenguaje procesan la información semántica de una manera parecida al lenguaje humano.
3️⃣ Mejora del razonamiento avanzado mediante aprendizaje por refuerzo: avanza activamente la investigación que busca mejorar las capacidades de razonamiento complejo de los modelos de lenguaje de gran escala mediante aprendizaje por refuerzo (RL). En particular, se han propuesto métodos para ajustar profundidad y amplitud con el fin de aumentar la eficiencia de los algoritmos de RL, y se ha demostrado que esto cumple un papel importante para que el modelo explore y domine estrategias avanzadas de planificación. Este enfoque se está desarrollando a través de nuevos paradigmas como RLVR (aprendizaje por refuerzo con recompensas verificables).
Por qué los modelos de lenguaje alucinan / Why Language Models Hallucinate (feat. OpenAI)
Introducción al artículo
Los modelos de lenguaje de gran escala tienden a adivinar la respuesta en situaciones de incertidumbre, y por eso se produce el fenómeno de las “alucinaciones”, en el que generan información plausible pero incorrecta. Estas alucinaciones siguen siendo un problema incluso en los modelos más recientes y actúan como una de las principales causas que afectan la confiabilidad. Este estudio encuentra la razón de las alucinaciones en que los procesos de entrenamiento y evaluación recompensan las conjeturas en lugar de reconocer la incertidumbre. En particular, sostiene que las alucinaciones se originan en errores de clasificación binaria y aparecen por una presión estadística natural cuando las afirmaciones incorrectas no pueden distinguirse de los hechos.
En la etapa de preentrenamiento, los modelos de lenguaje aprenden la distribución del lenguaje a partir de grandes volúmenes de texto, y en ese proceso pueden producirse errores. Esos errores se refuerzan de forma continua por métodos de evaluación que castigan las respuestas inciertas. Los investigadores señalan que los modelos de lenguaje tienden a evitar mostrar incertidumbre y a adivinar para obtener mejores resultados en las pruebas, y argumentan que esta tendencia es la causa de que las alucinaciones persistan.
Este artículo, publicado por OpenAI, identifica las causas estadísticas de las alucinaciones y analiza su origen en el preentrenamiento y su persistencia en el posentrenamiento. Además, propone que modificar los métodos de evaluación existentes puede ser una forma efectiva de mitigar el fenómeno de las alucinaciones. Este enfoque ofrece un camino para aumentar la confiabilidad de los modelos de lenguaje y, más allá de eso, avanzar hacia sistemas de inteligencia artificial más confiables. Los resultados del estudio pueden servir como base importante para comprender y mejorar el fenómeno de las alucinaciones en los modelos de lenguaje.
Resumen del artículo (Abstract)
Al igual que los estudiantes cuando se enfrentan a preguntas difíciles en un examen, los modelos de lenguaje de gran escala a veces adivinan cuando no están seguros, produciendo afirmaciones plausibles pero incorrectas en lugar de reconocer su incertidumbre. Estas “alucinaciones” persisten incluso en los sistemas más avanzados y socavan la confianza. Sostenemos que los modelos de lenguaje alucinan porque los procedimientos de entrenamiento y evaluación recompensan adivinar en vez de reconocer la incertidumbre, y analizamos las causas estadísticas de las alucinaciones en el pipeline moderno de entrenamiento. Las alucinaciones no tienen por qué ser misteriosas. Simplemente se originan como errores en la clasificación binaria. Si las afirmaciones incorrectas no pueden distinguirse de los hechos, entonces las alucinaciones en los modelos de lenguaje preentrenados surgirán por presiones estadísticas naturales. También sostenemos que las alucinaciones persisten debido a la forma en que se califican la mayoría de las evaluaciones. Los modelos de lenguaje están optimizados para ser buenos presentando exámenes, y adivinar cuando no están seguros mejora su desempeño. Esta “epidemia” de castigar las respuestas inciertas solo puede abordarse mediante una mitigación sociotécnica: modificar la puntuación de los benchmarks existentes, que están desalineados pero dominan los leaderboards, en lugar de introducir evaluaciones adicionales de alucinaciones. Este cambio podría orientar al campo hacia sistemas de IA más confiables.
> Like students facing hard exam questions, large language models sometimes guess when uncertain, producing plausible yet incorrect statements instead of admitting uncertainty. Such "hallucinations" persist even in state-of-the-art systems and undermine trust. We argue that language models hallucinate because the training and evaluation procedures reward guessing over acknowledging uncertainty, and we analyze the statistical causes of hallucinations in the modern training pipeline. Hallucinations need not be mysterious -- they originate simply as errors in binary classification. If incorrect statements cannot be distinguished from facts, then hallucinations in pretrained language models will arise through natural statistical pressures. We then argue that hallucinations persist due to the way most evaluations are graded -- language models are optimized to be good test-takers, and guessing when uncertain improves test performance. This "epidemic" of penalizing uncertain responses can only be addressed through a socio-technical mitigation: modifying the scoring of existing benchmarks that are misaligned but dominate leaderboards, rather than introducing additional hallucination evaluations. This change may steer the field toward more trustworthy AI systems.
Enlace al artículo
https://arxiv.org/abs/2509.04664
Estructura semántica en los embeddings de modelos de lenguaje de gran escala / Semantic Structure in Large Language Model Embeddings
Introducción al artículo
La estructura de los embeddings de los modelos de lenguaje de gran escala (LLMs) llama la atención porque representa información semántica de una forma similar a la cognición lingüística humana. Basado en hallazgos de la psicología, este estudio analizó las relaciones semánticas entre palabras en la matriz de embeddings de los LLM y, a través de ello, investigó la correlación entre las evaluaciones humanas de palabras y las representaciones internas del LLM. Como resultado, se encontró que las proyecciones de palabras en los embeddings de los LLM pueden reducirse a tres dimensiones principales: evaluación (bueno vs. malo), intensidad (fuerte vs. débil) y actividad (activo vs. pasivo).
Este estudio comparó datos recolectados mediante encuestas sobre 360 palabras con los embeddings del LLM y analizó cuantitativamente la correlación entre la evaluación semántica humana y los embeddings del LLM. En particular, destacó que las características del LLM están entrelazadas entre sí al extraer direcciones de rasgos semánticos de las palabras y medir, con base en ellas, efectos fuera del objetivo mediante intervenciones. Estos hallazgos sugieren que los embeddings de los LLM reflejan la complejidad del lenguaje humano y que la información semántica es relativamente de baja dimensionalidad.
Además, el estudio subraya que medir la relación entre características individuales es importante para comprender el funcionamiento interno de los LLM, y que esto puede tener un impacto positivo en la seguridad de la IA y en el ajuste funcional. Este enfoque también puede contribuir a evitar consecuencias no intencionadas que podrían surgir durante el proceso de feature steering de los LLM. Este estudio realiza una contribución importante para comprender la estructura semántica de los LLM y, a través de ello, entender con mayor claridad el comportamiento del modelo.
Resumen del artículo (Abstract)
La investigación en psicología ha encontrado de forma consistente que las evaluaciones humanas de las palabras a lo largo de diversas escalas semánticas pueden reducirse a una forma de baja dimensionalidad con relativamente poca pérdida de información. Descubrimos que las asociaciones semánticas codificadas en las matrices de embeddings de los modelos de lenguaje grandes (LLM) muestran una estructura similar. Mostramos que las proyecciones de las palabras sobre direcciones semánticas definidas por pares de antónimos (por ejemplo, amable - cruel) se correlacionan fuertemente con las evaluaciones humanas, y además encontramos que estas proyecciones se reducen de manera efectiva a un subespacio tridimensional dentro de los embeddings de los LLM, muy parecido a los patrones derivados de respuestas de encuestas humanas. Además, encontramos que desplazar tokens a lo largo de una dirección semántica provoca efectos no deseados sobre características geométricamente alineadas proporcionales a su similitud coseno. Estos hallazgos sugieren que las características semánticas están entrelazadas dentro de los LLM de forma similar a cómo se interconectan en el lenguaje humano, y que una gran cantidad de información semántica, pese a su aparente complejidad, es sorprendentemente de baja dimensionalidad. Además, tener en cuenta esta estructura semántica puede ser esencial para evitar consecuencias no intencionales al dirigir características.
> Psychological research consistently finds that human ratings of words across diverse semantic scales can be reduced to a low-dimensional form with relatively little information loss. We find that the semantic associations encoded in the embedding matrices of large language models (LLMs) exhibit a similar structure. We show that the projections of words on semantic directions defined by antonym pairs (e.g. kind - cruel) correlate highly with human ratings, and further find that these projections effectively reduce to a 3-dimensional subspace within LLM embeddings, closely resembling the patterns derived from human survey responses. Moreover, we find that shifting tokens along one semantic direction causes off-target effects on geometrically aligned features proportional to their cosine similarity. These findings suggest that semantic features are entangled within LLMs similarly to how they are interconnected in human language, and a great deal of semantic information, despite its apparent complexity, is surprisingly low-dimensional. Furthermore, accounting for this semantic structure may prove essential for avoiding unintended consequences when steering features.
Enlace al artículo
https://arxiv.org/abs/2508.10003
rStar2-Agent: documento técnico sobre razonamiento agéntico / rStar2-Agent: Agentic Reasoning Technical Report (feat. Microsoft)
Introducción al artículo
rStar2-Agent es un modelo de razonamiento matemático de 14 mil millones de parámetros, diseñado para lograr rendimiento de vanguardia mediante aprendizaje por refuerzo agéntico (agentic reinforcement learning). Este modelo va más allá del enfoque tradicional de Long Chain-of-Thought (Long-CoT) y muestra comportamientos cognitivos avanzados durante la resolución de problemas complejos. En particular, tiene la capacidad de pensar con cautela al usar herramientas de programación en Python, y de explorar y verificar de forma autónoma pasos intermedios reflejando la retroalimentación de la ejecución del código. Esta innovación ha sido posible gracias a tres elementos principales.
Primero, rStar2-Agent construye un entorno confiable de código Python mediante una infraestructura de RL eficiente que soporta ejecución de alto rendimiento. Esta infraestructura está diseñada para entrenar de forma efectiva incluso con recursos de GPU limitados, mitigando así el alto costo de los rollouts. Segundo, el algoritmo de RL agéntico llamado GRPO-RoC aprovecha la estrategia de rollout Resample-on-Correct para resolver el ruido ambiental de las herramientas de programación y permitir que el modelo razone de manera más efectiva dentro del entorno de código. Tercero, una receta eficiente de entrenamiento agéntico que comienza con SFT no orientado al razonamiento (Supervised Fine-Tuning) y progresa mediante RL en múltiples etapas proporciona capacidades cognitivas avanzadas con un costo computacional mínimo.
Mediante esta metodología, rStar2-Agent eleva un modelo preentrenado de 14 mil millones a nivel de vanguardia en solo 510 pasos de RL, logrando puntuaciones pass@1 promedio de 80.6% en AIME24 y 69.8% en AIME25. Esto muestra un rendimiento superior al de DeepSeek-R1 (671B), además de reducir significativamente el tiempo de respuesta. Asimismo, rStar2-Agent demuestra una fuerte capacidad de generalización más allá de la resolución de problemas matemáticos, incluyendo tareas de alineación, razonamiento científico y uso agéntico de herramientas. Estos resultados muestran que el enfoque de RL agéntico está haciendo una contribución importante para fortalecer los comportamientos cognitivos en la resolución de problemas complejos.
Resumen(Abstract)
Presentamos rStar2-Agent, un modelo de razonamiento matemático de 14B entrenado con aprendizaje por refuerzo agéntico para alcanzar rendimiento de nivel de frontera. Más allá de las actuales cadenas de pensamiento largas (CoT), este modelo muestra comportamientos cognitivos avanzados: piensa cuidadosamente antes de usar herramientas de programación en Python y reflexiona sobre la retroalimentación de la ejecución de código para explorar, verificar y refinar de forma autónoma los pasos intermedios en procesos complejos de resolución de problemas. Esta capacidad es posible gracias a tres innovaciones clave que hacen efectivo el RL agéntico a gran escala: (i) una infraestructura de RL eficiente con un entorno confiable de código Python que soporta ejecución de alto rendimiento y mitiga los altos costos de rollout, lo que permite el entrenamiento con recursos limitados de GPU (64 GPU MI300X); (ii) GRPO-RoC, un algoritmo de RL agéntico con una estrategia de rollout Resample-on-Correct que aborda el ruido inherente del entorno generado por las herramientas de código, permitiendo que el modelo razone de manera más efectiva en un entorno de código; (iii) una receta eficiente de entrenamiento de agentes que comienza con SFT no orientado al razonamiento y avanza a través de múltiples etapas de RL, produciendo capacidades cognitivas avanzadas con un costo mínimo de cómputo. Con ello, rStar2-Agent lleva un modelo preentrenado de 14B al estado del arte en solo 510 pasos de RL, logrando puntajes promedio de pass@1 de 80.6% en AIME24 y 69.8% en AIME25, superando a DeepSeek-R1 (671B) con respuestas significativamente más cortas. Más allá de las matemáticas, rStar2-Agent-14B también demuestra una sólida capacidad de generalización en tareas de alineación, razonamiento científico y uso agéntico de herramientas. El código y la receta de entrenamiento pueden consultarse en https://github.com/microsoft/rStar.
> We introduce rStar2-Agent, a 14B math reasoning model trained with agentic reinforcement learning to achieve frontier-level performance. Beyond current long CoT, the model demonstrates advanced cognitive behaviors, such as thinking carefully before using Python coding tools and reflecting on code execution feedback to autonomously explore, verify, and refine intermediate steps in complex problem-solving. This capability is enabled through three key innovations that makes agentic RL effective at scale: (i) an efficient RL infrastructure with a reliable Python code environment that supports high-throughput execution and mitigates the high rollout costs, enabling training on limited GPU resources (64 MI300X GPUs); (ii) GRPO-RoC, an agentic RL algorithm with a Resample-on-Correct rollout strategy that addresses the inherent environment noises from coding tools, allowing the model to reason more effectively in a code environment; (iii) An efficient agent training recipe that starts with non-reasoning SFT and progresses through multi-RL stages, yielding advanced cognitive abilities with minimal compute cost. To this end, rStar2-Agent boosts a pre-trained 14B model to state of the art in only 510 RL steps within one week, achieving average pass@1 scores of 80.6% on AIME24 and 69.8% on AIME25, surpassing DeepSeek-R1 (671B) with significantly shorter responses. Beyond mathematics, rStar2-Agent-14B also demonstrates strong generalization to alignment, scientific reasoning, and agentic tool-use tasks. Code and training recipes are available at https://github.com/microsoft/rStar.
Enlace al artículo
https://arxiv.org/abs/2508.20722
Leer más
https://github.com/microsoft/rStar
uGMM-NN: Red neuronal de modelo de mezcla gaussiana univariante / uGMM-NN: Univariate Gaussian Mixture Model Neural Network
Introducción al artículo
La red neuronal de modelo de mezcla gaussiana univariante (Univariate Gaussian Mixture Model Neural Network, uGMM-NN) es una arquitectura innovadora que integra directamente la inferencia probabilística en las unidades computacionales de las redes neuronales profundas, adoptando un enfoque en el que cada neurona parametriza su propia activación como una mezcla gaussiana univariante. Este enfoque supera las limitaciones de las neuronas tradicionales basadas en suma ponderada y no linealidades fijas, y permite capturar de manera efectiva multimodalidad e incertidumbre en neuronas individuales mediante medias, varianzas y coeficientes de mezcla aprendibles. Este diseño brinda al modelo la flexibilidad necesaria para aprender distribuciones de datos complejas, manteniendo al mismo tiempo la escalabilidad de las redes feedforward estándar.
En comparación con los perceptrones multicapa (Multilayer Perceptron, MLP) existentes, uGMM-NN puede lograr un rendimiento discriminativo competitivo y además permite una interpretación probabilística de las activaciones. Gracias a ello, el modelo va más allá de simples fronteras de decisión y adquiere la capacidad de comprender y representar estructuras complejas en los datos. El marco propuesto sienta las bases para integrar componentes conscientes de la incertidumbre en arquitecturas neuronales modernas, abriendo nuevas líneas de investigación tanto para modelado discriminativo como generativo.
La estructura de uGMM-NN está compuesta de tal forma que cada neurona representa su activación incluyendo coeficientes de mezcla, medias y varianzas, y estos elementos se optimizan durante el proceso de aprendizaje. Como método de entrenamiento, se utiliza el algoritmo de retropropagación para actualizar los parámetros, y la función de pérdida está diseñada para minimizar la diferencia entre la activación de cada neurona y la etiqueta real. En este proceso se aplican técnicas de optimización basadas en gradientes para maximizar el rendimiento del modelo.
Según los resultados experimentales, uGMM-NN registró mayor precisión que los MLP existentes en diversos conjuntos de datos de referencia y demostró su capacidad para manejar eficazmente la incertidumbre. Estos resultados prueban la superioridad de uGMM-NN y constituyen un material base importante para orientar el futuro del modelado consciente de la incertidumbre. Este estudio explora su potencial de uso en diversos campos de aplicación y da pie a una discusión sobre la escalabilidad de uGMM-NN y su posibilidad de integrarse con otros modelos.
Resumen del artículo (Abstract)
Este artículo presenta la Univariate Gaussian Mixture Model Neural Network (uGMM-NN), una nueva arquitectura neuronal que incorpora el razonamiento probabilístico directamente en las unidades computacionales de las redes profundas. A diferencia de las neuronas tradicionales, que aplican sumas ponderadas seguidas de no linealidades fijas, cada nodo de uGMM-NN parametriza sus activaciones como una mezcla gaussiana univariante, con medias, varianzas y coeficientes de mezcla aprendibles. Este diseño permite representaciones más ricas al capturar multimodalidad e incertidumbre a nivel de neuronas individuales, mientras mantiene la escalabilidad de las redes feedforward estándar. Mostramos que uGMM-NN puede lograr un rendimiento discriminativo competitivo en comparación con los perceptrones multicapa convencionales, al tiempo que ofrece además una interpretación probabilística de las activaciones. El marco propuesto proporciona una base para integrar componentes conscientes de la incertidumbre en las arquitecturas neuronales modernas, abriendo nuevas direcciones tanto para el modelado discriminativo como generativo.
> This paper introduces the Univariate Gaussian Mixture Model Neural Network (uGMM-NN), a novel neural architecture that embeds probabilistic reasoning directly into the computational units of deep networks. Unlike traditional neurons, which apply weighted sums followed by fixed nonlinearities, each uGMM-NN node parameterizes its activations as a univariate Gaussian mixture, with learnable means, variances, and mixing coefficients. This design enables richer representations by capturing multimodality and uncertainty at the level of individual neurons, while retaining the scalability of standard feedforward networks. We demonstrate that uGMM-NN can achieve competitive discriminative performance compared to conventional multilayer perceptrons, while additionally offering a probabilistic interpretation of activations. The proposed framework provides a foundation for integrating uncertainty-aware components into modern neural architectures, opening new directions for both discriminative and generative modeling.
Enlace al artículo
https://arxiv.org/abs/2509.07569
Razonamiento jerárquico emergente en los modelos de lenguaje de gran escala mediante aprendizaje por refuerzo / Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning
Introducción al artículo
La investigación para mejorar las capacidades de razonamiento complejo de los modelos de lenguaje de gran escala (LLMs) se ha convertido recientemente en un tema importante dentro del campo de la inteligencia artificial. Este estudio explora cómo el aprendizaje por refuerzo (Reinforcement Learning, RL) potencia estas capacidades en los LLM y revela que varios fenómenos que aparecen en ese proceso están interconectados. En particular, experiencias como el "momento ajá" están estrechamente relacionadas con el pensamiento estratégico de alto nivel, lo que puede interpretarse como una característica de una jerarquía de razonamiento emergente similar a la separación entre la planificación de alto nivel y la ejecución de bajo nivel en los procesos cognitivos humanos.
El estudio presenta una dinámica de dos etapas. En la etapa inicial, el modelo está limitado por la precisión procedimental y debe mejorar habilidades de bajo nivel. Después, el cuello de botella del aprendizaje cambia, y la mejora del rendimiento pasa a estar impulsada por la exploración y el dominio de la planificación estratégica de alto nivel. Esta observación pone en evidencia las ineficiencias de los algoritmos de RL existentes, en particular GRPO (Generalized Reinforcement Policy Optimization), y destaca que este algoritmo aplica presión de optimización de manera indiscriminada, diluyendo la señal de aprendizaje.
Para resolver este problema, los autores proponen un nuevo algoritmo llamado HIerarchy-Aware Credit Assignment (HICRA). HICRA se enfoca en resolver cuellos de botella estratégicos al concentrar el esfuerzo de optimización en los tokens de planificación de alto impacto. Este algoritmo muestra un rendimiento superior al de bases de referencia sólidas y demuestra que puede actuar como la clave para desbloquear el razonamiento avanzado. Además, los autores proponen la entropía semántica como un mejor indicador para medir la exploración estratégica, ya que ofrece un desempeño superior frente a métricas potencialmente engañosas como la entropía a nivel de token.
Este estudio presenta un nuevo enfoque para aumentar la eficiencia en los procesos de aprendizaje y razonamiento de los LLM, y enfatiza la necesidad de una optimización enfocada en la planificación estratégica mediante el algoritmo HICRA. Se espera que estas contribuciones impulsen aún más las capacidades de razonamiento complejo de los LLM y sirvan como una base importante para futuras investigaciones.
Resumen(Abstract)
Se ha demostrado que el aprendizaje por refuerzo (RL) es muy efectivo para mejorar las capacidades de razonamiento complejo de los modelos de lenguaje grandes (LLM), pero los mecanismos fundamentales que impulsan este éxito siguen siendo en gran medida opacos. Nuestro análisis revela que fenómenos desconcertantes como los “momentos aha”, el “length-scaling” y la dinámica de la entropía no son eventos aislados, sino rasgos distintivos de una jerarquía de razonamiento emergente, similar a la separación entre la planificación estratégica de alto nivel y la ejecución procedimental de bajo nivel en la cognición humana. Descubrimos una dinámica convincente de dos fases: al principio, el modelo está limitado por la corrección procedimental y debe mejorar sus habilidades de bajo nivel. Luego, el cuello de botella del aprendizaje cambia de forma decisiva, y las mejoras de desempeño pasan a estar impulsadas por la exploración y el dominio de la planificación estratégica de alto nivel. Esta observación deja en evidencia una ineficiencia central en algoritmos de RL predominantes como GRPO, que aplican presión de optimización de forma indiferenciada y diluyen la señal de aprendizaje a través de todos los tokens. Para abordar esto, proponemos HIerarchy-Aware Credit Assignment (HICRA), un algoritmo que concentra los esfuerzos de optimización en los tokens de planificación de alto impacto. HICRA supera de forma significativa a baselines sólidos, demostrando que enfocarse en este cuello de botella estratégico es clave para desbloquear un razonamiento avanzado. Además, validamos que la entropía semántica es una brújula superior para medir la exploración estratégica frente a métricas engañosas como la entropía a nivel de token.
Reinforcement Learning (RL) has proven highly effective at enhancing the complex reasoning abilities of Large Language Models (LLMs), yet underlying mechanisms driving this success remain largely opaque. Our analysis reveals that puzzling phenomena like
aha moments",length-scaling'' and entropy dynamics are not disparate occurrences but hallmarks of an emergent reasoning hierarchy, akin to the separation of high-level strategic planning from low-level procedural execution in human cognition. We uncover a compelling two-phase dynamic: initially, a model is constrained by procedural correctness and must improve its low-level skills. The learning bottleneck then decisively shifts, with performance gains being driven by the exploration and mastery of high-level strategic planning. This insight exposes a core inefficiency in prevailing RL algorithms like GRPO, which apply optimization pressure agnostically and dilute the learning signal across all tokens. To address this, we propose HIerarchy-Aware Credit Assignment (HICRA), an algorithm that concentrates optimization efforts on high-impact planning tokens. HICRA significantly outperforms strong baselines, demonstrating that focusing on this strategic bottleneck is key to unlocking advanced reasoning. Furthermore, we validate semantic entropy as a superior compass for measuring strategic exploration over misleading metrics such as token-level entropy.
Enlace al artículo
https://arxiv.org/abs/2509.03646
OpenVision 2: familia de codificadores visuales preentrenados de forma generativa para aprendizaje multimodal / OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning (feat. Apple)
Introducción al artículo
OpenVision 2 propone una nueva familia de codificadores visuales con preentrenamiento generativo para aprendizaje multimodal, y mejora significativamente la eficiencia del entrenamiento al simplificar la arquitectura y el diseño de la función de pérdida de OpenVision existente. Este estudio, basado en trabajos previos de preentrenamiento visión-lenguaje como CapPa y AIMv2, así como en un diseño multimodal moderno como LLaVA, adopta un enfoque que elimina el codificador de texto y conserva únicamente la pérdida de captioning. Esta estructura simplificada se compone de dos módulos, un codificador de imágenes y un decodificador de texto, lo que permite aprender de manera efectiva representaciones visuales mediante una señal de aprendizaje generativa.
Los resultados iniciales de OpenVision 2 lograron mantener el desempeño del modelo original mientras reducían de forma importante el tiempo de entrenamiento y el consumo de memoria. Por ejemplo, al usar un backbone ViT-L/14, el tiempo de entrenamiento se redujo 1.5 veces y el uso de memoria disminuyó 1.8 veces, lo que permitió aumentar el tamaño máximo del batch de 2,000 a 8,000. Estas mejoras abren la posibilidad de escalar OpenVision 2 a más de mil millones de parámetros y sugieren que un paradigma ligero enfocado solo en generación es atractivo para el desarrollo de modelos fundacionales multimodales.
Este estudio invita a reconsiderar la creencia existente de que el aprendizaje contrastivo estilo CLIP es esencial para construir codificadores de visión. OpenVision 2 muestra que un objetivo puramente generativo puede competir con los métodos contrastivos en desempeño multimodal, al tiempo que reduce de manera significativa el costo computacional y permite escalar a modelos más grandes. Los investigadores podrán aprovechar el conjunto completo de entrenamiento y los checkpoints preentrenados de OpenVision 2 para explorar más a fondo el potencial del preentrenamiento generativo en codificadores de visión. Esta innovación plantea una nueva dirección para el campo del aprendizaje multimodal y se espera que haga una contribución importante a futuras investigaciones.
Resumen del artículo (Abstract)
Este artículo presenta una forma de simplificar la arquitectura y el diseño de la función de pérdida de OpenVision para mejorar su eficiencia de entrenamiento. Siguiendo trabajos previos de preentrenamiento visión-lenguaje como CapPa y AIMv2, así como diseños multimodales modernos como LLaVA, nuestro cambio es sencillo: eliminamos el codificador de texto (y por lo tanto la pérdida contrastiva) y conservamos solo la pérdida de subtitulado como una señal de entrenamiento puramente generativa. Llamamos a esta nueva versión OpenVision 2. Los resultados iniciales son prometedores: a pesar de esta simplificación, OpenVision 2 iguala de forma competitiva el rendimiento del modelo original en una amplia gama de benchmarks multimodales, al tiempo que reduce sustancialmente tanto el tiempo de entrenamiento como el consumo de memoria. Por ejemplo, con ViT-L/14, reduce el tiempo de entrenamiento en aproximadamente 1.5x (de 83 h a 57 h) y el uso de memoria en aproximadamente 1.8x (de 24.5GB a 13.8GB, lo que equivale a permitir que el tamaño máximo del batch crezca de 2k a 8k). Esta eficiencia superior de entrenamiento también nos permite escalar mucho más allá del codificador de visión más grande usado en OpenVision, superando los mil millones de parámetros. Creemos firmemente que este paradigma ligero y exclusivamente generativo resulta atractivo para el futuro desarrollo de codificadores de visión en modelos fundacionales multimodales.
> This paper provides a simplification on OpenVision's architecture and loss design for enhancing its training efficiency. Following the prior vision-language pretraining works CapPa and AIMv2, as well as modern multimodal designs like LLaVA, our changes are straightforward: we remove the text encoder (and therefore the contrastive loss), retaining only the captioning loss as a purely generative training signal. We name this new version OpenVision 2. The initial results are promising: despite this simplification, OpenVision 2 competitively matches the original model's performance on a broad set of multimodal benchmarks while substantially cutting both training time and memory consumption. For example, with ViT-L/14, it reduces training time by about 1.5x (from 83h to 57h), and memory usage by about 1.8x (from 24.5GB to 13.8GB, equivalently allowing the maximum batch size to grow from 2k to 8k). This superior training efficiency also allows us to scale far beyond the largest vision encoder used in OpenVision, reaching more than 1 billion parameters. We hold a strong belief that this lightweight, generative-only paradigm is compelling for future vision encoder development in multimodal foundation models.
Enlace al artículo
https://arxiv.org/abs/2509.01644
Leer más
https://ucsc-vlaa.github.io/OpenVision2
https://github.com/UCSC-VLAA/OpenVision
https://huggingface.co/collections/UCSC-VLAA/…
https://huggingface.co/datasets/UCSC-VLAA/Recap-DataComp-1B
Backprompting: Aprovechamiento de datos sintéticos de producción para guardrails de consejos de salud / Backprompting: Leveraging Synthetic Production Data for Health Advice Guardrails (feat. IBM Research)
Introducción al artículo
A medida que el uso de los modelos de lenguaje de gran escala (LLM) se expande en entornos empresariales, están surgiendo diversos factores de riesgo asociados. En particular, la posibilidad de que la salida de un LLM incluya información incorrecta puede provocar consecuencias graves en áreas sensibles como los consejos de salud. Para mitigar estos riesgos, se necesitan tecnologías de guardrails, que funcionan filtrando los textos de entrada y salida de los LLM mediante diversos detectores. Sin embargo, uno de los mayores obstáculos para desarrollar y mantener detectores robustos es la dificultad de obtener datos con etiquetas de calidad de producción sobre salidas reales de LLM.
Para resolver este problema, este estudio propone una metodología innovadora llamada Backprompting. Backprompting es un enfoque que genera datos etiquetados similares a los de producción volviendo a hacer preguntas sobre el texto generado por un LLM a partir de la consulta ingresada por el usuario. En este proceso, se utilizan técnicas de clustering humano-en-el-bucle poco frecuentes para etiquetar los datos generados. Esto permite construir un corpus paralelo que representa de manera aproximada el dataset original, pero que al mismo tiempo se parece a las salidas reales de un LLM.
El objetivo central de la investigación es generar datos de entrenamiento robustos para detectores inyectando ejemplos sintéticos en datasets existentes. Con ello, se busca mejorar el rendimiento en la construcción de guardrails para identificar consejos de salud. Los resultados experimentales muestran que el detector propuesto registra una mejora de rendimiento de hasta 3.73% en comparación con métodos existentes, y también presenta resultados superiores frente a GPT-4o. Estos logros indican que los datos generados mediante Backprompting tuvieron un efecto positivo en el entrenamiento del detector.
En conclusión, este estudio presenta una nueva metodología de generación de datos para aumentar la seguridad de las salidas de los LLM y muestra su potencial de aplicación futura en diversos campos. Se espera que Backprompting sea efectivo para el desarrollo de guardrails de consejos de salud y que haga una contribución importante al uso seguro de los LLM.
Resumen del artículo (Abstract)
La proliferación de los modelos de lenguaje grandes (LLM) en entornos empresariales también ha traído consigo una cantidad significativa de riesgos asociados con su uso. Las tecnologías de guardrails buscan mitigar este riesgo filtrando el texto de entrada/salida de los LLM mediante diversos detectores. Sin embargo, desarrollar y mantener detectores robustos enfrenta varios desafíos, uno de los cuales es la dificultad de obtener datos etiquetados con calidad de producción sobre salidas reales de LLM antes del despliegue. En este trabajo, proponemos backprompting, una solución simple pero intuitiva para generar datos etiquetados similares a producción para el desarrollo de guardrails de consejos de salud. Además, combinamos nuestro método de backprompting con una técnica de clustering escaso con humanos en el circuito para etiquetar los datos generados. Nuestro objetivo es construir un corpus paralelo que represente de forma aproximada el dataset original, pero que al mismo tiempo se parezca a las salidas reales de un LLM. Luego, incorporamos nuestros ejemplos sintéticos en datasets existentes para producir datos de entrenamiento robustos para nuestro detector. Probamos nuestra técnica en uno de los guardrails más difíciles y matizados: la identificación de consejos de salud en la salida de un LLM, y demostramos mejoras frente a otras soluciones. Nuestro detector puede superar a GPT-4o hasta en un 3.73%, a pesar de tener 400 veces menos parámetros.
> The pervasiveness of large language models (LLMs) in enterprise settings has also brought forth a significant amount of risks associated with their usage. Guardrails technologies aim to mitigate this risk by filtering LLMs' input/output text through various detectors. However, developing and maintaining robust detectors faces many challenges, one of which is the difficulty in acquiring production-quality labeled data on real LLM outputs prior to deployment. In this work, we propose backprompting, a simple yet intuitive solution to generate production-like labeled data for health advice guardrails development. Furthermore, we pair our backprompting method with a sparse human-in-the-loop clustering technique to label the generated data. Our aim is to construct a parallel corpus roughly representative of the original dataset yet resembling real LLM output. We then infuse existing datasets with our synthetic examples to produce robust training data for our detector. We test our technique in one of the most difficult and nuanced guardrails: the identification of health advice in LLM output, and demonstrate improvement versus other solutions. Our detector is able to outperform GPT-4o by up to 3.73%, despite having 400x less parameters.
Enlace al artículo
https://arxiv.org/abs/2508.18384
Sinergia profundidad-amplitud en RLVR: cómo desbloquear mejoras de razonamiento en LLM con exploración adaptativa / Depth-Breadth Synergy in RLVR: Unlocking LLM Reasoning Gains with Adaptive Exploration
Introducción al artículo
Reinforcement Learning with Verifiable Reward (RLVR) desempeña un papel importante para maximizar la capacidad de razonamiento de los modelos de lenguaje grandes (LLM), pero su potencial está limitado por dos dimensiones poco exploradas: Depth (el problema más difícil que el modelo puede muestrear) y Breadth (la cantidad de instancias consumidas en una sola iteración). En este estudio, analizamos el algoritmo GRPO (Generalized Relative Preference Optimization) existente y revelamos un sesgo sistemático en el que la ventaja acumulada (cumulative advantage) asigna un peso desproporcionado a las muestras con precisión intermedia, mientras subestima las instancias de baja precisión. Para resolver esto, proponemos la metodología Difficulty Adaptive Rollout Sampling (DARS), que reajusta el peso de los problemas difíciles mediante rollouts multietapa orientados a objetivos, aumentando así la cantidad de rollouts positivos.
DARS no solo aumenta el tamaño del rollout, sino que contribuye a mejorar el rendimiento de Pass@K. Además, explora cómo expandir agresivamente la amplitud de los datos de entrenamiento puede contribuir a mejorar el razonamiento, ampliando de forma considerable el tamaño del batch y sustituyendo la repetición de mini-batches de Proximal Policy Optimization (PPO) por actualizaciones de batch completo a lo largo de múltiples épocas. Este enfoque mejora de forma importante el rendimiento de Pass@1, y el entrenamiento con gran amplitud mantiene una alta entropía a nivel de token, lo que indica exploración continua y reducción del ruido del gradiente.
DARS-B es una metodología que añade gran amplitud a DARS para lograr mejoras simultáneas en Pass@K y Pass@1, lo que muestra que la exploración adaptativa de amplitud y profundidad desempeña un papel clave para liberar la capacidad de razonamiento de RLVR. Este estudio propone una nueva dirección para maximizar la capacidad de razonamiento de RLVR mediante estas metodologías, y demuestra experimentalmente que la exploración adaptativa de profundidad y amplitud contribuye a mejorar el rendimiento de RLVR.
Resumen(Abstract)
El aprendizaje por refuerzo con recompensa verificable (Reinforcement Learning with Verifiable Reward, RLVR) ha surgido como un paradigma poderoso para desbloquear las capacidades de razonamiento de los modelos de lenguaje grandes, pero su potencial total está limitado por dos dimensiones poco exploradas: profundidad (Depth), el problema más difícil que un modelo puede muestrear; y amplitud (Breadth), el número de instancias consumidas en una sola iteración. Analizamos el popular algoritmo GRPO y revelamos un sesgo sistemático: la ventaja acumulativa (cumulative-advantage) asigna un peso desproporcionado a las muestras con precisión intermedia, mientras reduce el peso de las instancias de baja precisión que son cruciales para expandir los límites del razonamiento. Para corregir este descuido de la profundidad, introducimos Difficulty Adaptive Rollout Sampling (DARS), que reajusta el peso de los problemas difíciles mediante rollouts multietapa dirigidos, aumentando así el número de rollouts positivos para los problemas difíciles. Empíricamente, aumentar ingenuamente el tamaño del rollout solo acelera la convergencia e incluso perjudica Pass@K. En cambio, nuestro DARS ofrece mejoras consistentes en Pass@K sin costo adicional de inferencia en la convergencia. Así como ampliamos adaptativamente la profundidad de la exploración, ahora nos preguntamos si escalar agresivamente la amplitud de los datos de entrenamiento puede amplificar aún más las mejoras de razonamiento. Para ello, aumentamos de forma intensa el tamaño del batch y reemplazamos las iteraciones de mini-batch de PPO por actualizaciones de batch completo a lo largo de múltiples épocas. Incrementar la amplitud mejora significativamente el rendimiento de Pass@1. El entrenamiento con gran amplitud mantiene una alta entropía a nivel de token, lo que indica exploración continua y menor ruido de gradiente. También presentamos DARS-B, que refuerza DARS con gran amplitud, y demostramos mejoras simultáneas en Pass@K y Pass@1. Los resultados confirman que la amplitud y la exploración adaptativa en profundidad operan como dimensiones ortogonales en RLVR, y que son clave para liberar el poder de razonamiento de RLVR.
> Reinforcement Learning with Verifiable Reward (RLVR) has emerged as a powerful paradigm for unlocking reasoning capabilities in large language models, yet its full potential is hindered by two under-explored dimensions: Depth-the hardest problem a model can sample; Breadth-the number of instances consumed in a single iteration. We dissect the popular GRPO algorithm and reveal a systematic bias: the cumulative-advantage disproportionately weights samples with medium accuracy, while down-weighting the low-accuracy instances that are crucial for pushing reasoning boundaries. To rectify the depth neglect, we introduce Difficulty Adaptive Rollout Sampling (DARS), which re-weights hard problems through targeted multi-stage rollouts, thereby increasing the number of positive rollouts for hard problems. Empirically, naively enlarging rollout size only accelerates convergence and even hurts Pass@K. Our DARS, in contrast, delivers consistent Pass@K gains without extra inference cost at convergence. Just as we adaptively expanded the depth of exploration, we now ask whether aggressively scaling the breadth of training data can further amplify reasoning gains. To this end, we intensely scale batch size and replace PPO's mini-batch iterations with full-batch updates over multiple epochs. Increasing breadth significantly enhances Pass@1 performance. Large-breadth training sustains high token-level entropy, indicating continued exploration and reduced gradient noise. We further present DARS-B, which augments DARS with large breadth, and demonstrate simultaneous gains in Pass@K and Pass@1. The results confirm that breadth and adaptive exploration across depth operate as orthogonal dimensions in RLVR, which are key to unleashing the reasoning power of RLVR.
Enlace del paper
https://arxiv.org/abs/2508.13755
FlowVLA: pensar el movimiento con una cadena visual de pensamiento / FlowVLA: Thinking in Motion with a Visual Chain of Thought
Introducción del paper
Los modelos Vision-Language-Action (VLA) dependen de modelos internos del mundo entrenados mediante la predicción del siguiente frame, pero este método entrelaza la apariencia estática y el movimiento dinámico, lo que dificulta el razonamiento físico. Para resolverlo, se introduce un marco de preentrenamiento llamado Visual Chain of Thought (Visual CoT), que los guía a razonar sobre la evolución de la escena antes de predecirla. FlowVLA genera una representación intermedia de flujo óptico y luego predice los frames futuros; este proceso se implementa dentro de un único Transformer autorregresivo, lo que permite aprender separando los elementos dinámicos. Los resultados experimentales muestran que FlowVLA genera predicciones visuales coherentes y mejora de forma importante la eficiencia del aprendizaje de políticas, presentando una base más principista para el modelado del mundo.
Resumen del paper (Abstract)
Muchos modelos de Vision-Language-Action (VLA) dependen de un modelo interno del mundo entrenado mediante predicción del siguiente frame. Sin embargo, este enfoque tiene dificultades con el razonamiento físico, ya que entrelaza la apariencia estática con el movimiento dinámico, lo que a menudo produce predicciones visuales poco plausibles y un aprendizaje de políticas ineficiente. Para abordar estas limitaciones, introducimos Visual Chain of Thought (Visual CoT): un marco de preentrenamiento que impulsa al modelo a razonar sobre cómo evoluciona una escena antes de predecir cómo se verá. Implementamos este principio en FlowVLA, que predice un frame futuro ($v_{t+1}$) solo después de generar una representación intermedia de flujo óptico ($f_t$) que codifica la dinámica del movimiento. Este proceso de razonamiento "$v_t \rightarrow f_t \rightarrow v_{t+1}$" se implementa dentro de un único Transformer autorregresivo, guiando al modelo a aprender dinámicas desacopladas. Como resultado, FlowVLA produce predicciones visuales coherentes y facilita un aprendizaje de políticas más eficiente. Los experimentos en desafiantes benchmarks de manipulación robótica demuestran un rendimiento state-of-the-art con una eficiencia de muestra sustancialmente mejorada, lo que apunta hacia una base más sólida para el world modeling. Página del proyecto: https://irpn-lab.github.io/FlowVLA/
> Many Vision-Language-Action (VLA) models rely on an internal world model trained via next-frame prediction. This approach, however, struggles with physical reasoning as it entangles static appearance with dynamic motion, often resulting in implausible visual forecasts and inefficient policy learning. To address these limitations, we introduce the Visual Chain of Thought (Visual CoT): a pre-training framework that encourages a model to reason about how a scene evolves before predicting what it will look like. We instantiate this principle in FlowVLA, which predicts a future frame ($v_{t+1}$) only after generating an intermediate optical flow representation ($f_t$) that encodes motion dynamics. This ``$v_t \rightarrow f_t \rightarrow v_{t+1}$'' reasoning process is implemented within a single autoregressive Transformer, guiding the model to learn disentangled dynamics. As a result, FlowVLA produces coherent visual predictions and facilitates more efficient policy learning. Experiments on challenging robotics manipulation benchmarks demonstrate state-of-the-art performance with substantially improved sample efficiency, pointing toward a more principled foundation for world modeling. Project page: https://irpn-lab.github.io/FlowVLA/
Enlace al artículo
https://arxiv.org/abs/2508.18269
Leer más
https://irpn-lab.github.io/FlowVLA/
Representación de memoria episódica para la comprensión de videos de larga duración / Episodic Memory Representation for Long-form Video Understanding
Introducción al artículo
Uno de los desafíos en el campo de la comprensión de video es procesar de manera efectiva el contexto de videos largos. Los Video Large Language Models (Video-LLMs) existentes destacan en la comprensión general de video, pero tienen dificultades con videos largos debido a las limitaciones de la ventana de contexto. Para resolver este problema, el framework Video-EM (Episodic Memory Representation) propuesto ofrece un enfoque innovador que no requiere entrenamiento.
Video-EM modela los eventos clave del video como episodios ordenados temporalmente, capturando relaciones espaciotemporales dinámicas y la narrativa. Este framework consta de tres componentes clave: Key Event Selection, Episodic Memory Representation y Chain of Thought (CoT) Video Reasoning. El módulo Key Event Selection identifica la información relevante para la consulta y extrae eventos clave temporalmente adyacentes, resolviendo así la redundancia del video.
El módulo Episodic Memory Representation modela explícitamente el orden temporal de cada evento para representar con mayor riqueza el contexto espaciotemporal dinámico. Esto permite reconstruir de manera efectiva la narrativa del video. Por último, CoT Video Reasoning selecciona de forma iterativa el conjunto mínimo de memorias episódicas relevantes para generar respuestas precisas y basadas en el contexto.
Este estudio evaluó el rendimiento de Video-EM en diversos benchmarks y mostró resultados que lograron una mejora de rendimiento del 4-9% frente a los modelos existentes. Estos resultados indican que logró mantener una alta precisión usando una menor cantidad de frames. Video-EM mejora significativamente la precisión del question answering sobre video y constituye una contribución importante que abre nuevas posibilidades en el campo de la comprensión de video. Este enfoque podría servir como una base importante para futuras investigaciones.
Resumen del artículo (Abstract)
Los modelos de lenguaje grandes para video (Video-LLM) sobresalen en la comprensión general de video, pero tienen dificultades con los videos de larga duración debido a las limitaciones de la ventana de contexto. En consecuencia, los enfoques recientes se centran en la recuperación de fotogramas clave, condensando videos extensos en un pequeño conjunto de fotogramas informativos. Aunque son prácticos, estos métodos simplifican el problema a una coincidencia estática entre texto e imagen, pasando por alto las relaciones espaciotemporales cruciales para capturar las transiciones de escena y la continuidad contextual, y pueden producir fotogramas clave redundantes con información limitada, diluyendo las pistas importantes esenciales para una respuesta precisa a preguntas sobre video. Para abordar estas limitaciones, presentamos Video-EM, un marco sin entrenamiento inspirado en los principios de la memoria episódica humana, diseñado para facilitar un razonamiento sólido y contextualizado. En lugar de tratar los fotogramas clave como entidades visuales aisladas, Video-EM los modela explícitamente como eventos episódicos ordenados temporalmente, capturando tanto las relaciones espaciales como la dinámica temporal necesarias para reconstruir con precisión la narrativa subyacente. Además, este marco aprovecha el razonamiento de cadena de pensamiento (CoT) con LLM para identificar de manera iterativa un subconjunto mínimo pero altamente informativo de memorias episódicas, lo que permite una respuesta eficiente y precisa a preguntas por parte de los Video-LLM. Evaluaciones extensivas en los benchmarks Video-MME, EgoSchema, HourVideo y LVBench confirman la superioridad de Video-EM, que logra resultados altamente competitivos con mejoras de rendimiento de 4-9% frente a las respectivas líneas base, mientras utiliza menos fotogramas.
> Video Large Language Models (Video-LLMs) excel at general video understanding but struggle with long-form videos due to context window limits. Consequently, recent approaches focus on keyframe retrieval, condensing lengthy videos into a small set of informative frames. Despite their practicality, these methods simplify the problem to static text image matching, overlooking spatio temporal relationships crucial for capturing scene transitions and contextual continuity, and may yield redundant keyframes with limited information, diluting salient cues essential for accurate video question answering. To address these limitations, we introduce Video-EM, a training free framework inspired by the principles of human episodic memory, designed to facilitate robust and contextually grounded reasoning. Rather than treating keyframes as isolated visual entities, Video-EM explicitly models them as temporally ordered episodic events, capturing both spatial relationships and temporal dynamics necessary for accurately reconstructing the underlying narrative. Furthermore, the framework leverages chain of thought (CoT) thinking with LLMs to iteratively identify a minimal yet highly informative subset of episodic memories, enabling efficient and accurate question answering by Video-LLMs. Extensive evaluations on the Video-MME, EgoSchema, HourVideo, and LVBench benchmarks confirm the superiority of Video-EM, which achieves highly competitive results with performance gains of 4-9 percent over respective baselines while utilizing fewer frames.
Enlace del artículo
https://arxiv.org/abs/2508.09486
Este texto está basado en un resumen elaborado con un modelo GPT, por lo que puede haber contenido resumido de forma distinta al contenido o la intención del texto original. Si el tema le interesa, le recomendamos consultar también el texto original. Si al leer encuentra algo extraño o incorrecto, le agradeceremos que nos lo informe en los comentarios. 🤗
⚠️Publicidad⚠️: ¿Le resultó útil este texto recopilado por 🔥PyTorch Korean User Group🇰🇷? Si se registra como miembro, le enviaremos por correo electrónico💌 los artículos principales. (La opción predeterminada es Weekly, pero también puede cambiarla a Daily.)
Aún no hay comentarios.