ML para revisar esta semana

(discuss.pytorch.kr)

10 puntos por ninebow 2025-12-29 | Aún no hay comentarios. | Compartir por WhatsApp

[2025/12/22 ~ 28] Selección de papers de AI/ML para revisar esta semana

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ Estrategias profundas de detección y mitigación de alucinaciones (Deep Hallucination Detection & Mitigation): Al revisar los papers seleccionados de esta semana, destaca que, más allá de simplemente aumentar el tamaño de los modelos, hay intentos claros por resolver de raíz el problema crónico de las alucinaciones (Hallucination) en los LLM. QuCo-RAG determina el momento de la búsqueda usando un indicador objetivo —las estadísticas de los datos de preentrenamiento— en lugar de la confianza subjetiva interna del modelo, mientras que H-Neurons adopta un enfoque microscópico al identificar neuronas específicas que provocan alucinaciones y rastrear su origen. Además, Model-First Reasoning reduce errores estructurales al hacer que el modelo pase por una etapa explícita de modelado antes de resolver el problema. Esto muestra que la investigación en IA está evolucionando desde simplemente producir “respuestas plausibles” hacia construir mecanismos verificables y confiables.

2️⃣ Evolución de la eficiencia de inferencia y del procesamiento en tiempo real (Evolution of Inference Efficiency & Real-Time Processing): A medida que los modelos se vuelven más grandes, también se intensifica la investigación para maximizar la velocidad de inferencia y la eficiencia de memoria. WorldPlay resolvió el trade-off entre velocidad y memoria, haciendo posible la generación de video en tiempo real, y Jacobi Forcing superó las limitaciones del método de generación secuencial (AR) al aumentar drásticamente la velocidad de inferencia mediante decodificación en paralelo. Además, qTTT propuso un nuevo enfoque que realiza aprendizaje liviano en la etapa de inferencia para evitar la degradación del rendimiento (dilución de puntuación) al procesar contextos largos. Esto puede interpretarse como un proceso de optimización indispensable para llevar modelos de alto rendimiento a un nivel de servicio real (real-time application).

3️⃣ Fortalecimiento de la comprensión dinámica del mundo y del razonamiento estructurado (Enhanced Dynamic World Understanding & Structured Reasoning): Más allá del análisis de imágenes o texto estáticos, se observa una fuerte tendencia a comprender el paso del tiempo (4D) y las estructuras físicas/lógicas. 4D-RGPT intenta una percepción 4D al añadir el eje temporal al espacio 3D para entender la dinámica temporal del video, y WorldPlay realiza modelado del mundo manteniendo la consistencia geométrica. NEPA también busca mejorar la comprensión visual mediante la predicción de embeddings en lugar de la restauración de píxeles. Esto sugiere que la IA está avanzando más allá del simple pattern matching, hacia una etapa en la que internaliza, como los humanos, “la forma en que funciona el mundo”, incluyendo leyes físicas y relaciones lógicas de causalidad.

WorldPlay: mejora de la consistencia geométrica a largo plazo para el modelado interactivo del mundo en tiempo real / WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling

Introducción al paper

WorldPlay es un innovador modelo de difusión de video en streaming para el modelado interactivo del mundo en tiempo real, desarrollado con énfasis en mantener la consistencia geométrica a largo plazo mientras resuelve el trade-off entre velocidad y memoria. Este modelo maximiza su rendimiento mediante tres innovaciones principales. Primero, Dual Action Representation permite un control sólido de las acciones según la entrada del usuario, lo que hace posible movimientos físicamente plausibles en escenas de distintas escalas. Segundo, Reconstituted Context Memory contribuye a mantener la consistencia a largo plazo al reconstituir dinámicamente la información de frames pasados. Gracias a esto, los frames antiguos geométricamente importantes permanecen accesibles, mejorando la eficiencia de memoria. Tercero, introduce un nuevo método de destilación llamado Context Forcing para mejorar el rendimiento del modelo consciente de memoria. Este método alinea el contexto de memoria entre el modelo maestro y el modelo estudiante, ayudando a que el estudiante aproveche de forma efectiva la información de largo plazo.

WorldPlay genera video 720p a 24 cuadros por segundo y muestra una consistencia superior en comparación con tecnologías previas. El modelo logra al mismo tiempo velocidad en generación de video en tiempo real y consistencia geométrica a largo plazo, además de mostrar una fuerte capacidad de generalización en diversas escenas. También permite reconstrucción 3D de alta calidad y soporta interacciones basadas en prompts que pueden detonar eventos dinámicos del mundo. Gracias a estas características, WorldPlay representa una contribución importante en el campo de la generación interactiva de video en tiempo real y abre la puerta a diversas aplicaciones futuras.

Resumen (Abstract)

Este paper presenta WorldPlay, un modelo de difusión de video en streaming que permite el modelado interactivo del mundo en tiempo real. WorldPlay resuelve el equilibrio entre velocidad y memoria que limita a los métodos actuales, manteniendo consistencia geométrica a largo plazo. WorldPlay se apoya en tres innovaciones principales. 1) Usamos una Representación de Acción Dual (Dual Action Representation) que permite un control de acciones sólido en respuesta a las entradas de teclado y mouse del usuario. 2) Para mantener la consistencia a largo plazo, nuestra Memoria de Contexto Reconstituido (Reconstituted Context Memory) reconstruye dinámicamente el contexto a partir de cuadros pasados y usa reencuadre temporal para mantener accesibles cuadros antiguos pero geométricamente importantes, mitigando eficazmente la atenuación de memoria. 3) También proponemos Context Forcing, un nuevo método de destilación diseñado para modelos con conciencia de memoria. Al alinear el contexto de memoria entre maestro y estudiante, se preserva la capacidad del estudiante para usar información de largo alcance, lo que permite velocidades en tiempo real mientras evita la deriva de errores. En conjunto, WorldPlay puede transmitir video 720p a 24 FPS durante periodos prolongados, con una consistencia superior frente a técnicas existentes y una sólida generalización en escenas diversas. La página del proyecto y la demo en línea están disponibles en: https://3d-models.hunyuan.tencent.com/world/ y https://3d.hunyuan.tencent.com/sceneTo3D.
> This paper presents WorldPlay, a streaming video diffusion model that enables real-time, interactive world modeling with long-term geometric consistency, resolving the trade-off between speed and memory that limits current methods. WorldPlay draws power from three key innovations. 1) We use a Dual Action Representation to enable robust action control in response to the user's keyboard and mouse inputs. 2) To enforce long-term consistency, our Reconstituted Context Memory dynamically rebuilds context from past frames and uses temporal reframing to keep geometrically important but long-past frames accessible, effectively alleviating memory attenuation. 3) We also propose Context Forcing, a novel distillation method designed for memory-aware model. Aligning memory context between the teacher and student preserves the student's capacity to use long-range information, enabling real-time speeds while preventing error drift. Taken together, WorldPlay generates long-horizon streaming 720p video at 24 FPS with superior consistency, comparing favorably with existing techniques and showing strong generalization across diverse scenes. Project page and online demo can be found: https://3d-models.hunyuan.tencent.com/world/ and https://3d.hunyuan.tencent.com/sceneTo3D.

Enlace al paper

https://arxiv.org/abs/2512.14614

Leer más

https://3d-models.hunyuan.tencent.com/world/

https://3d.hunyuan.tencent.com/sceneTo3D

QuCo-RAG: método para la generación aumentada por recuperación dinámica mediante la cuantificación de la incertidumbre a partir de los datos de preentrenamiento / QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation

Introducción del paper

QuCo-RAG es una metodología innovadora que mitiga las alucinaciones al decidir dinámicamente cuándo recuperar información durante el proceso de generación de los modelos de lenguaje grandes (LLM). Los enfoques existentes dependen de señales internas del modelo, pero esto presenta el problema de que los LLM a menudo están mal calibrados y muestran una alta confianza incluso en salidas incorrectas. Para superar esta limitación, este estudio propone un nuevo método que cuantifica la incertidumbre no con confianza subjetiva, sino con estadísticas objetivas calculadas a partir de los datos de preentrenamiento.

La cuantificación de incertidumbre de QuCo-RAG consta de dos etapas principales. En la primera, antes de la generación, se identifican entidades de baja frecuencia que representan brechas de conocimiento de cola larga. En la segunda, durante la generación, se valida la coocurrencia de entidades en los datos de preentrenamiento, y cuando la coocurrencia es 0, esto señala riesgo de alucinación. Estas dos etapas usan Infini-gram para ejecutar consultas con latencia de milisegundos sobre 4 billones de tokens, activando la recuperación en situaciones de alta incertidumbre.

En los experimentos, QuCo-RAG logró mejoras de 5 a 12 puntos en exactitud (EM) frente a baselines de última generación usando el modelo OLMo-2 en benchmarks de pregunta-respuesta (QA) multihop. Además, se transfirió eficazmente a modelos con datos de preentrenamiento no oficiales (Llama, Qwen, GPT), mejorando EM hasta en 14 puntos. Los experimentos de generalización de dominio en QA biomédico validaron adicionalmente la solidez de QuCo-RAG.

QuCo-RAG presenta un nuevo paradigma para la generación aumentada por recuperación dinámica mediante verificación basada en el corpus de preentrenamiento, y es un enfoque independiente del modelo que puede aplicarse a diversos LLM. Esta investigación contribuye a reducir el riesgo de alucinaciones y prevé explorar su aplicación futura en distintos dominios.

Resumen del paper (Abstract)

La generación aumentada por recuperación dinámica (Dynamic Retrieval-Augmented Generation) determina de forma adaptativa cuándo recuperar información durante la generación para mitigar las alucinaciones en los modelos de lenguaje grandes (LLMs). Sin embargo, los métodos existentes dependen de señales internas del modelo (por ejemplo, logits, entropía), que son fundamentalmente poco confiables porque los LLMs suelen estar mal calibrados y a menudo muestran alta confianza en salidas erróneas. Proponemos QuCo-RAG, que cambia de una confianza subjetiva a estadísticas objetivas calculadas a partir de datos de preentrenamiento. Nuestro método cuantifica la incertidumbre en dos etapas: (1) antes de la generación, identificamos entidades de baja frecuencia que indican brechas de conocimiento de cola larga; (2) durante la generación, verificamos la coocurrencia de entidades en el corpus de preentrenamiento, donde una coocurrencia nula suele señalar riesgo de alucinación. Ambas etapas aprovechan Infini-gram para consultas con latencia de milisegundos sobre 4 billones de tokens, activando la recuperación cuando la incertidumbre es alta. Los experimentos en benchmarks de QA multi-hop muestran que QuCo-RAG logra mejoras de 5 a 12 puntos en EM sobre las líneas base de último estado del arte con modelos OLMo-2, y se transfiere de forma efectiva a modelos con datos de preentrenamiento no divulgados (Llama, Qwen, GPT), mejorando EM hasta en 14 puntos. La generalización de dominio en QA biomédico valida aún más la robustez de nuestro paradigma. Estos resultados establecen la verificación basada en corpus como un paradigma con fundamentos sólidos y prácticamente agnóstico al modelo para RAG dinámico. Nuestro código está disponible públicamente en https://github.com/ZhishanQ/QuCo-RAG.
> Dynamic Retrieval-Augmented Generation adaptively determines when to retrieve during generation to mitigate hallucinations in large language models (LLMs). However, existing methods rely on model-internal signals (e.g., logits, entropy), which are fundamentally unreliable because LLMs are typically ill-calibrated and often exhibit high confidence in erroneous outputs. We propose QuCo-RAG, which shifts from subjective confidence to objective statistics computed from pre-training data. Our method quantifies uncertainty through two stages: (1) before generation, we identify low-frequency entities indicating long-tail knowledge gaps; (2) during generation, we verify entity co-occurrence in the pre-training corpus, where zero co-occurrence often signals hallucination risk. Both stages leverage Infini-gram for millisecond-latency queries over 4 trillion tokens, triggering retrieval when uncertainty is high. Experiments on multi-hop QA benchmarks show QuCo-RAG achieves EM gains of 5--12 points over state-of-the-art baselines with OLMo-2 models, and transfers effectively to models with undisclosed pre-training data (Llama, Qwen, GPT), improving EM by up to 14 points. Domain generalization on biomedical QA further validates the robustness of our paradigm. These results establish corpus-grounded verification as a principled, practically model-agnostic paradigm for dynamic RAG. Our code is publicly available at https://github.com/ZhishanQ/QuCo-RAG.

Enlace al paper

https://arxiv.org/abs/2512.19134

Leer más

https://github.com/ZhishanQ/QuCo-RAG

4D-RGPT: hacia una comprensión 4D a nivel de región mediante destilación perceptual / 4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation

Introducción al paper

4D-RGPT es un modelo de lenguaje grande multimodal (MMLM) especializado, diseñado para capturar de forma efectiva representaciones 4D a partir de entradas de video. Los benchmarks existentes de preguntas y respuestas sobre video (VQA) en 3D y 4D se han centrado en escenas estáticas y carecen de prompts a nivel de región, lo que ha limitado la comprensión de la dinámica temporal. Para resolver este problema, este estudio introduce un innovador marco de aprendizaje llamado destilación perceptual 4D (Perceptual 4D Distillation, P4D), que permite una percepción 4D integral al transferir representaciones 4D desde un modelo experto congelado hacia 4D-RGPT.

También se propuso un nuevo benchmark llamado R4D-Bench, que incluye prompts a nivel de región para escenas dinámicas con percepción de profundidad. R4D-Bench fue construido mediante un pipeline híbrido de automatización y validación humana, con el objetivo de superar las limitaciones de los benchmarks existentes de VQA 4D no basados en regiones. Este benchmark incluye 9 categorías de preguntas para evaluar diversos aspectos de la comprensión 4D, y cada categoría proporciona un criterio para evaluar de manera integral el rendimiento de los MMLM.

El formato de opciones de respuesta exige la precisión necesaria para que los MMLM proporcionen respuestas correctas, lo cual es esencial para comprender la posición y orientación de los objetos. Este enfoque mejora la capacidad de comprensión 4D de los MMLM y permite una evaluación más profunda mediante preguntas basadas en regiones. Este estudio realiza una contribución importante al superar las limitaciones de los sistemas VQA existentes y mejorar la percepción 4D y la comprensión temporal a través de 4D-RGPT y R4D-Bench.

Resumen del paper (Abstract)

A pesar de los avances en los modelos de lenguaje multimodales de gran escala (MLLM), su capacidad para razonar sobre estructuras 3D y dinámicas temporales sigue siendo limitada, restringida por una débil percepción 4D y comprensión temporal. Los benchmarks existentes de preguntas y respuestas sobre video (VQA) en 3D y 4D también ponen énfasis en escenas estáticas y carecen de prompting a nivel de región. Abordamos estos problemas introduciendo: (a) 4D-RGPT, un MLLM especializado diseñado para capturar representaciones 4D a partir de entradas de video con una percepción temporal mejorada; (b) Perceptual 4D Distillation (P4D), un marco de entrenamiento que transfiere representaciones 4D desde un modelo experto congelado a 4D-RGPT para una percepción 4D integral; y (c) R4D-Bench, un benchmark para escenas dinámicas con conciencia de profundidad y prompting a nivel de región, construido mediante un pipeline híbrido automatizado y verificado por humanos. Nuestro 4D-RGPT logra mejoras notables tanto en los benchmarks existentes de VQA 4D como en el benchmark propuesto R4D-Bench.
> Despite advances in Multimodal LLMs (MLLMs), their ability to reason over 3D structures and temporal dynamics remains limited, constrained by weak 4D perception and temporal understanding. Existing 3D and 4D Video Question Answering (VQA) benchmarks also emphasize static scenes and lack region-level prompting. We tackle these issues by introducing: (a) 4D-RGPT, a specialized MLLM designed to capture 4D representations from video inputs with enhanced temporal perception; (b) Perceptual 4D Distillation (P4D), a training framework that transfers 4D representations from a frozen expert model into 4D-RGPT for comprehensive 4D perception; and (c) R4D-Bench, a benchmark for depth-aware dynamic scenes with region-level prompting, built via a hybrid automated and human-verified pipeline. Our 4D-RGPT achieves notable improvements on both existing 4D VQA benchmarks and the proposed R4D-Bench benchmark.

Enlace al paper

https://arxiv.org/abs/2512.17012

Leer más

https://ca-joe-yang.github.io/resource/projects/4D_RGPT

H-Neurons: estudio sobre la existencia, el impacto y el origen de las neuronas asociadas a alucinaciones en modelos de lenguaje de gran escala / H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs

Introducción al paper

El problema de las alucinaciones en los modelos de lenguaje de gran escala (LLM) es uno de los principales factores que perjudican su confiabilidad, y se refiere al fenómeno en el que generan salidas plausibles pero incorrectas en términos fácticos. En este estudio, se analizaron de forma sistemática la existencia, el impacto y el origen de las neuronas asociadas a las alucinaciones, es decir, las H-Neurons. En el proceso de identificación de las H-Neurons, se demostró que un conjunto disperso de neuronas que representa menos del 0.1% del total puede predecir de manera confiable la aparición de alucinaciones. Estas neuronas mostraron una fuerte capacidad de generalización en distintos escenarios.

Desde la perspectiva del impacto conductual, mediante intervenciones controladas se encontró que las H-Neurons están conectadas causalmente con comportamientos de sobrecumplimiento. Esto sugiere que las neuronas que contribuyen a la aparición de alucinaciones no se activan simplemente por casualidad, sino que están estrechamente relacionadas con ciertos patrones de comportamiento. En cuanto a su origen, se confirmó que las H-Neurons provienen de modelos base preentrenados y que mantienen su capacidad predictiva para detectar alucinaciones. Esto aporta una idea importante: las H-Neurons se forman durante las etapas iniciales del aprendizaje del modelo.

En la metodología de investigación, se utilizó el dataset TriviaQA para construir un conjunto de contraste de alta calidad que distingue entre salidas confiables y salidas alucinadas, con el fin de identificar de forma robusta las neuronas asociadas a alucinaciones. Después, se entrenó un clasificador lineal para cuantificar la contribución de cada neurona y, a partir de ello, generar etiquetas binarias que predicen si hay o no alucinación. Este enfoque sentó las bases para evaluar con claridad el impacto funcional de las H-Neurons.

Por último, este estudio contribuye a comprender los mecanismos neuronales relacionados con las alucinaciones en los LLM y proporciona una base importante para el desarrollo futuro de LLM más confiables. Estos hallazgos ofrecen ideas esenciales para la investigación orientada a mejorar la confiabilidad de los LLM y establecen un fundamento importante para futuras líneas de estudio.

Resumen del paper (Abstract)

Los modelos de lenguaje de gran escala (LLM) generan con frecuencia alucinaciones, es decir, salidas plausibles pero que no coinciden con los hechos, lo que perjudica su confiabilidad. Aunque trabajos anteriores han estudiado las alucinaciones desde perspectivas macroscópicas, como los datos de entrenamiento y los objetivos, los mecanismos subyacentes a nivel de neuronas siguen estando en gran medida inexplorados. En este paper, realizamos una investigación sistemática sobre las neuronas asociadas a alucinaciones (H-Neurons) en LLM desde tres perspectivas: identificación, impacto conductual y origen. En cuanto a su identificación, mostramos que un subconjunto de neuronas sorprendentemente disperso (menos del $0.1%$ del total de neuronas) puede predecir de forma confiable la aparición de alucinaciones, con una fuerte generalización en escenarios diversos. En términos de impacto conductual, intervenciones controladas revelan que estas neuronas están vinculadas causalmente con comportamientos de sobrecumplimiento. Respecto a su origen, rastreamos estas neuronas hasta los modelos base preentrenados y encontramos que siguen siendo predictivas para la detección de alucinaciones, lo que indica que emergen durante el preentrenamiento. Nuestros hallazgos conectan patrones de comportamiento macroscópicos con mecanismos neuronales microscópicos, y ofrecen ideas valiosas para desarrollar LLM más confiables.
> Large language models (LLMs) frequently generate hallucinations -- plausible but factually incorrect outputs -- undermining their reliability. While prior work has examined hallucinations from macroscopic perspectives such as training data and objectives, the underlying neuron-level mechanisms remain largely unexplored. In this paper, we conduct a systematic investigation into hallucination-associated neurons (H-Neurons) in LLMs from three perspectives: identification, behavioral impact, and origins. Regarding their identification, we demonstrate that a remarkably sparse subset of neurons (less than $0.1%$ of total neurons) can reliably predict hallucination occurrences, with strong generalization across diverse scenarios. In terms of behavioral impact, controlled interventions reveal that these neurons are causally linked to over-compliance behaviors. Concerning their origins, we trace these neurons back to the pre-trained base models and find that these neurons remain predictive for hallucination detection, indicating they emerge during pre-training. Our findings bridge macroscopic behavioral patterns with microscopic neural mechanisms, offering insights for developing more reliable LLMs.

Enlace al paper

https://arxiv.org/abs/2512.01797

La predicción del siguiente embedding crea aprendices visuales sólidos / Next-Embedding Prediction Makes Strong Vision Learners

Introducción del paper

El aprendizaje auto-supervisado (self-supervised learning) se ha consolidado como una metodología importante para aprender representaciones aprovechando grandes conjuntos de datos sin anotaciones, y recientemente han evolucionado diversos enfoques como el aprendizaje contrastivo (contrastive learning) y la auto-destilación (self-distillation). Sin embargo, estos métodos suelen requerir lotes grandes o memory banks, y los objetivos de reconstrucción (reconstruction objectives) mediante decodificadores ligeros también han mostrado sus limitaciones. Como alternativa, se ha propuesto el aprendizaje de representaciones predictivas (predictive representation learning), un enfoque que predice embeddings semánticos en lugar de entradas sin procesar, y métodos como JEPA (Just-Embedding Predictive Autoregression) han llamado especialmente la atención. No obstante, JEPA está centrado en representaciones y tiene la limitación de generar características que luego son consumidas por módulos downstream por separado.

En este contexto, el enfoque propuesto Next-Embedding Predictive Autoregression (NEPA) predice embeddings de parches futuros condicionados en embeddings de parches pasados, utilizando enmascaramiento causal (causal masking) y la técnica de stop gradient. NEPA se enfoca en entrenar al modelo para realizar directamente la tarea predictiva, en lugar de producir características para tareas downstream. Esta metodología se basa en una arquitectura simple de Transformer y muestra un alto rendimiento tras el preentrenamiento en el dataset ImageNet-1k. En particular, destaca por mantener un rendimiento sólido incluso sin reconstrucción de píxeles, tokens discretos, pérdida contrastiva ni cabezales específicos por tarea.

NEPA alcanzó una precisión top-1 de 83.8% y 85.3% en ImageNet-1K usando backbones ViT-B y ViT-L, respectivamente, y también se transfirió de forma efectiva a la tarea de segmentación semántica (semantic segmentation) en ADE20K. Estos resultados muestran que NEPA puede contribuir al aprendizaje visual auto-supervisado como una alternativa simple, escalable y potencialmente agnóstica a la modalidad. La investigación sobre NEPA plantea la posibilidad de inducir directamente el comportamiento de la tarea a través de la predicción, y representa una contribución importante que abre la puerta a su uso en diversas tareas de visión en el futuro.

Resumen del paper (Abstract)

Inspirados por el éxito del preentrenamiento generativo en lenguaje natural, nos preguntamos si los mismos principios pueden producir aprendices visuales auto-supervisados sólidos. En lugar de entrenar modelos para que produzcan características para uso downstream, los entrenamos para generar embeddings con el fin de realizar directamente tareas predictivas. Este trabajo explora este cambio desde el aprendizaje de representaciones hacia el aprendizaje de modelos. En concreto, los modelos aprenden a predecir embeddings de parches futuros condicionados en los pasados, usando enmascaramiento causal y stop gradient. A esto lo llamamos Next-Embedding Predictive Autoregression (NEPA). Demostramos que un Transformer simple preentrenado en ImageNet-1k con la predicción del siguiente embedding como único objetivo de aprendizaje es efectivo. No se necesita reconstrucción de píxeles, tokens discretos, pérdida contrastiva ni cabezales específicos por tarea. Esta formulación mantiene la simplicidad arquitectónica y la escalabilidad sin requerir complejidad adicional de diseño. NEPA logra resultados sólidos en diversas tareas, registrando una precisión top-1 de 83.8% y 85.3% en ImageNet-1K con backbones ViT-B y ViT-L, y transfiriéndose eficazmente a segmentación semántica en ADE20K. Creemos que el preentrenamiento generativo a partir de embeddings ofrece una alternativa simple, escalable y potencialmente agnóstica a la modalidad para el aprendizaje visual auto-supervisado.

Inspired by the success of generative pretraining in natural language, we ask whether the same principles can yield strong self-supervised visual learners. Instead of training models to output features for downstream use, we train them to generate embeddings to perform predictive tasks directly. This work explores such a shift from learning representations to learning models. Specifically, models learn to predict future patch embeddings conditioned on past ones, using causal masking and stop gradient, which we refer to as Next-Embedding Predictive Autoregression (NEPA). We demonstrate that a simple Transformer pretrained on ImageNet-1k with next embedding prediction as its sole learning objective is effective - no pixel reconstruction, discrete tokens, contrastive loss, or task-specific heads. This formulation retains architectural simplicity and scalability, without requiring additional design complexity. NEPA achieves strong results across tasks, attaining 83.8% and 85.3% top-1 accuracy on ImageNet-1K with ViT-B and ViT-L backbones after fine-tuning, and transferring effectively to semantic segmentation on ADE20K. We believe generative pretraining from embeddings provides a simple, scalable, and potentially modality-agnostic alternative to visual self-supervised learning.

Enlace al paper

https://arxiv.org/abs/2512.16922

Leer más

https://sihanxu.me/nepa

Agentes LLM de razonamiento model-first: reducción de alucinaciones mediante modelado explícito del problema / Model-First Reasoning LLM Agents: Reducing Hallucinations through Explicit Problem Modeling

Introducción del paper

Los modelos de lenguaje de gran escala (LLM) tienden a mostrar una alta tasa de violaciones de restricciones y soluciones inconsistentes en tareas complejas de planificación de múltiples pasos. Las estrategias existentes, como Chain-of-Thought (cadena de pensamiento) y ReAct (acción reactiva), dependen del seguimiento implícito del estado y no han logrado superar estas limitaciones debido a la falta de una representación explícita del problema. Este estudio propone un nuevo paradigma de dos etapas llamado Model-First Reasoning (MFR), inspirado en la planificación clásica de la inteligencia artificial (AI). En este enfoque, el LLM primero construye un modelo explícito del problema y luego genera un plan de solución basándose en él.

MFR mostró, mediante experimentos en múltiples dominios de planificación, mejoras en el cumplimiento de restricciones y en la calidad de las soluciones. En particular, se demostró la efectividad de MFR en diversas áreas, como programación de horarios médicos, planificación de rutas, asignación de recursos, acertijos lógicos y síntesis procedimental. Los estudios de ablación destacaron que la etapa de modelado explícito es esencial para estos resultados. Los hallazgos sugieren que los fallos de planificación de los LLM provienen principalmente de defectos en la representación, y no de límites del razonamiento en sí, sino de una insuficiente representación del problema.

MFR se divide en una etapa de construcción del modelo explícito del problema y otra de generación de la solución; en este proceso se definen entidades, variables de estado, acciones y restricciones. Este modelado explícito ayuda a que el LLM entienda y resuelva el problema de una manera más estructurada. Este trabajo proporciona una base para abordar los fallos de representación en tareas de planificación y razonamiento basadas en LLM, y supone una contribución importante para agentes de AI confiables. Todos los prompts, procedimientos de evaluación y datasets de tareas están documentados para fomentar la reproducibilidad y sentar las bases para futuras investigaciones.

Resumen del paper (Abstract)

Los modelos de lenguaje grandes (LLM) suelen tener dificultades con tareas complejas de planificación de varios pasos, mostrando altas tasas de violación de restricciones y soluciones inconsistentes. Las estrategias existentes, como Chain-of-Thought y ReAct, dependen del seguimiento implícito del estado y carecen de una representación explícita del problema. Inspirados en la planificación clásica de IA, proponemos Model-First Reasoning (MFR), un paradigma de dos fases en el que el LLM primero construye un modelo explícito del problema, definiendo entidades, variables de estado, acciones y restricciones, antes de generar un plan de solución. En múltiples dominios de planificación, incluidos la programación médica, la planificación de rutas, la asignación de recursos, los acertijos lógicos y la síntesis procedural, MFR reduce las violaciones de restricciones y mejora la calidad de las soluciones en comparación con Chain-of-Thought y ReAct. Los estudios de ablación muestran que la fase de modelado explícito es crítica para estas mejoras. Nuestros resultados sugieren que muchos fallos de planificación de los LLM provienen de deficiencias de representación más que de limitaciones de razonamiento, lo que destaca el modelado explícito como un componente clave para agentes de IA robustos e interpretables. Todos los prompts, procedimientos de evaluación y conjuntos de datos de tareas están documentados para facilitar la reproducibilidad.
> Large Language Models (LLMs) often struggle with complex multi-step planning tasks, showing high rates of constraint violations and inconsistent solutions. Existing strategies such as Chain-of-Thought and ReAct rely on implicit state tracking and lack an explicit problem representation. Inspired by classical AI planning, we propose Model-First Reasoning (MFR), a two-phase paradigm in which the LLM first constructs an explicit model of the problem, defining entities, state variables, actions, and constraints, before generating a solution plan. Across multiple planning domains, including medical scheduling, route planning, resource allocation, logic puzzles, and procedural synthesis, MFR reduces constraint violations and improves solution quality compared to Chain-of-Thought and ReAct. Ablation studies show that the explicit modeling phase is critical for these gains. Our results suggest that many LLM planning failures stem from representational deficiencies rather than reasoning limitations, highlighting explicit modeling as a key component for robust and interpretable AI agents. All prompts, evaluation procedures, and task datasets are documented to facilitate reproducibility.

Enlace al paper

https://arxiv.org/abs/2512.14474

No dependamos simplemente del contexto: aprendizaje en tiempo de prueba para LLM de contexto largo / Let's (not) just put things in Context: Test-Time Training for Long-Context LLMs

Introducción al paper

Los avances en los modelos de lenguaje grandes (LLM) han mejorado de forma significativa la capacidad de procesar contextos largos, pero sigue siendo importante resolver el problema de que estos modelos no funcionen realmente de manera efectiva en contextos extensos. Este estudio señala que el método de generar thinking tokens que usan las estrategias existentes en tiempo de inferencia para mejorar el rendimiento tiene limitaciones debido al problema de score dilution. La dilución de puntaje ocurre por las características de la static self-attention, lo que reduce la precisión del modelo en contextos largos.

Para resolver este problema, este trabajo propone una nueva metodología llamada query-only test-time training (qTTT). qTTT supera las limitaciones de la static self-attention mediante actualizaciones de gradiente dirigidas para un contexto dado, con el objetivo de mejorar el rendimiento en contextos largos. Los resultados experimentales muestran que qTTT ofrece un enfoque más efectivo que las estrategias existentes en tiempo de inferencia, y logra mejoras promedio de 12.6 y 14.1 puntos porcentuales en subconjuntos de los benchmarks LongBench-v2 y ZeroScrolls con el modelo Qwen3-4B.

Este estudio enfatiza que, para mejorar el rendimiento en contextos largos, se necesita una pequeña cantidad de aprendizaje especializada para el contexto, lo que implica un mejor aprovechamiento del cómputo de inferencia. La introducción de qTTT presenta un método práctico para maximizar el rendimiento de los LLM de contexto largo y se espera que abra nuevas direcciones para el procesamiento de contextos largos en investigaciones futuras. Este enfoque innovador parece ampliar aún más las posibilidades de uso de los LLM y contribuir a mejorar el rendimiento en diversos campos de aplicación.

Resumen(Abstract)

Los avances en las estrategias de entrenamiento y arquitectura han hecho posibles los modelos de lenguaje a gran escala (LLM) con longitudes de contexto de millones de tokens. Sin embargo, la evidencia empírica sugiere que estos LLM de contexto largo pueden consumir mucho más texto del que realmente pueden usar de forma confiable. Por otro lado, se ha demostrado que el cómputo en tiempo de inferencia puede usarse para escalar el rendimiento de los LLM, a menudo generando tokens de razonamiento, en tareas desafiantes que implican razonamiento de múltiples pasos. A través de experimentos controlados en tareas de contexto largo tipo sandbox, encontramos que estas estrategias en tiempo de inferencia muestran rendimientos decrecientes rápidamente y fallan en contextos largos. Atribuimos estas fallas a la dilución de puntaje (score dilution), un fenómeno inherente a la autoatención estática. Además, mostramos que las estrategias actuales en tiempo de inferencia no pueden recuperar señales relevantes de contexto largo bajo ciertas condiciones. Proponemos un método simple que, mediante actualizaciones de gradiente dirigidas sobre el contexto dado, supera de forma demostrable las limitaciones de la autoatención estática. Encontramos que este cambio en la forma en que se emplea el cómputo en tiempo de inferencia produce mejoras de rendimiento consistentemente grandes en distintos modelos y benchmarks de contexto largo. Nuestro método logra mejoras promedio de 12.6 y 14.1 puntos porcentuales para Qwen3-4B en subconjuntos de los benchmarks LongBench-v2 y ZeroScrolls. La conclusión práctica es la siguiente: para contexto largo, una pequeña cantidad de entrenamiento específico al contexto aprovecha mejor el cómputo de inferencia que las estrategias actuales de escalado en tiempo de inferencia, como generar más tokens de razonamiento.
> Progress on training and architecture strategies has enabled LLMs with millions of tokens in context length. However, empirical evidence suggests that such long-context LLMs can consume far more text than they can reliably use. On the other hand, it has been shown that inference-time compute can be used to scale performance of LLMs, often by generating thinking tokens, on challenging tasks involving multi-step reasoning. Through controlled experiments on sandbox long-context tasks, we find that such inference-time strategies show rapidly diminishing returns and fail at long context. We attribute these failures to score dilution, a phenomenon inherent to static self-attention. Further, we show that current inference-time strategies cannot retrieve relevant long-context signals under certain conditions. We propose a simple method that, through targeted gradient updates on the given context, provably overcomes limitations of static self-attention. We find that this shift in how inference-time compute is spent leads to consistently large performance improvements across models and long-context benchmarks. Our method leads to large 12.6 and 14.1 percentage point improvements for Qwen3-4B on average across subsets of LongBench-v2 and ZeroScrolls benchmarks. The takeaway is practical: for long context, a small amount of context-specific training is a better use of inference compute than current inference-time scaling strategies like producing more thinking tokens.

Enlace al paper

https://arxiv.org/abs/2512.13898

Estabilización del aprendizaje por refuerzo con modelos de lenguaje a gran escala: formulación y prácticas / Stabilizing Reinforcement Learning with LLMs: Formulation and Practices

Introducción al paper

Aunque el aprendizaje por refuerzo (Reinforcement Learning, RL) se ha aplicado con éxito en diversos campos, el problema de la inestabilidad durante el entrenamiento sigue siendo un reto importante por resolver. Este estudio propone una nueva metodología para mejorar la estabilidad del RL utilizando modelos de lenguaje a gran escala (Large Language Models, LLMs). En particular, identifica las condiciones bajo las cuales, mediante REINFORCE, una metodología de gradiente de política, puede optimizarse un objetivo a nivel de token que sustituya la recompensa a nivel de secuencia. A través de una aproximación de primer orden, se muestra que las condiciones para que este objetivo sustituto sea válido son que la discrepancia entre entrenamiento e inferencia y el envejecimiento de la política se minimicen.

Estos hallazgos ayudan a explicar cómo técnicas como la corrección por muestreo por importancia, el clipping y Routing Replay para modelos Mixture-of-Experts (MoE) contribuyen a estabilizar el entrenamiento de RL. Mediante experimentos que abarcan millones de horas de GPU con un modelo MoE de 30B, se demuestra que, en entrenamiento on-policy, el algoritmo base de gradiente de política que incluye corrección por muestreo por importancia alcanza la mayor estabilidad de entrenamiento. Además, al introducir actualizaciones off-policy para acelerar la convergencia, se destaca que la combinación de clipping y Routing Replay es esencial para mitigar la inestabilidad causada por el envejecimiento de la política.

Una vez estabilizado el entrenamiento, se muestra que la optimización continua ofrece un rendimiento final consistente independientemente del método de inicialización. Estos resultados aportan nuevas ideas para un entrenamiento estable de RL y sientan una base importante que puede contribuir a futuras investigaciones. Este paper presenta un enfoque innovador para estabilizar el aprendizaje por refuerzo con modelos de lenguaje a gran escala y constituye una contribución importante para resolver la inestabilidad en el entrenamiento de RL.

Resumen del paper (Abstract)

Este paper propone una nueva formulación para el aprendizaje por refuerzo (RL) con modelos de lenguaje grandes (LLM), y explica por qué y bajo qué condiciones la verdadera recompensa a nivel de secuencia puede optimizarse mediante un objetivo sustituto a nivel de token en métodos de gradiente de política como REINFORCE. En específico, mediante una aproximación de primer orden, los autores muestran que este sustituto se vuelve cada vez más válido solo cuando tanto la discrepancia entre entrenamiento e inferencia como el envejecimiento de la política se minimizan. Esta observación ofrece una explicación fundamentada del papel crucial que cumplen varias técnicas ampliamente adoptadas para estabilizar el entrenamiento de RL, incluidas la corrección por importance sampling, el clipping y, en particular, Routing Replay para modelos Mixture-of-Experts (MoE). A través de experimentos extensivos con un modelo MoE de 30B que consumieron cientos de miles de horas de GPU, muestran que, para el entrenamiento on-policy, el algoritmo básico de gradiente de política con corrección por importance sampling logra la mayor estabilidad de entrenamiento. Cuando se introducen actualizaciones off-policy para acelerar la convergencia, la combinación de clipping y Routing Replay se vuelve esencial para mitigar la inestabilidad causada por el envejecimiento de la política. En particular, una vez que el entrenamiento se estabiliza, una optimización prolongada ofrece de forma consistente un rendimiento final similar sin importar la inicialización en frío. Los autores esperan que las ideas compartidas y las recetas desarrolladas para un entrenamiento de RL estable faciliten investigaciones futuras.
> This paper proposes a novel formulation for reinforcement learning (RL) with large language models, explaining why and under what conditions the true sequence-level reward can be optimized via a surrogate token-level objective in policy gradient methods such as REINFORCE. Specifically, through a first-order approximation, we show that this surrogate becomes increasingly valid only when both the training-inference discrepancy and policy staleness are minimized. This insight provides a principled explanation for the crucial role of several widely adopted techniques in stabilizing RL training, including importance sampling correction, clipping, and particularly Routing Replay for Mixture-of-Experts (MoE) models. Through extensive experiments with a 30B MoE model totaling hundreds of thousands of GPU hours, we show that for on-policy training, the basic policy gradient algorithm with importance sampling correction achieves the highest training stability. When off-policy updates are introduced to accelerate convergence, combining clipping and Routing Replay becomes essential to mitigate the instability caused by policy staleness. Notably, once training is stabilized, prolonged optimization consistently yields comparable final performance regardless of cold-start initialization. We hope that the shared insights and the developed recipes for stable RL training will facilitate future research.

Enlace al paper

https://arxiv.org/abs/2512.01374

Decodificación paralela causal rápida y precisa usando Jacobi Forcing / Fast and Accurate Causal Parallel Decoding using Jacobi Forcing

Introducción al paper

Mientras avanza activamente la investigación para mejorar la velocidad de inferencia de los modelos de lenguaje grandes, este estudio propone una metodología innovadora llamada Jacobi Forcing. Este enfoque se centra en minimizar la latencia de inferencia al hacer posible la decodificación paralela de modelos basados en transformers mediante la generación de múltiples tokens. Los enfoques existentes de diffusion large language models (dLLMs) han mostrado limitaciones para mejorar el rendimiento debido a la discrepancia entre el pre-training y el post-training. En particular, los dLLMs usan atención bidireccional, lo que genera un conflicto con el prior causal y dificulta la reutilización precisa de la KV cache.

Jacobi Forcing es un paradigma de destilación gradual que hace que el modelo aprenda a partir de su propia trayectoria generada de decodificación paralela, permitiéndole convertirse en un decodificador paralelo eficiente mientras conserva las propiedades de inferencia causal aprendidas en el preentrenamiento. El modelo Jacobi Forcing entrenado con esta metodología logró una mejora de 3.8 veces en velocidad wall-clock en benchmarks de código y matemáticas, con una pérdida mínima de rendimiento. Además, al introducir la decodificación multibloque mediante rejection recycling, permitió una capacidad de aceptación de tokens hasta 4.5 veces mayor en cada iteración y logró casi 4.0 veces de mejora en velocidad wall-clock.

Este estudio presenta una metodología que permite una decodificación paralela eficiente manteniendo las propiedades de inferencia causal de los modelos AR mediante Jacobi Forcing, y demuestra el potencial de mejorar de forma revolucionaria la velocidad de inferencia de los modelos de lenguaje grandes. Este enfoque tiene el potencial de mejorar significativamente la eficiencia de los modelos en el campo del NLP y se espera que haga una contribución importante a futuras investigaciones.

Resumen del paper (Abstract)

La generación de múltiples tokens ha surgido como un paradigma prometedor para acelerar la inferencia de modelos grandes basados en transformadores. Los esfuerzos recientes exploran principalmente los modelos de lenguaje grandes de difusión (dLLMs) para decodificación paralela con el fin de reducir la latencia de inferencia. Para alcanzar una calidad de generación a nivel AR, muchas técnicas adaptan modelos AR a dLLMs para habilitar la decodificación paralela. Sin embargo, sufren mejoras de velocidad limitadas en comparación con los modelos AR debido a una discrepancia entre el preentrenamiento y el postentrenamiento. En concreto, la distribución de datos enmascarados durante el postentrenamiento difiere significativamente de la distribución de datos del mundo real observada durante el preentrenamiento, y los dLLMs dependen de atención bidireccional, lo que entra en conflicto con el conocimiento causal aprendido durante el preentrenamiento e impide integrar la reutilización exacta de la caché KV. Para resolver esto, introducimos Jacobi Forcing, un paradigma de destilación progresiva en el que los modelos se entrenan sobre sus propias trayectorias generadas de decodificación paralela, trasladando suavemente los modelos AR hacia decodificadores paralelos eficientes mientras preservan sus propiedades causales de inferencia aprendidas en el preentrenamiento. El modelo entrenado bajo este paradigma, Jacobi Forcing Model, logra una mejora de 3.8x en tiempo de reloj en benchmarks de código y matemáticas con una pérdida mínima de rendimiento. Basándonos en las características de trayectoria de los Jacobi Forcing Models, introducimos decodificación multibloque con reciclaje por rechazo, lo que permite hasta 4.5x más aceptación de tokens por iteración y casi 4.0x de mejora en tiempo de reloj, intercambiando de manera efectiva cómputo adicional por una menor latencia de inferencia. Nuestro código está disponible en https://github.com/hao-ai-lab/JacobiForcing.
> Multi-token generation has emerged as a promising paradigm for accelerating transformer-based large model inference. Recent efforts primarily explore diffusion Large Language Models (dLLMs) for parallel decoding to reduce inference latency. To achieve AR-level generation quality, many techniques adapt AR models into dLLMs to enable parallel decoding. However, they suffer from limited speedup compared to AR models due to a pretrain-to-posttrain mismatch. Specifically, the masked data distribution in post-training deviates significantly from the real-world data distribution seen during pretraining, and dLLMs rely on bidirectional attention, which conflicts with the causal prior learned during pretraining and hinders the integration of exact KV cache reuse. To address this, we introduce Jacobi Forcing, a progressive distillation paradigm where models are trained on their own generated parallel decoding trajectories, smoothly shifting AR models into efficient parallel decoders while preserving their pretrained causal inference property. The models trained under this paradigm, Jacobi Forcing Model, achieves 3.8x wall-clock speedup on coding and math benchmarks with minimal loss in performance. Based on Jacobi Forcing Models' trajectory characteristics, we introduce multi-block decoding with rejection recycling, which enables up to 4.5x higher token acceptance count per iteration and nearly 4.0x wall-clock speedup, effectively trading additional compute for lower inference latency. Our code is available at https://github.com/hao-ai-lab/JacobiForcing.

Enlace al paper

https://arxiv.org/abs/2512.14681

Leer más

https://github.com/hao-ai-lab/JacobiForcing

Perjuicios de los modelos de lenguaje grandes (LLM): taxonomía y discusión / LLM Harms: A Taxonomy and Discussion

Introducción al paper

Este estudio aborda las categorías de perjuicios asociadas con los modelos de lenguaje grandes (LLM). La investigación presenta cinco categorías de perjuicios que pueden surgir antes, durante y después del desarrollo de aplicaciones de IA: predesarrollo, salida directa, uso indebido y aplicaciones maliciosas, y aplicaciones posteriores. Destaca la necesidad de definir los riesgos en el entorno actual y presenta formas de gestionar la responsabilidad, la transparencia y los sesgos. Además, propone estrategias de mitigación para dominios específicos y direcciones futuras, e incluye una propuesta estandarizada para orientar un sistema de auditoría dinámica para el desarrollo e integración responsables de los LLM.

Resumen del paper (Abstract)

Este estudio aborda las categorías de perjuicios que rodean a los modelos de lenguaje grandes (LLMs) en el campo de la inteligencia artificial. Trata cinco categorías de perjuicios abordadas antes, durante y después del desarrollo de aplicaciones de IA: predesarrollo, salida directa, uso indebido y aplicación maliciosa, y aplicación posterior. Al subrayar la necesidad de definir los riesgos del panorama actual para garantizar la rendición de cuentas, la transparencia y el manejo de los sesgos al adaptar los LLM para aplicaciones prácticas. También propone estrategias de mitigación y direcciones futuras para dominios específicos, así como un sistema de auditoría dinámica que oriente el desarrollo y la integración responsables de los LLM en una propuesta estandarizada.
> This study addresses categories of harm surrounding Large Language Models (LLMs) in the field of artificial intelligence. It addresses five categories of harms addressed before, during, and after development of AI applications: pre-development, direct output, Misuse and Malicious Application, and downstream application. By underscoring the need to define risks of the current landscape to ensure accountability, transparency and navigating bias when adapting LLMs for practical applications. It proposes mitigation strategies and future directions for specific domains and a dynamic auditing system guiding responsible development and integration of LLMs in a standardized proposal.

Enlace al paper

https://arxiv.org/abs/2512.05929

⚠️Publicidad⚠️: ¿Te resultó útil este artículo recopilado por 🔥PyTorch Korean User Group🇰🇷? Si te registras como miembro, te enviaremos por correo electrónico💌 los artículos principales. (La opción predeterminada es Weekly, pero también puedes cambiarla a Daily.)

[2025/12/22 ~ 28] Selección de papers de AI/ML para revisar esta semana