[2024/06/17 ~ 06/23] Los principales artículos de ML de esta semana (Top ML Papers of the Week)

Hemos traducido automáticamente los artículos sobre papers de ML que DAIR.AI publica cada semana.
Al revisar los papers seleccionados esta semana, se pueden identificar en grande dos tendencias principales. Primero, la mayoría de los trabajos se concentra en temas relacionados con el procesamiento de lenguaje natural (NLP). Entre ellos, destacan especialmente los métodos para mejorar la eficiencia de los modelos de lenguaje (LM) que manejan contextos largos, así como de los sistemas de recuperación de información y respuesta a preguntas (QA). Por ejemplo, trabajos como ‘Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?’ exploran el potencial de los modelos de lenguaje para comprender contextos extensos, mientras que ‘PlanRAG’ y ‘From RAG to Rich Parameters’ presentan nuevos enfoques para mejorar los sistemas de recuperación de información y respuesta a preguntas.
Otra tendencia destacable es el intento de mitigar la memorization (fenómeno de memorización) de los modelos de lenguaje o de mejorar su desempeño mediante procesos de self-refine (auto-refinamiento). ‘Mitigating Memorization in LLMs’ y ‘Monte Carlos Tree Self-Refine’ son trabajos llamativos desde esta perspectiva. Mitigar el fenómeno de memorización es importante para que los modelos de lenguaje no se limiten a repetir los datos de entrenamiento, sino que puedan aprender conocimiento más generalizable y generar respuestas creativas. Esta es una de las claves para maximizar la practicidad y utilidad de los modelos de lenguaje.
Es probable que estas tendencias estén siendo impulsadas por diversos factores. En primer lugar, la importancia del procesamiento de lenguaje natural dentro del campo de la inteligencia artificial sigue creciendo día a día, y los avances técnicos en esta área ocurren con rapidez. En segundo lugar, a medida que la cantidad de información se vuelve enorme, aumenta la necesidad de tecnologías capaces de procesarla de manera eficaz y de ofrecer información útil a los usuarios. Por último, aunque los modelos de lenguaje recientes son cada vez más complejos y potentes, sigue existiendo una demanda constante de nuevos enfoques para resolver los problemas que enfrentan esos modelos. Para responder a estas necesidades, los investigadores continúan buscando nuevas ideas y metodologías que vayan más allá de los marcos existentes.

Claude 3.5 Sonnet / Claude 3.5 Sonnet

Presentación del paper

Un nuevo modelo que alcanza rendimiento de vanguardia en varios benchmarks comunes como MMLU y HumanEval; supera a Claude 3 Opus y GPT-4o en varios benchmarks, con excepción de las tareas de resolución de problemas matemáticos en lenguaje natural; también logra un sólido rendimiento en tareas de visión, lo que impulsa varias funciones nuevas como la transcripción de texto en imágenes y la generación de artefactos.

A new model that achieves state-of-the-art performance on several common benchmarks such as MMLU and HumanEval; it outperforms Claude 3 Opus and GPT-4o on several benchmarks with the exception of math word problem-solving tasks; achieves strong performance on vision tasks which also helps power several new features like image-text transcription and generation of artifacts.

Enlace del paper

https://www.anthropic.com/news/claude-3-5-sonnet

Leer más

https://discuss.pytorch.kr/t/gn-claude-3-5-sonnet-gpt4o/4665

https://x.com/AnthropicAI/status/1803790676988920098

DeepSeek-Coder-V2

Presentación del paper

Compite con modelos de código cerrado en tareas de generación de código y matemáticas; alcanza 90.2% en HumanEval y 75.7% en MATH; según el informe, estos resultados superan el rendimiento de GPT-4-Turbo-0409; incluye modelos de 16B y 236B parámetros con longitud de contexto de 128K.

Competes with closed-sourced models on code and math generation tasks; achieves 90.2% on HumanEval and 75.7% on MATH; these results are higher than GPT-4-Turbo-0409 performance according to their report; includes a 16B and 236B parameter model with 128K context length.

Resumen del paper (Abstract)

Presentamos DeepSeek-Coder-V2, un modelo de lenguaje para código open source de mezcla de expertos (MoE) que logra un rendimiento comparable a GPT4-Turbo en tareas específicas de código. En concreto, DeepSeek-Coder-V2 recibe preentrenamiento adicional a partir de un checkpoint intermedio de DeepSeek-V2 con 6 billones de tokens adicionales. Mediante este preentrenamiento continuo, DeepSeek-Coder-V2 mejora sustancialmente las capacidades de codificación y razonamiento matemático de DeepSeek-V2, mientras mantiene un rendimiento comparable en tareas generales de lenguaje. En comparación con DeepSeek-Coder-33B, DeepSeek-Coder-V2 muestra avances significativos en varios aspectos de las tareas relacionadas con código, así como en razonamiento y capacidades generales. Además, DeepSeek-Coder-V2 amplía su soporte de lenguajes de programación de 86 a 338, al tiempo que extiende la longitud de contexto de 16K a 128K. En evaluaciones estándar de benchmarks, DeepSeek-Coder-V2 logra un rendimiento superior al de modelos de código cerrado como GPT4-Turbo, Claude 3 Opus y Gemini 1.5 Pro en benchmarks de código y matemáticas.

We present DeepSeek-Coder-V2, an open-source Mixture-of-Experts (MoE) code language model that achieves performance comparable to GPT4-Turbo in code-specific tasks. Specifically, DeepSeek-Coder-V2 is further pre-trained from an intermediate checkpoint of DeepSeek-V2 with additional 6 trillion tokens. Through this continued pre-training, DeepSeek-Coder-V2 substantially enhances the coding and mathematical reasoning capabilities of DeepSeek-V2, while maintaining comparable performance in general language tasks. Compared to DeepSeek- Coder-33B, DeepSeek-Coder-V2 demonstrates significant advancements in various aspects of code-related tasks, as well as reasoning and general capabilities. Additionally, DeepSeek-Coder- V2 expands its support for programming languages from 86 to 338, while extending the context length from 16K to 128K. In standard benchmark evaluations, DeepSeek-Coder-V2 achieves superior performance compared to closed-source models such as GPT4-Turbo, Claude 3 Opus, and Gemini 1.5 Pro in coding and math benchmarks.

Enlace del paper

https://github.com/deepseek-ai/DeepSeek-Coder-V2/blob/main/paper.pdf

Leer más

https://github.com/deepseek-ai/DeepSeek-Coder-V2

https://x.com/omarsar0/status/1803078095219417475

TextGrad: "Diferenciación" automática mediante texto / TextGrad: Automatic "Differentiation" via Text

Presentación del paper

Un nuevo marco para la diferenciación automática mediante retropropagación sobre retroalimentación textual proporcionada por un LLM mejora componentes individuales, y el lenguaje natural ayuda a optimizar el grafo computacional; funciona proporcionando una función objetivo sin ajustar prompts ni componentes; afirma lograr la mejor puntuación en LeetCodeHard y rendimiento SoTA en GPQA cuando se combina con GPT4o.

A new framework for automatic differentiation through backpropagation on textual feedback provided by an LLM; this improves individual components and the natural language helps to optimize the computation graph; it works by providing an objective function without tuning prompts or components; claims to achieve LeetCodeHard best scores and SoTA performance on GPQA when combined with GPT4o.

Resumen del artículo (Abstract)

La IA está atravesando un cambio de paradigma, con avances logrados por sistemas que orquestan múltiples modelos de lenguaje de gran tamaño (LLM) y otros componentes complejos. Como resultado, desarrollar métodos de optimización automatizados y con fundamentos sólidos para sistemas de IA compuestos es uno de los nuevos desafíos más importantes. Las redes neuronales enfrentaron un reto similar en sus primeros días, hasta que la retropropagación y la diferenciación automática transformaron el campo al volver la optimización un proceso llave en mano. Inspirados por esto, presentamos TextGrad, un potente framework que realiza “diferenciación” automática mediante texto. TextGrad retropropaga la retroalimentación textual proporcionada por LLM para mejorar componentes individuales de un sistema de IA compuesto. En nuestro framework, los LLM proporcionan sugerencias ricas, generales y en lenguaje natural para optimizar variables en grafos computacionales, desde fragmentos de código hasta estructuras moleculares. TextGrad sigue la sintaxis y las abstracciones de PyTorch, y es flexible y fácil de usar. Funciona de inmediato para una variedad de tareas en las que los usuarios solo proporcionan la función objetivo, sin ajustar componentes ni prompts del framework. Mostramos la efectividad y generalidad de TextGrad en una amplia gama de aplicaciones, desde preguntas y respuestas y optimización de moléculas hasta planificación de radioterapia. Sin modificar el framework, TextGrad mejora la precisión zero-shot de GPT-4o en Google-Proof Question Answering de $51%$ a $55%$, produce una ganancia relativa de rendimiento de $20%$ en la optimización de soluciones para problemas de programación LeetCode-Hard, mejora prompts para razonamiento, diseña nuevas moléculas pequeñas tipo fármaco con unión in silico deseable, y diseña planes de tratamiento en oncología radioterápica con alta especificidad. TextGrad sienta las bases para acelerar el desarrollo de la próxima generación de sistemas de IA.

AI is undergoing a paradigm shift, with breakthroughs achieved by systems orchestrating multiple large language models (LLMs) and other complex components. As a result, developing principled and automated optimization methods for compound AI systems is one of the most important new challenges. Neural networks faced a similar challenge in its early days until backpropagation and automatic differentiation transformed the field by making optimization turn-key. Inspired by this, we introduce TextGrad, a powerful framework performing automatic ``differentiation'' via text. TextGrad backpropagates textual feedback provided by LLMs to improve individual components of a compound AI system. In our framework, LLMs provide rich, general, natural language suggestions to optimize variables in computation graphs, ranging from code snippets to molecular structures. TextGrad follows PyTorch's syntax and abstraction and is flexible and easy-to-use. It works out-of-the-box for a variety of tasks, where the users only provide the objective function without tuning components or prompts of the framework. We showcase TextGrad's effectiveness and generality across a diverse range of applications, from question answering and molecule optimization to radiotherapy treatment planning. Without modifying the framework, TextGrad improves the zero-shot accuracy of GPT-4o in Google-Proof Question Answering from $51%$ to $55%$, yields $20%$ relative performance gain in optimizing LeetCode-Hard coding problem solutions, improves prompts for reasoning, designs new druglike small molecules with desirable in silico binding, and designs radiation oncology treatment plans with high specificity. TextGrad lays a foundation to accelerate the development of the next-generation of AI systems.

Enlace al artículo

https://arxiv.org/abs/2406.07496v1

Leer más

https://x.com/james_y_zou/status/1800917174124740667

¿Pueden los modelos de lenguaje de contexto largo sustituir la búsqueda, RAG, SQL y más? / Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

Introducción del artículo

Realiza un análisis profundo del rendimiento de los LLM de contexto largo en recuperación y razonamiento en contexto; primero presenta un benchmark con tareas del mundo real que requieren un contexto de 1 millón de tokens; informa que los LLM de contexto largo pueden competir con sistemas de búsqueda y RAG de última generación, sin entrenamiento explícito en esas tareas; sugiere que el razonamiento composicional (necesario en tareas similares a SQL) sigue siendo difícil para estos LLM; también destaca la necesidad de continuar investigando estrategias avanzadas de prompting, ya que observaron mejoras significativas de rendimiento al aplicarlas a problemas de contexto largo.

Conducts a deep performance analysis of long-context LLMs on in-context retrieval and reasoning; they first present a benchmark with real-world tasks requiring 1M token context; reports that long-context LLMs can rival state-of-the-art retrieval and RAG systems, without any explicit training on the tasks; suggests that compositional reasoning (required in SQL-like tasks) is still challenging for these LLMs; they also encourage the need for continued research on advanced prompting strategies as they noted significant boosts in performance when applying them for long context problems.

Resumen del artículo (Abstract)

Los modelos de lenguaje de contexto largo (LCLM) tienen el potencial de revolucionar nuestro enfoque de tareas que tradicionalmente dependían de herramientas externas como sistemas de búsqueda o bases de datos. Aprovechar la capacidad de los LCLM para ingerir y procesar de forma nativa corpus completos de información ofrece numerosas ventajas. Mejora la facilidad de uso al eliminar la necesidad de conocimientos especializados sobre herramientas, proporciona un modelado robusto de extremo a extremo que minimiza los errores en cascada en pipelines complejos y permite aplicar técnicas sofisticadas de prompting en todo el sistema. Para evaluar este cambio de paradigma, presentamos LOFT, un benchmark de tareas del mundo real que requieren contextos de hasta millones de tokens, diseñado para evaluar el desempeño de los LCLM en recuperación y razonamiento en contexto. Nuestros hallazgos revelan la sorprendente capacidad de los LCLM para competir con sistemas de búsqueda y RAG de última generación, a pesar de no haber sido entrenados explícitamente para estas tareas. Sin embargo, los LCLM todavía enfrentan desafíos en áreas como el razonamiento composicional, necesario en tareas similares a SQL. En particular, las estrategias de prompting influyen significativamente en el desempeño, lo que subraya la necesidad de seguir investigando a medida que crecen las longitudes de contexto. En conjunto, LOFT ofrece un entorno riguroso de evaluación para los LCLM, mostrando su potencial para sustituir paradigmas existentes y abordar tareas nuevas a medida que escalan las capacidades de los modelos.

Long-context language models (LCLMs) have the potential to revolutionize our approach to tasks traditionally reliant on external tools like retrieval systems or databases. Leveraging LCLMs' ability to natively ingest and process entire corpora of information offers numerous advantages. It enhances user-friendliness by eliminating the need for specialized knowledge of tools, provides robust end-to-end modeling that minimizes cascading errors in complex pipelines, and allows for the application of sophisticated prompting techniques across the entire system. To assess this paradigm shift, we introduce LOFT, a benchmark of real-world tasks requiring context up to millions of tokens designed to evaluate LCLMs' performance on in-context retrieval and reasoning. Our findings reveal LCLMs' surprising ability to rival state-of-the-art retrieval and RAG systems, despite never having been explicitly trained for these tasks. However, LCLMs still face challenges in areas like compositional reasoning that are required in SQL-like tasks. Notably, prompting strategies significantly influence performance, emphasizing the need for continued research as context lengths grow. Overall, LOFT provides a rigorous testing ground for LCLMs, showcasing their potential to supplant existing paradigms and tackle novel tasks as model capabilities scale.

Enlace al artículo

https://arxiv.org/abs/2406.13121

Leer más

https://github.com/google-deepmind/loft

https://x.com/omarsar0/status/1804184820806766875

PlanRAG: generación aumentada por recuperación con planificación previa para grandes modelos de lenguaje generativos como responsables de la toma de decisiones / PlanRAG: A Plan-then-Retrieval Augmented Generation for Generative Large Language Models as Decision Makers

Presentación del artículo

Mejora la toma de decisiones con una nueva técnica de RAG llamada planificación iterativa seguida de RAG (PlanRAG); consta de dos pasos: 1) un LM genera el plan para la toma de decisiones examinando el esquema de datos y las preguntas, y 2) el recuperador genera las consultas para el análisis de datos. El paso final verifica si se necesita un nuevo plan para análisis adicional y repite los pasos anteriores o toma una decisión sobre los datos. Se encontró que PlanRAG es más efectivo que el RAG iterativo en las tareas propuestas de Decision QA.

Enhances decision making with a new RAG technique called iterative plan-then-RAG (PlanRAG); involves two steps: 1) an LM generates the plan for decision making by examining data schema and questions and 2) the retriever generates the queries for data analysis; the final step checks if a new plan for further analysis is needed and iterates on previous steps or makes a decision on the data; PlanRAG is found to be more effective than iterative RAG on the proposed Decision QA tasks.

Resumen del artículo (Abstract)

Este artículo estudia el uso de LLM como solución para la toma de decisiones que requiere análisis de datos complejos. Define Decision QA como la tarea de responder cuál es la mejor decisión, $d_{best}$, para una pregunta de toma de decisiones $Q$, reglas de negocio $R$ y una base de datos $D$. Como no existe un benchmark para evaluar Decision QA, propone DQA, un benchmark de Decision QA. Este benchmark tiene dos escenarios, Locating y Building, construidos a partir de dos videojuegos (Europa Universalis IV y Victoria 3) que tienen prácticamente el mismo objetivo que Decision QA. Para abordar Decision QA de manera efectiva, también propone una nueva técnica de RAG llamada iterative plan-then-retrieval augmented generation (PlanRAG). El LM basado en PlanRAG genera primero un plan para la toma de decisiones, y en el segundo paso el recuperador genera las consultas para el análisis de datos. El método propuesto superó al método iterativo de RAG más avanzado por 15.8% en el escenario Locating y por 7.4% en el escenario Building, respectivamente. El código y el benchmark están disponibles en https://github.com/myeon9h/PlanRAG.

In this paper, we conduct a study to utilize LLMs as a solution for decision making that requires complex data analysis. We define Decision QA as the task of answering the best decision, $d_{best}$, for a decision-making question $Q$, business rules $R$ and a database $D$. Since there is no benchmark that can examine Decision QA, we propose Decision QA benchmark, DQA. It has two scenarios, Locating and Building, constructed from two video games (Europa Universalis IV and Victoria 3) that have almost the same goal as Decision QA. To address Decision QA effectively, we also propose a new RAG technique called the iterative plan-then-retrieval augmented generation (PlanRAG). Our PlanRAG-based LM generates the plan for decision making as the first step, and the retriever generates the queries for data analysis as the second step. The proposed method outperforms the state-of-the-art iterative RAG method by 15.8% in the Locating scenario and by 7.4% in the Building scenario, respectively. We release our code and benchmark at https://github.com/myeon9h/PlanRAG.

Enlace al artículo

https://arxiv.org/abs/2406.12430

Leer más

https://github.com/myeon9h/PlanRAG

https://x.com/omarsar0/status/1803262374574448757

No memorices como un pez dorado: mitigación de la memorización en LLM generativos / Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs

Introducción al artículo

Presenta una modificación del objetivo de predicción del siguiente token llamada goldfish loss para ayudar a mitigar la generación literal de datos de entrenamiento memorizados; usa una técnica simple que excluye un subconjunto seudoaleatorio de tokens de entrenamiento durante el entrenamiento; muestran que goldfish loss resiste la memorización y mantiene útil al modelo; sin embargo, puede requerir más tiempo de entrenamiento para aprender de manera más efectiva a partir de los datos de entrenamiento.

Presents a modification of the next-token prediction objective called goldfish loss to help mitigate the verbatim generation of memorized training data; it uses a simple technique that excludes a pseudorandom subset of training tokens at training time; they show that the goldfish loss resists memorization and keeps the model useful; however, it may need to train for longer to more effectively learn from the training data.

Resumen del artículo (Abstract)

Los modelos de lenguaje de gran escala pueden memorizar y repetir sus datos de entrenamiento, lo que genera riesgos de privacidad y copyright. Para mitigar la memorización, introducen una sutil modificación al objetivo de entrenamiento del siguiente token que llaman goldfish loss. Durante el entrenamiento, un subconjunto de tokens muestreado aleatoriamente se excluye del cálculo de la pérdida. Estos tokens descartados no son memorizados por el modelo, lo que puede evitar la reproducción literal de una cadena completa de tokens del conjunto de entrenamiento. Tras ejecutar experimentos extensivos entrenando modelos Llama-2 de escala de miles de millones de parámetros, tanto preentrenados como entrenados desde cero, demostraron reducciones significativas en la memorización extraíble con poco o ningún impacto en los benchmarks downstream.

Large language models can memorize and repeat their training data, causing privacy and copyright risks. To mitigate memorization, we introduce a subtle modification to the next-token training objective that we call the goldfish loss. During training, a randomly sampled subset of tokens are excluded from the loss computation. These dropped tokens are not memorized by the model, which prevents verbatim reproduction of a complete chain of tokens from the training set. We run extensive experiments training billion-scale Llama-2 models, both pre-trained and trained from scratch, and demonstrate significant reductions in extractable memorization with little to no impact on downstream benchmarks.

Enlace al artículo

https://arxiv.org/abs/2406.10209

Leer más

https://github.com/ahans30/goldfish-loss

https://x.com/omarsar0/status/1802729440163647754

Accediendo a soluciones de olimpiadas matemáticas a nivel GPT-4 mediante auto-refinamiento con árbol de Monte Carlo usando LLaMa-3 8B / Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B

Introducción al artículo

Se reporta haber alcanzado soluciones de olimpiadas matemáticas a nivel GPT-4 usando un enfoque que integra LLM con Monte Carlo Tree Search; este enfoque se centra en mejorar el rendimiento de razonamiento matemático del sistema mediante capacidades como exploración sistemática, auto-refinamiento y autoevaluación.

Report to have achieved GPT-4 level mathematical olympiad solution using an approach that integrates LLMs with Monte Carlo Tree Search; this approach focuses on enhancing the mathematical reasoning performance of the system through capabilities such as systematic exploration, self-refinement, and self-evaluation.

Resumen del artículo (Abstract)

Este libro blanco presenta el algoritmo MCT Self-Refine (MCTSr), una integración innovadora de modelos de lenguaje de gran tamaño (LLM) con Monte Carlo Tree Search (MCTS), diseñada para mejorar el rendimiento en tareas complejas de razonamiento matemático. En particular, MCTSr aborda los problemas de precisión y confiabilidad de los LLM en razonamiento estratégico y matemático, aprovechando la exploración sistemática y mecanismos heurísticos de autocorrección para mejorar el marco de toma de decisiones dentro de los LLM. El algoritmo construye un árbol de búsqueda de Monte Carlo mediante un proceso iterativo de selección, autocorrección, autoevaluación y retropropagación, y utiliza una fórmula mejorada de Upper Confidence Bound (UCB) para optimizar el equilibrio entre exploración y explotación. Experimentos extensivos demostraron la eficacia de MCTSr para resolver problemas matemáticos de nivel Olimpiada, mejorando de forma significativa las tasas de éxito en múltiples conjuntos de datos, incluidos GSM8K, GSM Hard, MATH y benchmarks de nivel Olimpiada como Math Odyssey, AIME y OlympiadBench. Este estudio impulsa la aplicación de los LLM en tareas complejas de razonamiento y sienta una base para futuras integraciones de IA, mejorando la precisión y la confiabilidad en la toma de decisiones de aplicaciones impulsadas por LLM.

This paper introduces the MCT Self-Refine (MCTSr) algorithm, an innovative integration of Large Language Models (LLMs) with Monte Carlo Tree Search (MCTS), designed to enhance performance in complex mathematical reasoning tasks. Addressing the challenges of accuracy and reliability in LLMs, particularly in strategic and mathematical reasoning, MCTSr leverages systematic exploration and heuristic self-refine mechanisms to improve decision-making frameworks within LLMs. The algorithm constructs a Monte Carlo search tree through iterative processes of Selection, self-refine, self-evaluation, and Backpropagation, utilizing an improved Upper Confidence Bound (UCB) formula to optimize the exploration-exploitation balance. Extensive experiments demonstrate MCTSr's efficacy in solving Olympiad-level mathematical problems, significantly improving success rates across multiple datasets, including GSM8K, GSM Hard, MATH, and Olympiad-level benchmarks, including Math Odyssey, AIME, and OlympiadBench. The study advances the application of LLMs in complex reasoning tasks and sets a foundation for future AI integration, enhancing decision-making accuracy and reliability in LLM-driven applications.

Enlace al artículo

https://arxiv.org/abs/2406.07394v2

Leer más

https://x.com/rohanpaul_ai/status/1801259208341373013

De RAG a parámetros enriquecidos: investigando cómo los modelos de lenguaje utilizan conocimiento externo por encima de la información paramétrica para consultas factuales / From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries

Introducción del artículo

Al examinar más de cerca cómo los LLM utilizan conocimiento externo en lugar de información paramétrica para consultas factuales, se descubrió que, en un pipeline de RAG, los LLM tienden fuertemente a tomar un "atajo" y usar solo la información de contexto para responder la pregunta, apoyándose mínimamente en su memoria paramétrica.

Investigates more closely how LLMs utilize external knowledge over parametric information for factual queries; finds that in a RAG pipeline, LLMs take a “shortcut” and display a strong bias towards utilizing only the context information to answer the question, while relying minimally on their parametric memory.

Resumen del artículo (Abstract)

La generación aumentada por recuperación (RAG) enriquece la capacidad de los modelos de lenguaje para razonar usando contexto externo y así reforzar las respuestas a un prompt dado por el usuario. Este enfoque ha ganado popularidad por sus aplicaciones prácticas en distintos usos de los modelos de lenguaje, como búsqueda, preguntas y respuestas, y chatbots. Sin embargo, no se comprende con claridad la naturaleza exacta de cómo funciona este enfoque. En este artículo, examinamos mecánicamente el pipeline de RAG para destacar que los modelos de lenguaje toman atajos y muestran un fuerte sesgo hacia utilizar solo la información de contexto para responder la pregunta, mientras dependen mínimamente de su memoria paramétrica. Investigamos este comportamiento mecanístico en modelos de lenguaje mediante: (i) análisis de mediación causal, para mostrar que la memoria paramétrica se utiliza mínimamente al responder una pregunta, y (ii) contribuciones de atención y knockouts, para mostrar que el flujo residual del último token no se enriquece a partir del token sujeto de la pregunta, sino a partir de otros tokens informativos del contexto. Encontramos que este marcado comportamiento de atajo se cumple tanto en la familia de modelos LLaMa como en la de Phi.

Retrieval Augmented Generation (RAG) enriches the ability of language models to reason using external context to augment responses for a given user prompt. This approach has risen in popularity due to practical applications in various applications of language models in search, question/answering, and chat-bots. However, the exact nature of how this approach works isn't clearly understood. In this paper, we mechanistically examine the RAG pipeline to highlight that language models take shortcut and have a strong bias towards utilizing only the context information to answer the question, while relying minimally on their parametric memory. We probe this mechanistic behavior in language models with: (i) Causal Mediation Analysis to show that the parametric memory is minimally utilized when answering a question and (ii) Attention Contributions and Knockouts to show that the last token residual stream do not get enriched from the subject token in the question, but gets enriched from other informative tokens in the context. We find this pronounced shortcut behaviour true across both LLaMa and Phi family of models.

Enlace al artículo

https://arxiv.org/abs/2406.12824

Leer más

https://x.com/omarsar0/status/1803254134289895555

Open-Sora

Introducción del artículo

Un modelo open source de generación de video que puede generar videos de 16 segundos en 720p, un modelo de 1.1B parámetros entrenado con más de 30 millones de datos que ahora también soporta image-to-video; presenta un modelo de difusión mejorado y una red de compresión de video para compresión espacial y temporal, aumentando la capacidad de control de la generación y reduciendo los costos de entrenamiento.

An open-source video generation model that can generate 16-second 720p videos; it’s a 1.1B parameter model trained on more than 30m data and now supports image-to-video; presents an enhanced diffusion model and video compression network for spatial and temporal compression; increases controllability of generations and reduces training costs.

Enlace al artículo

[IMG] Open-Sora 1.2 Report|1028x812

Leer más

https://discuss.pytorch.kr/t/open-sora-feat-hpc-ai/3794

https://x.com/omarsar0/status/1803176105010171957

Búsqueda en árbol para agentes de modelos de lenguaje / Tree Search for Language Model Agents

Introducción al artículo

Propone un algoritmo de búsqueda en árbol en tiempo de inferencia para que los agentes LM realicen exploración y habiliten razonamiento de múltiples pasos; fue probado en entornos web interactivos y aplicado a GPT-4o para mejorar significativamente el rendimiento; demuestra que el rendimiento escala al aumentar el cómputo en tiempo de prueba.

Proposes an inference-time tree search algorithm for LM agents to perform exploration and enable multi-step reasoning; it’s tested on interactive web environments and applied to GPT-4o to significantly improve performance; demonstrates that performance scales when increasing test-time compute.

Resumen del artículo (Abstract)

Los agentes autónomos impulsados por modelos de lenguaje (LM) han mostrado potencial por su capacidad para realizar tareas de toma de decisiones como la automatización web. Sin embargo, sigue existiendo un desafío fundamental: los LM, optimizados principalmente para la comprensión y generación de lenguaje natural, tienen dificultades con el razonamiento de múltiples pasos, la planificación y el uso de la retroalimentación del entorno al intentar resolver tareas informáticas realistas. Para abordar esto, proponemos un algoritmo de búsqueda en tiempo de inferencia que permite a los agentes LM realizar explícitamente exploración y planificación de múltiples pasos en entornos web interactivos. Nuestro enfoque es una forma de búsqueda en árbol best-first que opera dentro del espacio del entorno real, y es complementario con la mayoría de los agentes de última generación existentes. Es el primer algoritmo de búsqueda en árbol para agentes LM que demuestra efectividad en tareas web realistas. En el desafiante benchmark VisualWebArena, aplicar nuestro algoritmo de búsqueda sobre un agente GPT-4o produce un aumento relativo del 39.7% en la tasa de éxito en comparación con la misma línea base sin búsqueda, estableciendo una tasa de éxito state of the art de 26.4%. En WebArena, la búsqueda también produce una mejora relativa del 28.0% sobre un agente base, logrando una tasa de éxito competitiva de 19.2%. Nuestros experimentos destacan la efectividad de la búsqueda para agentes web y demuestran que el rendimiento escala a medida que aumenta el cómputo en tiempo de prueba. Realizamos un análisis exhaustivo de nuestros resultados para resaltar las mejoras derivadas de la búsqueda, sus limitaciones y direcciones prometedoras para trabajos futuros.

Autonomous agents powered by language models (LMs) have demonstrated promise in their ability to perform decision-making tasks such as web automation. However, a fundamental challenge remains: LMs, primarily optimized for natural language understanding and generation, struggle with multi-step reasoning, planning, and using environmental feedback when attempting to solve realistic computer tasks. Towards addressing this, we propose an inference-time search algorithm for LM agents to explicitly perform exploration and multi-step planning in interactive web environments. Our approach is a form of best-first tree search that operates within the actual environment space, and is complementary with most existing state-of-the-art agents. It is the first tree search algorithm for LM agents that shows effectiveness on realistic web tasks. On the challenging VisualWebArena benchmark, applying our search algorithm on top of a GPT-4o agent yields a 39.7% relative increase in success rate compared to the same baseline without search, setting a state-of-the-art success rate of 26.4%. On WebArena, search also yields a 28.0% relative improvement over a baseline agent, setting a competitive success rate of 19.2%. Our experiments highlight the effectiveness of search for web agents, and we demonstrate that performance scales with increased test-time compute. We conduct a thorough analysis of our results to highlight improvements from search, limitations, and promising directions for future work.

Este artículo fue resumido con un modelo GPT, por lo que puede contener errores; por favor consulta también el texto original al final. Si al leer encuentras contenido extraño o incorrecto, te agradeceremos que nos lo informes en los comentarios. 🤗

⚠️Publicidad⚠️: ¿Te resultó útil este artículo recopilado por 🔥la comunidad de usuarios de PyTorch en Corea🇰🇷? Si te registras como miembro, te enviaremos los artículos principales por correo electrónico💌. (La configuración predeterminada es Weekly, pero también puedes cambiarla a Daily).

[2024/06/17 ~ 06/23] Los principales artículos de ML de esta semana (Top ML Papers of the Week)

Claude 3.5 Sonnet / Claude 3.5 Sonnet

Presentación del paper

Enlace del paper

Leer más

DeepSeek-Coder-V2

Presentación del paper

Resumen del paper (Abstract)

Enlace del paper

Leer más

TextGrad: "Diferenciación" automática mediante texto / TextGrad: Automatic "Differentiation" via Text

Presentación del paper

Resumen del artículo (Abstract)

Enlace al artículo

Leer más

¿Pueden los modelos de lenguaje de contexto largo sustituir la búsqueda, RAG, SQL y más? / Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

Introducción del artículo

Resumen del artículo (Abstract)

Enlace al artículo

Leer más

PlanRAG: generación aumentada por recuperación con planificación previa para grandes modelos de lenguaje generativos como responsables de la toma de decisiones / PlanRAG: A Plan-then-Retrieval Augmented Generation for Generative Large Language Models as Decision Makers

Presentación del artículo

Resumen del artículo (Abstract)

Enlace al artículo

Leer más

No memorices como un pez dorado: mitigación de la memorización en LLM generativos / Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs

Introducción al artículo

Resumen del artículo (Abstract)

Enlace al artículo

Leer más

Accediendo a soluciones de olimpiadas matemáticas a nivel GPT-4 mediante auto-refinamiento con árbol de Monte Carlo usando LLaMa-3 8B / Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B

Introducción al artículo

Resumen del artículo (Abstract)

Enlace al artículo

Leer más

Introducción del artículo

Resumen del artículo (Abstract)

Enlace al artículo

Leer más

Open-Sora

Introducción del artículo

Enlace al artículo

Leer más

Búsqueda en árbol para agentes de modelos de lenguaje / Tree Search for Language Model Agents

Introducción al artículo

Resumen del artículo (Abstract)

Enlace al artículo

Leer más

Texto original

Lecturas relacionadas

Aún no hay comentarios.