[2023/11/20 ~ 11/26] Los principales papers de ML de esta semana (Top ML Papers of the Week)

Resumen

Hicimos una traducción automática de los artículos sobre papers de ML que DAIR.AI publica cada semana.
Los papers seleccionados esta semana muestran principalmente tendencias relacionadas con "Large Language Models (LLMs)", "Reasoning and Attention in AI System" y "Artificial Intelligence in Medical Domain".
En particular, destaca el tema de "Reasoning and Attention in AI System". Esto refleja el intento de que la inteligencia artificial vaya más allá del simple reconocimiento de patrones y adquiera capacidades de razonamiento y resolución de problemas similares a las humanas.
También es notable la investigación sobre el uso de la inteligencia artificial en el campo médico. "LLMs as Collaborators for Medical Reasoning" es un ejemplo importante en esta área, ya que explora el potencial de aplicación de los LLM (modelos de lenguaje de gran tamaño) para trabajar con datos médicos.
En resumen, los papers seleccionados esta semana muestran que hubo muchos estudios centrados en el desarrollo de capacidades de razonamiento complejas, mecanismos de atención similares a los humanos y aplicaciones de la inteligencia artificial en el ámbito médico, lo que puede interpretarse como un indicador importante de la dirección del avance de la tecnología de IA.

Atención de sistema 2 / System 2 Attention (is something you might need too)

Introducción al paper

Aprovecha las capacidades de razonamiento y seguimiento de instrucciones de los LLM para decidir a qué prestar atención, regenera el contexto de entrada para incluir solo las partes relevantes antes de atender al contexto regenerado y así inducir la respuesta final del modelo, aumenta la factualidad y supera a los LLM estándar basados en atención en tareas como QA y problemas matemáticos planteados en lenguaje natural.

Leverages the reasoning and instruction following capabilities of llms to decide what to attend to; it regenerates input context to only include relevant portions before attending to the regenerated context to elicit the final response from the model; increases factuality and outperforms standard attention-based llms on tasks such as qa and math world problems.

Resumen del paper

La soft attention en los Large Language Models (LLMs) basados en Transformer es susceptible a incorporar información irrelevante del contexto en sus representaciones latentes, lo que afecta negativamente la generación del siguiente token. Para ayudar a corregir estos problemas, introducimos System 2 Attention (S2A), que aprovecha la capacidad de los LLM para razonar en lenguaje natural y seguir instrucciones con el fin de decidir a qué prestar atención. S2A regenera el contexto de entrada para incluir solo las partes relevantes, antes de aplicar atención sobre el contexto regenerado para inducir la respuesta final. En los experimentos, S2A supera a los LLM estándar basados en atención en tres tareas que contienen opiniones o información irrelevante: QA, problemas matemáticos en lenguaje natural y generación de texto largo, donde S2A aumenta la factualidad y la objetividad, y reduce la complacencia con el usuario.

Soft attention in Transformer-based Large Language Models (LLMs) is susceptible to incorporating irrelevant information from the context into its latent representations, which adversely affects next token generations. To help rectify these issues, we introduce System 2 Attention (S2A), which leverages the ability of LLMs to reason in natural language and follow instructions in order to decide what to attend to. S2A regenerates the input context to only include the relevant portions, before attending to the regenerated context to elicit the final response. In experiments, S2A outperforms standard attention-based LLMs on three tasks containing opinion or irrelevant information, QA, math word problems and longform generation, where S2A increases factuality and objectivity, and decreases sycophancy.

Enlace al paper

https://arxiv.org/abs/2311.11829

Leer más

https://x.com/jaseweston/status/1726784511357157618

Avances en la arquitectura Transformer en Large Language Models de contexto largo: una encuesta integral / Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey

Introducción al paper

Una visión general de las metodologías para mejorar los módulos de la arquitectura Transformer que optimizan las capacidades de contexto largo en todas las etapas, desde el preentrenamiento hasta la inferencia.

An overview of the methodologies for enhancing transformer architecture modules that optimize long-context capabilities across all stages from pre-training to inference.

Resumen del paper

Los grandes modelos de lenguaje (LLM) basados en Transformers, impulsados por ChatGPT, han abierto un camino revolucionario hacia la inteligencia artificial general (AGI) y se están aplicando en diversas áreas como bases de conocimiento, interfaces humanas y agentes dinámicos. Sin embargo, muchos LLM actuales, limitados por restricciones de recursos, han sido preentrenados principalmente con textos cortos, por lo que presentan una menor eficiencia ante prompts con contexto largo, algo común en entornos reales. Este paper presenta una encuesta integral centrada en la evolución de la arquitectura de modelos LLM basados en Transformers para optimizar las capacidades de contexto largo en todas las etapas, desde el preentrenamiento hasta la inferencia. Primero, identifica y analiza los problemas que surgen al manejar entradas y salidas de contexto largo en los modelos actuales basados en Transformers. Luego, propone principalmente una taxonomía integral para explorar el panorama de mejoras arquitectónicas de Transformer que permitan resolver estos problemas. Después, presenta una revisión de los elementos de evaluación más utilizados para LLM de contexto largo, como conjuntos de datos, métricas y modelos base, junto con notables toolkits de optimización como bibliotecas, sistemas y compiladores que mejoran la eficiencia y la efectividad de los LLM en distintas etapas. Por último, analiza los principales desafíos de este campo y las posibles vías para futuras investigaciones. Además, los autores construyeron un repositorio que recopila literatura relacionada y se actualiza en tiempo real (https://github.com/Strivin0311/long-llms-learning).

With the bomb ignited by ChatGPT, Transformer-based Large Language Models (LLMs) have paved a revolutionary path toward Artificial General Intelligence (AGI) and have been applied in diverse areas as knowledge bases, human interfaces, and dynamic agents. However, a prevailing limitation exists: many current LLMs, constrained by resources, are primarily pre-trained on shorter texts, rendering them less effective for longer-context prompts, commonly encountered in real-world settings. In this paper, we present a comprehensive survey focusing on the advancement of model architecture in Transformer-based LLMs to optimize long-context capabilities across all stages from pre-training to inference. We firstly delineate and analyze the problems of handling long-context input and output with the current Transformer-based models. Then, we mainly offer a holistic taxonomy to navigate the landscape of Transformer upgrades on architecture to solve these problems. Afterward, we provide the investigation on wildly used evaluation necessities tailored for long-context LLMs, including datasets, metrics, and baseline models, as well as some amazing optimization toolkits like libraries, systems, and compilers to augment LLMs' efficiency and efficacy across different stages. Finally, we further discuss the predominant challenges and potential avenues for future research in this domain. Additionally, we have established a repository where we curate relevant literature with real-time updates at https://github.com/Strivin0311/long-llms-learning.

Enlace al paper

https://arxiv.org/abs/2311.12351

Leer más

https://x.com/omarsar0/status/1727358484360945750

PaSS: muestreo especulativo paralelo / PaSS: Parallel Speculative Sampling

Presentación del paper

Un enfoque para reducir el tiempo de inferencia de los LLM basado en una variante de muestreo especulativo y decodificación paralela, que logra una mejora considerable de velocidad (hasta 30%) entrenando solo $O(d_{emb})$ parámetros adicionales.

Approach to reduce inference time of llms based on a variant of speculative sampling and parallel decoding; achieves significant speed-ups (up to 30%) by only learning as little as o(d_emb) additional parameters.

Resumen del paper

Ampliar el tamaño de los modelos de lenguaje a decenas de miles de millones de parámetros ha llevado a un rendimiento impresionante en una amplia gama de tareas. Durante la generación, estos modelos se usan de forma autorregresiva, lo que requiere un forward pass por cada token generado y, por lo tanto, leer el conjunto completo de parámetros desde la memoria. Este acceso a memoria constituye el principal cuello de botella en la generación, y empeora a medida que aumenta el tamaño del modelo. Además, ejecutar en paralelo un forward pass para varios tokens suele tomar casi el mismo tiempo que para un solo token. Estas dos observaciones llevan al desarrollo del muestreo especulativo, donde se usa un segundo modelo más pequeño para redactar algunos tokens, que luego son validados o rechazados usando un solo forward pass del modelo grande. Lamentablemente, este método requiere dos modelos que compartan el mismo tokenizador, lo que limita su adopción. Como alternativa, proponemos usar decodificación paralela como una forma de redactar múltiples tokens desde un solo modelo sin costo computacional ni necesidad de un segundo modelo. Nuestro enfoque solo requiere un token de entrada adicional que marque las palabras que se generarán simultáneamente. Mostramos un rendimiento prometedor (hasta un $30%$ de aceleración) mientras requiere tan solo $O(d_{emb})$ parámetros adicionales.

Scaling the size of language models to tens of billions of parameters has led to impressive performance on a wide range of tasks. At generation, these models are used auto-regressively, requiring a forward pass for each generated token, and thus reading the full set of parameters from memory. This memory access forms the primary bottleneck for generation and it worsens as the model size increases. Moreover, executing a forward pass for multiple tokens in parallel often takes nearly the same time as it does for just one token. These two observations lead to the development of speculative sampling, where a second smaller model is used to draft a few tokens, that are then validated or rejected using a single forward pass of the large model. Unfortunately, this method requires two models that share the same tokenizer and thus limits its adoption. As an alternative, we propose to use parallel decoding as a way to draft multiple tokens from a single model with no computational cost, nor the need for a second model. Our approach only requires an additional input token that marks the words that will be generated simultaneously. We show promising performance (up to $30%$ speed-up) while requiring only as few as $O(d_{emb})$ additional parameters.

Enlace del paper

https://arxiv.org/abs/2311.13581

Leer más

https://x.com/omarsar0/status/1728066181796418009

Mirasol3B: modelo autorregresivo multimodal para modalidades alineadas en el tiempo y contextuales / Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities

Introducción al paper

Un modelo multimodal para el aprendizaje con audio, video y texto, que desacopla el modelado multimodal en modelos autorregresivos separados y enfocados; las entradas se procesan según la modalidad; este enfoque puede manejar videos más largos en comparación con otros modelos y supera a los enfoques de última generación en video QA, long video QA y benchmarks de audio-video-texto.

A multimodal model for learning across audio, video, and text which decouples the multimodal modeling into separate, focused autoregressive models; the inputs are processed according to the modalities; this approach can handle longer videos compared to other models and it outperforms state-of-the-art approach on video qa, long video qa, and audio-video-text benchmark.

Resumen del paper

Uno de los principales desafíos del aprendizaje multimodal es la necesidad de combinar modalidades heterogéneas (por ejemplo, video, audio y texto). Por ejemplo, el video y el audio se obtienen a tasas mucho más altas que el texto y están aproximadamente alineados en el tiempo. A menudo no están sincronizados con el texto, que llega como contexto global, por ejemplo, un título o una descripción. Además, las entradas de video y audio tienen volúmenes mucho mayores y crecen a medida que aumenta la duración del video, lo que naturalmente requiere más cómputo dedicado a estas modalidades y dificulta el modelado de dependencias de largo alcance. Aquí desacoplamos el modelado multimodal, dividiéndolo en modelos autorregresivos separados y enfocados, que procesan las entradas de acuerdo con las características de cada modalidad. Proponemos un modelo multimodal llamado Mirasol3B, compuesto por un componente autorregresivo para las modalidades sincronizadas en el tiempo (audio y video) y un componente autorregresivo para las modalidades de contexto, que no necesariamente están alineadas temporalmente pero siguen siendo secuenciales. Para abordar las secuencias largas de entradas de video-audio, proponemos dividir aún más las secuencias de video y audio en fragmentos consecutivos y procesar autorregresivamente sus representaciones. Con ese fin, proponemos un mecanismo Combiner, que modela conjuntamente la información de audio y video dentro de una ventana temporal. El Combiner aprende a extraer características de audio y video a partir de señales espaciotemporales en bruto y luego aprende a fusionar estas características para producir representaciones compactas pero expresivas por fragmento. Este enfoque logra resultados de vanguardia en benchmarks multimodales bien establecidos, superando a modelos mucho más grandes. También aborda de forma efectiva la alta demanda computacional de las entradas multimedia al aprender representaciones compactas, controlar la longitud de secuencia de las representaciones de características de audio-video y modelar sus dependencias en el tiempo.

One of the main challenges of multimodal learning is the need to combine heterogeneous modalities (e.g., video, audio, text). For example, video and audio are obtained at much higher rates than text and are roughly aligned in time. They are often not synchronized with text, which comes as a global context, e.g., a title, or a description. Furthermore, video and audio inputs are of much larger volumes, and grow as the video length increases, which naturally requires more compute dedicated to these modalities and makes modeling of long-range dependencies harder. We here decouple the multimodal modeling, dividing it into separate, focused autoregressive models, processing the inputs according to the characteristics of the modalities. We propose a multimodal model, called Mirasol3B, consisting of an autoregressive component for the time-synchronized modalities (audio and video), and an autoregressive component for the context modalities which are not necessarily aligned in time but are still sequential. To address the long-sequences of the video-audio inputs, we propose to further partition the video and audio sequences in consecutive snippets and autoregressively process their representations. To that end, we propose a Combiner mechanism, which models the audio-video information jointly within a timeframe. The Combiner learns to extract audio and video features from raw spatio-temporal signals, and then learns to fuse these features producing compact but expressive representations per snippet. Our approach achieves the state-of-the-art on well established multimodal benchmarks, outperforming much larger models. It effectively addresses the high computational demand of media inputs by both learning compact representations, controlling the sequence length of the audio-video feature representations, and modeling their dependencies in time.

Enlace al paper

https://arxiv.org/abs/2311.05698

Leer más

https://x.com/GoogleAI/status/1724553024088191211

Orca 2: Enseñar a los modelos de lenguaje pequeños a razonar / Orca 2: Teaching Small Language Models How to Reason

Presentación del paper

Se propone un enfoque para enseñar a razonar a modelos de lenguaje más pequeños; en concreto, se considera que el modelo usa técnicas de razonamiento como procesamiento paso a paso, recordar y luego generar, recordar-razonar-generar, extraer-generar y respuesta directa; supera a modelos de tamaño similar y alcanza niveles de rendimiento similares o mejores que los de modelos entre 5 y 10 veces más grandes, según evaluaciones en tareas complejas que ponen a prueba habilidades avanzadas de razonamiento en configuraciones zero-shot.

Proposes an approach to teach smaller language models to reason; specifically, the lm is thought to use reasoning techniques, such as step-by-step processing, recall-then-generate, recall-reason-generate, extract-generate, and direct-answer methods; outperforms models of similar size and attains performance levels similar or better to those of models 5-10x larger, as assessed on complex tasks that test advanced reasoning abilities in zero-shot settings.

Resumen del paper

Orca 1 aprende de señales ricas, como trazas de explicación, lo que le permite superar a los modelos convencionales ajustados por instrucciones en benchmarks como BigBench Hard y AGIEval. En Orca 2, se sigue explorando cómo señales de entrenamiento mejoradas pueden potenciar las capacidades de razonamiento de los LM más pequeños. La investigación sobre el entrenamiento de LM pequeños a menudo ha dependido del aprendizaje por imitación para replicar la salida de modelos más capaces. Sin embargo, se argumenta que un énfasis excesivo en la imitación puede limitar el potencial de los modelos pequeños. Se busca enseñar a los LM pequeños a emplear distintas estrategias de solución para distintas tareas, potencialmente diferentes de las que usa el modelo más grande. Por ejemplo, mientras que los modelos grandes pueden dar una respuesta directa a una tarea compleja, los modelos pequeños pueden no tener esa misma capacidad. En Orca 2, se enseña al modelo varias técnicas de razonamiento (paso a paso, recordar y luego generar, recordar-razonar-generar, respuesta directa, etc.). Más importante aún, se busca ayudar al modelo a aprender a determinar la estrategia de solución más efectiva para cada tarea. Orca 2 se evalúa usando un conjunto integral de 15 benchmarks diversos (equivalentes a aproximadamente 100 tareas y más de 36,000 prompts únicos). Orca 2 supera significativamente a modelos de tamaño similar y alcanza niveles de rendimiento similares o mejores que los de modelos entre 5 y 10 veces más grandes, según la evaluación en tareas complejas que ponen a prueba capacidades avanzadas de razonamiento en entornos zero-shot. Los pesos de Orca 2 están disponibles públicamente en aka.ms/orca-lm para apoyar la investigación sobre el desarrollo, la evaluación y la alineación de LM más pequeños

Orca 1 learns from rich signals, such as explanation traces, allowing it to outperform conventional instruction-tuned models on benchmarks like BigBench Hard and AGIEval. In Orca 2, we continue exploring how improved training signals can enhance smaller LMs' reasoning abilities. Research on training small LMs has often relied on imitation learning to replicate the output of more capable models. We contend that excessive emphasis on imitation may restrict the potential of smaller models. We seek to teach small LMs to employ different solution strategies for different tasks, potentially different from the one used by the larger model. For example, while larger models might provide a direct answer to a complex task, smaller models may not have the same capacity. In Orca 2, we teach the model various reasoning techniques (step-by-step, recall then generate, recall-reason-generate, direct answer, etc.). More crucially, we aim to help the model learn to determine the most effective solution strategy for each task. We evaluate Orca 2 using a comprehensive set of 15 diverse benchmarks (corresponding to approximately 100 tasks and over 36,000 unique prompts). Orca 2 significantly surpasses models of similar size and attains performance levels similar or better to those of models 5-10x larger, as assessed on complex tasks that test advanced reasoning abilities in zero-shot settings. make Orca 2 weights publicly available at aka.ms/orca-lm to support research on the development, evaluation, and alignment of smaller LMs

Enlace al paper

https://arxiv.org/abs/2311.11045

Leer más

https://x.com/omarsar0/status/1726990087399915995

GPQA: benchmark de preguntas y respuestas a prueba de Google de nivel posgrado / GPQA: A Graduate-Level Google-Proof Q&A Benchmark

Introducción del paper

Se propone un benchmark de QA a prueba de Google de nivel posgrado, compuesto por 448 preguntas de opción múltiple escritas por expertos de dominio en biología, física y química. La línea base más sólida basada en GPT-4 alcanza una precisión de 39%, y este benchmark ofrece experimentos de supervisión escalables que pueden ayudar a obtener información confiable y veraz de sistemas modernos de IA que superan las capacidades humanas.

Proposes a graduate-level google-proof qa benchmark consisting of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry; the strongest gpt-4 based baseline achieves 39% accuracy; this benchmark offers scalable oversight experiments that can help obtain reliable and truthful information from modern ai systems that surpass human capabilities.

Resumen del paper

Presenta GPQA, un dataset desafiante de 448 preguntas de opción múltiple creadas por expertos en biología, física y química. La tasa de aciertos de expertos con doctorado o que están cursándolo en esas áreas alcanza el 65% (74% si se excluyen errores evidentes que los expertos identificaron después), mientras que validadores no expertos altamente capacitados lograron apenas un 34% de acierto, incluso con acceso ilimitado a la web durante más de 30 minutos en promedio (es decir, las preguntas pasaron la prueba de ser "a prueba de Google"). También son problemas difíciles para los sistemas de IA más avanzados, ya que incluso la línea base más potente basada en GPT-4 alcanzó una precisión de 39%. Para usar futuros sistemas de IA para responder preguntas muy difíciles, por ejemplo al desarrollar nuevo conocimiento científico, es necesario crear métodos de supervisión escalable que permitan a los humanos supervisar sus resultados, algo que puede ser difícil incluso cuando los supervisores son hábiles y expertos. La dificultad de GPQA tanto para no expertos capacitados como para sistemas de IA de frontera permite experimentos realistas de supervisión escalable, que se espera ayuden a idear formas para que expertos humanos obtengan de manera confiable información veraz de sistemas de IA que superen las capacidades humanas.

We present GPQA, a challenging dataset of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry. We ensure that the questions are high-quality and extremely difficult: experts who have or are pursuing PhDs in the corresponding domains reach 65% accuracy (74% when discounting clear mistakes the experts identified in retrospect), while highly skilled non-expert validators only reach 34% accuracy, despite spending on average over 30 minutes with unrestricted access to the web (i.e., the questions are "Google-proof"). The questions are also difficult for state-of-the-art AI systems, with our strongest GPT-4 based baseline achieving 39% accuracy. If we are to use future AI systems to help us answer very hard questions, for example, when developing new scientific knowledge, we need to develop scalable oversight methods that enable humans to supervise their outputs, which may be difficult even if the supervisors are themselves skilled and knowledgeable. The difficulty of GPQA both for skilled non-experts and frontier AI systems should enable realistic scalable oversight experiments, which we hope can help devise ways for human experts to reliably get truthful information from AI systems that surpass human capabilities.

Enlace del paper

https://arxiv.org/abs/2311.12022

Leer más

https://x.com/idavidrein/status/1727033002234909060

Encendiendo la inteligencia del lenguaje: la guía del autoestopista desde el razonamiento Chain-of-Thought (CoT) hasta los agentes de lenguaje / Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents

Introducción al paper

Es un resumen del razonamiento CoT (Chain-of-Thought), de los mecanismos fundamentales que sustentan las técnicas CoT (Chain-of-Thought) y de su aplicación a marcos de agentes de lenguaje.

Summary of cot reasoning, foundational mechanics underpinning cot techniques, and their application to language agent frameworks.

Resumen del paper

Los modelos de lenguaje de gran escala (LLM) han impulsado de forma drástica el campo de la inteligencia del lenguaje, como lo demuestra su sólido rendimiento empírico en una amplia gama de tareas complejas de razonamiento. Además, las pruebas teóricas han revelado nuevas capacidades emergentes de razonamiento, mostrando de manera convincente sus avanzadas capacidades cognitivas en contextos lingüísticos. Un factor clave en su notable eficacia para abordar tareas complejas de razonamiento es que los LLM aprovechan las técnicas de razonamiento chain-of-thought (CoT), lo que los obliga a formular pasos intermedios en el proceso de llegar a una respuesta. El enfoque de razonamiento CoT no solo ha demostrado ser eficaz para amplificar el rendimiento en razonamiento, sino también para mejorar la interpretabilidad, la controlabilidad y la flexibilidad. A la luz de estas ventajas, los esfuerzos de investigación recientes han ampliado las metodologías de razonamiento CoT para impulsar el desarrollo de agentes de lenguaje autónomos, capaces de seguir instrucciones en lenguaje natural y ejecutar acciones en diversos entornos. Este artículo de encuesta organiza una discusión exhaustiva que profundiza en dimensiones clave de investigación, entre ellas: (i) los mecanismos fundamentales de las técnicas CoT, con énfasis en aclarar las circunstancias y la justificación detrás de su eficacia; (ii) el cambio de paradigma en CoT; y (iii) el crecimiento acelerado de los agentes de lenguaje reforzados con enfoques CoT. Las futuras líneas de investigación abarcan la generalización, la eficiencia, la personalización, el escalado y la seguridad. Este artículo está dirigido a una amplia audiencia, desde principiantes que buscan un conocimiento integral sobre el razonamiento CoT y los agentes de lenguaje, hasta investigadores experimentados interesados en los mecanismos fundamentales y en participar en debates de vanguardia sobre estos temas. El repositorio de artículos relacionados está disponible en https://github.com/Zoeyyao27/CoT-Igniting-Agent.

Large language models (LLMs) have dramatically enhanced the field of language intelligence, as demonstrably evidenced by their formidable empirical performance across a spectrum of complex reasoning tasks. Additionally, theoretical proofs have illuminated their emergent reasoning capabilities, providing a compelling showcase of their advanced cognitive abilities in linguistic contexts. Critical to their remarkable efficacy in handling complex reasoning tasks, LLMs leverage the intriguing chain-of-thought (CoT) reasoning techniques, obliging them to formulate intermediate steps en route to deriving an answer. The CoT reasoning approach has not only exhibited proficiency in amplifying reasoning performance but also in enhancing interpretability, controllability, and flexibility. In light of these merits, recent research endeavors have extended CoT reasoning methodologies to nurture the development of autonomous language agents, which adeptly adhere to language instructions and execute actions within varied environments. This survey paper orchestrates a thorough discourse, penetrating vital research dimensions, encompassing: (i) the foundational mechanics of CoT techniques, with a focus on elucidating the circumstances and justification behind its efficacy; (ii) the paradigm shift in CoT; and (iii) the burgeoning of language agents fortified by CoT approaches. Prospective research avenues envelop explorations into generalization, efficiency, customization, scaling, and safety. This paper caters to a wide audience, including beginners seeking comprehensive knowledge of CoT reasoning and language agents, as well as experienced researchers interested in foundational mechanics and engaging in cutting-edge discussions on these topics. A repository for the related papers is available at https://github.com/Zoeyyao27/CoT-Igniting-Agent.

Enlace al paper

https://arxiv.org/abs/2311.11797

Leer más

https://x.com/omarsar0/status/1726803725220487277

GAIA: un benchmark para asistentes de IA general / GAIA: a benchmark for General AI Assistants

Introducción al paper

Según un benchmark para asistentes de IA general compuesto por preguntas del mundo real que requieren un conjunto de capacidades fundamentales como razonamiento, procesamiento multimodal, navegación web y dominio general del uso de herramientas, los participantes humanos obtuvieron 92%, frente al 15% de GPT-4 equipado con plugins.

A benchmark for general ai assistants consisting of real-world questions that require a set of fundamental abilities such as reasoning, multimodal handling, web browsing, and generally tool-use proficiency; shows that human respondents obtain 92% vs. 15% for gpt-4 equipped with plugins.

Resumen del paper

Presentamos GAIA, un benchmark para asistentes de IA general que, si se resolviera, marcaría un hito en la investigación en IA. GAIA propone preguntas del mundo real que requieren un conjunto de habilidades fundamentales como razonamiento, manejo multimodal, navegación web y, en general, dominio en el uso de herramientas. Las preguntas de GAIA son conceptualmente simples para los humanos, pero desafiantes para la mayoría de las IA avanzadas. Los participantes humanos obtuvieron una tasa de acierto de 92%, frente al 15% de GPT-4 equipado con plugins. Esta notable brecha de rendimiento contrasta con la tendencia reciente de que los LLM superen a los humanos en tareas que requieren habilidades profesionales, por ejemplo en derecho o química. La filosofía de GAIA se aparta de la tendencia actual en los benchmarks de IA que sugiere apuntar a tareas cada vez más difíciles para los humanos. Planteamos que la llegada de la inteligencia artificial general (AGI) depende de la capacidad de un sistema para mostrar una robustez similar a la de un humano promedio ante este tipo de preguntas. Usando la metodología de GAIA, diseñamos 466 preguntas y sus respuestas. Publicamos las preguntas y mantenemos reservadas las respuestas de 300 de ellas para alimentar un leaderboard disponible en https://huggingface.co/gaia-benchmark.

We introduce GAIA, a benchmark for General AI Assistants that, if solved, would represent a milestone in AI research. GAIA proposes real-world questions that require a set of fundamental abilities such as reasoning, multi-modality handling, web browsing, and generally tool-use proficiency. GAIA questions are conceptually simple for humans yet challenging for most advanced AIs: we show that human respondents obtain 92% vs. 15% for GPT-4 equipped with plugins. This notable performance disparity contrasts with the recent trend of LLMs outperforming humans on tasks requiring professional skills in e.g. law or chemistry. GAIA's philosophy departs from the current trend in AI benchmarks suggesting to target tasks that are ever more difficult for humans. We posit that the advent of Artificial General Intelligence (AGI) hinges on a system's capability to exhibit similar robustness as the average human does on such questions. Using GAIA's methodology, we devise 466 questions and their answer. We release our questions while retaining answers to 300 of them to power a leader-board available at https://huggingface.co/gaia-benchmark.

Enlace al paper

https://arxiv.org/abs/2311.12983

Leer más

https://x.com/ThomasScialom/status/1727683993045201339

MedAgents: modelos de lenguaje grandes como colaboradores para el razonamiento médico zero-shot / MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning

Introducción al paper

Propone un marco colaborativo de múltiples rondas para el dominio médico que aprovecha agentes basados en LLM con role-playing para mejorar la competencia y las capacidades de razonamiento de los LLM.

Proposes a collaborative multi-round framework for the medical domain that leverages role-playing llm-based agents to enhance llm proficiency and reasoning capabilities.

Resumen del paper

Los modelos de lenguaje grandes (LLM), a pesar de su notable progreso en varios dominios generales, enfrentan barreras significativas en medicina y salud. Este campo presenta desafíos únicos, como la terminología específica del dominio y el razonamiento sobre conocimiento especializado. Para abordar estos problemas persistentes, Unity propone un nuevo marco de colaboración multidisciplinaria (MC) para el dominio médico que aprovecha agentes basados en LLM con role-playing que participan en una discusión colaborativa de múltiples rondas, mejorando así la competencia y las capacidades de razonamiento de los LLM. Este marco, que no requiere entrenamiento y es interpretable, abarca cinco pasos críticos: reunir expertos del dominio, proponer análisis individuales, resumir esos análisis en un informe, iterar las discusiones hasta alcanzar un consenso y, finalmente, tomar una decisión. Centrándonos en particular en el escenario zero-shot, nuestros resultados en nueve conjuntos de datos (MedQA, MedMCQA, PubMedQA y seis subtareas de MMLU) demuestran que el marco MC propuesto sobresale al extraer y aprovechar la experiencia médica contenida en los LLM, además de ampliar sus capacidades de razonamiento. Con base en estos resultados, realizamos además una evaluación humana para identificar y clasificar errores comunes dentro de nuestro método, así como estudios de ablación orientados a comprender el impacto de varios factores en el rendimiento general. Más detalles sobre el código pueden encontrarse en \url{https://github.com/gersteinlab/MedAgents}.

Large Language Models (LLMs), despite their remarkable progress across various general domains, encounter significant barriers in medicine and healthcare. This field faces unique challenges such as domain-specific terminologies and the reasoning over specialized knowledge. To address these obstinate issues, we propose a novel Multi-disciplinary Collaboration (MC) framework for the medical domain that leverages role-playing LLM-based agents who participate in a collaborative multi-round discussion, thereby enhancing LLM proficiency and reasoning capabilities. This training-free and interpretable framework encompasses five critical steps: gathering domain experts, proposing individual analyses, summarising these analyses into a report, iterating over discussions until a consensus is reached, and ultimately making a decision. Our work particularly focuses on the zero-shot scenario, our results on nine data sets (MedQA, MedMCQA, PubMedQA, and six subtasks from MMLU) establish that our proposed MC framework excels at mining and harnessing the medical expertise in LLMs, as well as extending its reasoning abilities. Based on these outcomes, we further conduct a human evaluation to pinpoint and categorize common errors within our method, as well as ablation studies aimed at understanding the impact of various factors on overall performance. Our code can be found at \url{https://github.com/gersteinlab/MedAgents}.

Enlace al paper

https://arxiv.org/abs/2311.10537

Leer más

https://x.com/omarsar0/status/1726627951582511135

Camels in a Changing Climate: mejora de la adaptación de los LM con Tulu 2 / Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2

Presentación del paper

Presenta una familia mejorada de modelos Tulu para avanzar en la comprensión y las mejores prácticas de adaptación de modelos de lenguaje preentrenados a tareas downstream y preferencias de usuario; la familia Tulu 2 logra rendimiento de vanguardia entre los modelos abiertos y iguala o supera el rendimiento de GPT-3.5-Turbo-0301 en varios benchmarks.

Presents a suite of improved tülu models for advancing the understanding and best practices of adapting pretrained language models to downstream tasks and user preferences; tülu 2 suite achieves state-of-the-art performance among open models and matches or exceeds the performance of gpt-3.5-turbo-0301 on several benchmarks.

Resumen del paper

Desde el lanzamiento de Tülu [Wang et al., 2023b], los recursos abiertos para instruction tuning han avanzado rápidamente, desde mejores modelos base hasta nuevas técnicas de fine-tuning. Los autores prueban e incorporan varios de estos avances en Tülu, dando como resultado Tülu 2, una colección de modelos Tülu mejorados para avanzar en la comprensión y las mejores prácticas de adaptar modelos de lenguaje preentrenados a tareas downstream y preferencias de usuario. En concreto, presentan: (1) Tülu-V2-mix, una colección mejorada de datasets de instrucciones de alta calidad; (2) Tülu 2, modelos LLAMA-2 ajustados con fine-tuning sobre la mezcla V2; (3) Tülu 2+DPO, modelos Tülu 2 entrenados con direct preference optimization (DPO), incluido el modelo entrenado con DPO más grande hasta la fecha (Tülu 2+DPO 70B); (4) CODE Tülu 2, modelos CODE LLAMA ajustados con fine-tuning sobre su mezcla V2 que superan a CODE LLAMA y su variante ajustada con instruction tuning, CODE LLAMA-Instruct. Su evaluación desde múltiples perspectivas muestra que la familia Tülu 2 alcanza rendimiento de vanguardia entre los modelos abiertos y que iguala o supera el rendimiento de GPT-3.5-turbo-0301 en varios benchmarks. Publican todos los checkpoints, datos y código de entrenamiento y evaluación para facilitar futuros esfuerzos abiertos en la adaptación de modelos de lenguaje grandes.

Since the release of Tülu [Wang et al., 2023b], open resources for instruction tuning have developed quickly, from better base models to new finetuning techniques. We test and incorporate a number of these advances into Tülu , resulting in Tülu 2, a suite of improved Tülu models for advancing the understanding and best practices of adapting pretrained language models to downstream tasks and user preferences. Concretely, we release: (1) Tülu-V2-mix, an improved collection of high-quality instruction datasets; (2) Tülu 2, LLAMA-2 models finetuned on the V2 mixture; (3) Tülu 2+DPO, Tülu 2 models trained with direct preference optimization (DPO), including the largest DPO-trained model to date (Tülu 2+DPO 70B); (4) CODE Tülu 2, CODE LLAMA models finetuned on our V2 mix that outperform CODE LLAMA and its instruction-tuned variant, CODE LLAMA-Instruct. Our evaluation from multiple perspectives shows that the Tülu 2 suite achieves state-of-the-art performance among open models and matches or exceeds the performance of GPT-3.5-turbo-0301 on several benchmarks. We release all the checkpoints, data, training and evaluation code to facilitate future open efforts on adapting large language models.

[2023/11/20 ~ 11/26] Los principales papers de ML de esta semana (Top ML Papers of the Week)

Resumen

Atención de sistema 2 / System 2 Attention (is something you might need too)

Introducción al paper

Resumen del paper

Enlace al paper

Leer más

Avances en la arquitectura Transformer en Large Language Models de contexto largo: una encuesta integral / Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey

Introducción al paper

Resumen del paper

Enlace al paper

Leer más

PaSS: muestreo especulativo paralelo / PaSS: Parallel Speculative Sampling

Presentación del paper

Resumen del paper

Enlace del paper

Leer más

Mirasol3B: modelo autorregresivo multimodal para modalidades alineadas en el tiempo y contextuales / Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities

Introducción al paper

Resumen del paper

Enlace al paper

Leer más

Orca 2: Enseñar a los modelos de lenguaje pequeños a razonar / Orca 2: Teaching Small Language Models How to Reason

Presentación del paper

Resumen del paper

Enlace al paper

Leer más

GPQA: benchmark de preguntas y respuestas a prueba de Google de nivel posgrado / GPQA: A Graduate-Level Google-Proof Q&A Benchmark

Introducción del paper

Resumen del paper

Enlace del paper

Leer más

Encendiendo la inteligencia del lenguaje: la guía del autoestopista desde el razonamiento Chain-of-Thought (CoT) hasta los agentes de lenguaje / Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents

Introducción al paper

Resumen del paper

Enlace al paper

Leer más

GAIA: un benchmark para asistentes de IA general / GAIA: a benchmark for General AI Assistants

Introducción al paper

Resumen del paper

Enlace al paper

Leer más

MedAgents: modelos de lenguaje grandes como colaboradores para el razonamiento médico zero-shot / MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning

Introducción al paper

Resumen del paper

Enlace al paper

Leer más

Camels in a Changing Climate: mejora de la adaptación de los LM con Tulu 2 / Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2

Presentación del paper

Resumen del paper

Enlace del paper

Leer más

Original

Lecturas relacionadas

Aún no hay comentarios.