22] Los principales artículos de ML de esta semana (Top ML Papers of the Week)

(discuss.pytorch.kr)

5 puntos por ninebow 2024-09-23 | 3 comentarios | Compartir por WhatsApp

Probamos una traducción automática de los artículos sobre papers de ML que DAIR.AI publica cada semana.
Al revisar los papers seleccionados esta semana, se pueden identificar varias tendencias destacadas. En primer lugar, una gran parte de la investigación se centra en los modelos de lenguaje grandes (LLM). Diversos trabajos, como 'Training LLMs to Self-Correct via RL', 'Qwen2.5 Coder' y 'A Comprehensive Evaluation of Quantized Instruction-Tuned LLMs', abordan la mejora del rendimiento y las aplicaciones de los LLM. Esto refleja que los LLM son actualmente uno de los temas centrales de la investigación en IA.
En segundo lugar, hay muchos estudios relacionados con el proceso de pensamiento de la inteligencia artificial. Papers como 'Diagram of Thought (DoT)', 'Iteration of Thought' y 'To CoT or not to CoT?' exploran en profundidad la manera de pensar o el proceso de razonamiento de la IA. Esto deja ver los esfuerzos por aumentar la precisión y la eficiencia de los sistemas de IA.
Hay varias razones que pueden explicar estas tendencias. En primer lugar, los modelos de lenguaje grandes reciben mucha atención tanto en la industria como en la academia debido a sus múltiples posibilidades de aplicación y su alto rendimiento. En particular, se está investigando activamente una amplia variedad de técnicas para mejorar el desempeño del modelo o su capacidad de autocorrección. Además, la investigación sobre el proceso de pensamiento de la IA está relacionada con el objetivo último de desarrollar una IA con capacidades de razonamiento similares a las humanas. Esto se considera un elemento esencial para automatizar tareas más complejas e inteligentes.
En resumen, las principales tendencias de los papers de esta semana pueden resumirse en la mejora del rendimiento de los modelos de lenguaje grandes y la investigación sobre el proceso de pensamiento de la IA. Este es un buen ejemplo de la dirección en la que está avanzando actualmente la investigación en IA.

Moshi

Introducción al paper

Presenta un modelo fundacional de voz-texto y un framework de diálogo por voz full-duplex, varios componentes del sistema, Helium, un LLM de texto de 7B parámetros, Mimi, un código de audio neuronal semántico-acústico con rendimiento de vanguardia en calidad de audio, y una arquitectura jerárquica multi-stream capaz de generar conversaciones arbitrarias de voz a voz.

Introduces a speech-text foundation model and full-duplex spoken dialogue framework; they present several components of the systems; Helium is a 7B parameter text LLM; Mimi is a semantic-acoustic neural audio code with state-of-the-art performance on audio quality; a hierarchical multi-stream architecture that can generate arbitrary conversation in a speech-to-speech manner.

Resumen del paper (Abstract)

Presentamos Moshi, un modelo fundacional de voz-texto y un framework de diálogo hablado full-duplex. Los sistemas actuales para diálogo por voz dependen de pipelines de componentes independientes, concretamente detección de actividad de voz, reconocimiento de voz, diálogo textual y conversión de texto a voz. Estos frameworks no pueden emular la experiencia de las conversaciones reales. Primero, su complejidad induce una latencia de varios segundos entre interacciones. Segundo, al ser el texto la modalidad intermedia para el diálogo, se pierde en la interacción información no lingüística que modifica el significado, como la emoción o los sonidos no verbales. Por último, dependen de una segmentación por turnos de hablante que no tiene en cuenta el habla superpuesta, las interrupciones y las interjecciones. Moshi resuelve en conjunto estos problemas al plantear el diálogo hablado como una generación de voz a voz. Partiendo de un backbone de modelo de lenguaje de texto, Moshi genera voz como tokens a partir del cuantizador residual de un códec de audio neuronal, mientras modela por separado su propia voz y la del usuario en streams paralelos. Esto permite eliminar los turnos explícitos de hablante y modelar dinámicas conversacionales arbitrarias. Además, extendemos la generación jerárquica de tokens semántico-a-acústico de trabajos previos para primero predecir tokens de texto alineados temporalmente como prefijo de los tokens de audio. Este método de "monólogo interno" no solo mejora significativamente la calidad lingüística del habla generada, sino que también muestra cómo puede proporcionar reconocimiento de voz en streaming y conversión de texto a voz. El modelo resultante es el primer modelo de lenguaje grande hablado full-duplex en tiempo real, con una latencia teórica de 160 ms y de 200 ms en la práctica, y está disponible en github.com/kyutai-labs/moshi.

We introduce Moshi, a speech-text foundation model and full-duplex spoken dialogue framework. Current systems for spoken dialogue rely on pipelines of independent components, namely voice activity detection, speech recognition, textual dialogue and text-to-speech. Such frameworks cannot emulate the experience of real conversations. First, their complexity induces a latency of several seconds between interactions. Second, text being the intermediate modality for dialogue, non-linguistic information that modifies meaning— such as emotion or non-speech sounds— is lost in the interaction. Finally, they rely on a segmentation into speaker turns, which does not take into account overlapping speech, interruptions and interjections. Moshi solves these independent issues altogether by casting spoken dialogue as speech-to-speech generation. Starting from a text language model backbone, Moshi generates speech as tokens from the residual quantizer of a neural audio codec, while modeling separately its own speech and that of the user into parallel streams. This allows for the removal of explicit speaker turns, and the modeling of arbitrary conversational dynamics. We moreover extend the hierarchical semantic-to-acoustic token generation of previous work to first predict time-aligned text tokens as a prefix to audio tokens. Not only this “Inner Monologue” method significantly improves the linguistic quality of generated speech, but we also illustrate how it can provide streaming speech recognition and text-to-speech. Our resulting model is the first real-time full-duplex spoken large language model, with a theoretical latency of 160ms, 200ms in practice, and is available at github.com/kyutai-labs/moshi.

Enlace al paper

https://kyutai.org/Moshi.pdf

Leer más

https://github.com/kyutai-labs/moshi

https://x.com/kyutai_labs/status/1836427396959932492

Entrenar modelos de lenguaje para que se autocorrijan mediante aprendizaje por refuerzo / Training Language Models to Self-Correct via Reinforcement Learning

Introducción al paper

Desarrolla un aprendizaje por refuerzo en línea de múltiples turnos para mejorar la capacidad de autocorrección de un LLM; se basa por completo en datos autogenerados; se demuestra que el SFT es ineficaz para aprender la autocorrección y sufre de una discrepancia de distribución entre los datos de entrenamiento y las respuestas del modelo; propone un enfoque de dos etapas que primero optimiza el comportamiento de corrección y luego usa una bonificación de recompensa para amplificar la autocorrección durante el entrenamiento; cuando se aplica a los modelos Gemini 1.0 Pro y 1.5 Flash, logra un rendimiento de autocorrección de vanguardia, mejorando la autocorrección de los modelos base en 15.6% y 9.1%, respectivamente, en los benchmarks MATH y HumanEval.

Develops a multi-turn online reinforcement learning to improve the capabilities of an LLM to self-correct; it’s based entirely on self-generated data; SFT is shown to be ineffective at learning self-correction and suffers from distribution mismatch between training data and model responses; proposes a two-stage approach that first optimizes correction behavior and then uses a reward bonus to amplify self-correction during training; when applied to Gemini 1.0 Pro and 1.5 Flash models, it achieves state-of-the-art self-correction performance, improving the base models’ self-correction by 15.6% and 9.1% respectively on the MATH and HumanEval benchmarks.

Resumen del artículo (Abstract)

La autocorrección es una capacidad altamente deseable en los modelos de lenguaje grandes (LLM), pero de forma consistente se ha encontrado que es en gran medida ineficaz en los LLM modernos. Los enfoques existentes para entrenar la autocorrección requieren múltiples modelos o dependen de un modelo más capaz u otras formas de supervisión. Con este objetivo, Unity desarrolló SCoRe, un enfoque de aprendizaje por refuerzo (RL) en línea de múltiples turnos que mejora significativamente la capacidad de autocorrección de un LLM usando datos completamente autogenerados. Para construir SCoRe, primero muestran que las variantes de ajuste fino supervisado (SFT) sobre trazas de corrección generadas por el modelo de forma offline son insuficientes para inculcar un comportamiento de autocorrección. En particular, observaron que el entrenamiento mediante SFT o bien sufre una discrepancia de distribución entre los datos de entrenamiento y las propias respuestas del modelo, o bien favorece implícitamente solo cierto modo de comportamiento de corrección que a menudo no es efectivo en tiempo de prueba. SCoRe aborda estos desafíos entrenando bajo la propia distribución del modelo de trazas de corrección autogeneradas y usando una regularización adecuada para orientar el proceso de aprendizaje hacia una estrategia de autocorrección que sea efectiva en tiempo de prueba, en lugar de simplemente ajustarse a respuestas de alta recompensa para un prompt dado. Esta regularización prescribe ejecutar una primera fase de RL sobre un modelo base para generar una inicialización de política menos susceptible al colapso y luego usar una bonificación de recompensa para amplificar la autocorrección durante el entrenamiento. Al aplicarlo a los modelos Gemini 1.0 Pro y 1.5 Flash, encontraron que SCoRe logra un rendimiento de autocorrección de vanguardia, mejorando la autocorrección de los modelos base en 15.6% y 9.1%, respectivamente, en los benchmarks MATH y HumanEval.

Self-correction is a highly desirable capability of large language models (LLMs), yet it has consistently been found to be largely ineffective in modern LLMs. Existing approaches for training self-correction either require multiple models or rely on a more capable model or other forms of supervision. To this end, we develop a multi-turn online reinforcement learning (RL) approach, SCoRe, that significantly improves an LLM's self-correction ability using entirely self-generated data. To build SCoRe, we first show that variants of supervised fine-tuning (SFT) on offline model-generated correction traces are insufficient for instilling self-correction behavior. In particular, we observe that training via SFT either suffers from a distribution mismatch between the training data and the model's own responses or implicitly prefers only a certain mode of correction behavior that is often not effective at test time. SCoRe addresses these challenges by training under the model's own distribution of self-generated correction traces and using appropriate regularization to steer the learning process into learning a self-correction strategy that is effective at test time as opposed to simply fitting high-reward responses for a given prompt. This regularization prescribes running a first phase of RL on a base model to generate a policy initialization that is less susceptible to collapse and then using a reward bonus to amplify self-correction during training. When applied to Gemini 1.0 Pro and 1.5 Flash models, we find that SCoRe achieves state-of-the-art self-correction performance, improving the base models' self-correction by 15.6% and 9.1% respectively on the MATH and HumanEval benchmarks.

Enlace al artículo

https://arxiv.org/abs/2409.12917

Leer más

https://x.com/omarsar0/status/1837228446839361984

Documento técnico de Qwen2.5-Coder / Qwen2.5-Coder Technical Report

Presentación del artículo

Una serie de modelos que incluyen 1.5B y 7B parámetros; está construida sobre la arquitectura Qwen2.5, preentrenada de forma continua con 5.5 billones de tokens; logra rendimiento de vanguardia en más de 10 benchmarks; incluye sólidas capacidades en generación, completado, razonamiento y reparación de código.

A series of models including 1.5B and 7B parameters; it’s built upon the Qwen2.5 architecture which is continuously pretrained on 5.5 trillion tokens; achieves state-of-the-art performance across more than 10 benchmarks; includes strong capabilities in code generation, completion, reasoning, and repairing.

Resumen del artículo (Abstract)

En este informe presentamos la serie Qwen2.5-Coder, una mejora importante frente a su predecesor, CodeQwen1.5. Esta serie incluye dos modelos: Qwen2.5-Coder-1.5B y Qwen2.5-Coder-7B. Como modelo específico para código, Qwen2.5-Coder está construido sobre la arquitectura Qwen2.5 y continúa su preentrenamiento sobre un enorme corpus de más de 5.5 billones de tokens. Mediante una cuidadosa limpieza de datos, generación escalable de datos sintéticos y una mezcla equilibrada de datos, Qwen2.5-Coder demuestra impresionantes capacidades de generación de código mientras conserva una versatilidad general. El modelo fue evaluado en una amplia variedad de tareas relacionadas con código y logra rendimiento de nivel state-of-the-art (SOTA) en más de 10 benchmarks, incluyendo generación, autocompletado, razonamiento y reparación de código, superando de forma consistente a modelos más grandes del mismo tamaño. Unity cree que el lanzamiento de la serie Qwen2.5-Coder no solo ampliará las fronteras de la investigación en inteligencia de código, sino que también, gracias a su licencia permisiva, fomentará una adopción más amplia por parte de desarrolladores en aplicaciones del mundo real.

In this report, we introduce the Qwen2.5-Coder series, a significant upgrade from its predecessor, CodeQwen1.5. This series includes two models: Qwen2.5-Coder-1.5B and Qwen2.5-Coder-7B. As a code-specific model, Qwen2.5-Coder is built upon the Qwen2.5 architecture and continues pretrained on a vast corpus of over 5.5 trillion tokens. Through meticulous data cleaning, scalable synthetic data generation, and balanced data mixing, Qwen2.5-Coder demonstrates impressive code generation capabilities while retaining general versatility. The model has been evaluated on a wide range of code-related tasks, achieving state-of-the-art (SOTA) performance across more than 10 benchmarks, including code generation, completion, reasoning, and repair, consistently outperforming larger models of the same model size. We believe that the release of the Qwen2.5-Coder series will not only push the boundaries of research in code intelligence but also, through its permissive licensing, encourage broader adoption by developers in real-world applications.

Enlace al artículo

https://arxiv.org/abs/2409.12186

Leer más

https://x.com/huybery/status/1837170643563073960

Sobre el Diagrama del Pensamiento (DoT) / On the Diagram of Thought

Introducción al artículo

Mejora las capacidades de razonamiento de los LLM mediante rigor matemático; DAT modela el razonamiento iterativo en los LLM como la construcción de un grafo acíclico dirigido; integra proposiciones, críticas, refinamiento y verificación en una estructura DAG unificada; esto permite que DoT capture deducción lógica compleja más allá de enfoques lineales o basados en árboles.

Enhances the reasoning capabilities of LLMs through mathematical rigor; DAT models iterative reasoning in LLM as the construction of a directed acyclic graph; it integrates propositions, critiques, refinement, and verification into a unified DAG structure; this allows DoT to capture complex logical deduction beyond linear or tree-based approaches.

Resumen del artículo (Abstract)

Presentamos Diagram of Thought (DoT), un marco que modela el razonamiento iterativo en los modelos de lenguaje grandes (LLM) como la construcción de un grafo acíclico dirigido (DAG) dentro de un solo modelo. A diferencia de los enfoques tradicionales que representan el razonamiento como cadenas lineales o árboles, DoT organiza proposiciones, críticas, refinamientos y verificaciones en una estructura DAG cohesionada, lo que permite al modelo explorar rutas de razonamiento complejas mientras mantiene consistencia lógica. Cada nodo del diagrama corresponde a una proposición que ha sido propuesta, criticada, refinada o verificada, lo que permite al LLM mejorar iterativamente su razonamiento mediante retroalimentación en lenguaje natural. Al aprovechar la predicción autorregresiva del siguiente token con tokens específicos por rol, DoT facilita transiciones fluidas entre proponer ideas y evaluarlas críticamente, proporcionando una retroalimentación más rica que las señales binarias. Además, formalizamos el marco DoT usando la teoría de topos, proporcionando una base matemática que garantiza consistencia lógica y solidez en el proceso de razonamiento. Este enfoque mejora tanto los procesos de entrenamiento como de inferencia dentro de un solo LLM, eliminando la necesidad de múltiples modelos o mecanismos de control externos. DoT ofrece un marco conceptual para diseñar modelos de próxima generación especializados en razonamiento, con énfasis en eficiencia de entrenamiento, capacidades robustas de razonamiento y fundamentos teóricos. El código está disponible en https://github.com/diagram-of-thought/diagram-of-thought.

We introduce Diagram of Thought (DoT), a framework that models iterative reasoning in large language models (LLMs) as the construction of a directed acyclic graph (DAG) within a single model. Unlike traditional approaches that represent reasoning as linear chains or trees, DoT organizes propositions, critiques, refinements, and verifications into a cohesive DAG structure, allowing the model to explore complex reasoning pathways while maintaining logical consistency. Each node in the diagram corresponds to a proposition that has been proposed, critiqued, refined, or verified, enabling the LLM to iteratively improve its reasoning through natural language feedback. By leveraging auto-regressive next-token prediction with role-specific tokens, DoT facilitates seamless transitions between proposing ideas and critically evaluating them, providing richer feedback than binary signals. Furthermore, we formalize the DoT framework using Topos Theory, providing a mathematical foundation that ensures logical consistency and soundness in the reasoning process. This approach enhances both the training and inference processes within a single LLM, eliminating the need for multiple models or external control mechanisms. DoT offers a conceptual framework for designing next-generation reasoning-specialized models, emphasizing training efficiency, robust reasoning capabilities, and theoretical grounding. The code is available at https://github.com/diagram-of-thought/diagram-of-thought.

Enlace al artículo

https://arxiv.org/abs/2409.10038

Lectura adicional

https://github.com/diagram-of-thought/diagram-of-thought

https://x.com/omarsar0/status/1835882277563179512

Agentes en ingeniería de software: encuesta, panorama y visión / Agents in Software Engineering: Survey, Landscape, and Vision

Introducción al artículo

Ofrece una visión general integral de los frameworks de agentes basados en LLM en ingeniería de software.

Provides a comprehensive overview of frameworks of LLM-based agents in software engineering.

Resumen (Abstract)

En los últimos años, los modelos de lenguaje grandes (LLM) han logrado un éxito notable y se han utilizado ampliamente en diversas tareas downstream, especialmente en tareas del campo de la ingeniería de software (SE). Encontramos que muchos estudios que combinan LLM con SE han empleado el concepto de agentes, ya sea de forma explícita o implícita. Sin embargo, falta una encuesta profunda que organice el contexto de desarrollo de los trabajos existentes, analice cómo estos combinan tecnologías de agentes basados en LLM para optimizar diversas tareas y aclare el framework de los agentes basados en LLM en SE. En este artículo, realizamos la primera encuesta sobre estudios que combinan agentes basados en LLM con SE y presentamos un framework de agentes basados en LLM en SE que incluye tres módulos clave: percepción, memoria y acción. También resumimos los desafíos actuales al combinar ambos campos y proponemos oportunidades futuras en respuesta a esos desafíos. Mantenemos un repositorio de GitHub con los artículos relacionados en: https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE.

In recent years, Large Language Models (LLMs) have achieved remarkable success and have been widely used in various downstream tasks, especially in the tasks of the software engineering (SE) field. We find that many studies combining LLMs with SE have employed the concept of agents either explicitly or implicitly. However, there is a lack of an in-depth survey to sort out the development context of existing works, analyze how existing works combine the LLM-based agent technologies to optimize various tasks, and clarify the framework of LLM-based agents in SE. In this paper, we conduct the first survey of the studies on combining LLM-based agents with SE and present a framework of LLM-based agents in SE which includes three key modules: perception, memory, and action. We also summarize the current challenges in combining the two fields and propose future opportunities in response to existing challenges. We maintain a GitHub repository of the related papers at: https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE.

Enlace al artículo

https://arxiv.org/abs/2409.09030

Lectura adicional

https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE

https://x.com/omarsar0/status/1835705359723319702

¿Usar CoT o no? La cadena de pensamiento ayuda principalmente en matemáticas y razonamiento simbólico / To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning

Introducción al artículo

Investiga qué tipos de tareas se benefician más del prompting de cadena de pensamiento (CoT); tras un metaanálisis de más de 100 artículos y varias evaluaciones, encuentra que CoT ofrece fuertes ventajas de rendimiento principalmente en tareas relacionadas con matemáticas y lógica; también revela que la mayor parte de la ganancia de CoT proviene de mejorar la ejecución simbólica, aunque un solucionador simbólico la supera en rendimiento.

Investigates what kinds of tasks benefit the most from chain-of-thought (CoT) prompting; after a meta-analysis on 100+ papers and several evaluations, it finds that CoT produces strong performance benefits primarily on tasks involving math and logic; they find that most of the CoT gain comes from improving symbolic execution, but a symbolic solver outperforms it.

Resumen (Abstract)

La cadena de pensamiento (CoT) mediante prompting es el método de facto para extraer capacidades de razonamiento de los modelos de lenguaje grandes (LLM). Pero, ¿para qué tipos de tareas resulta realmente útil este “pensamiento” adicional? Para analizarlo, se realizó un metaanálisis cuantitativo de más de 100 artículos que usan CoT y se llevaron a cabo evaluaciones propias sobre 20 conjuntos de datos en 14 modelos. Los resultados muestran que CoT ofrece fuertes ventajas de rendimiento principalmente en tareas relacionadas con matemáticas o lógica, mientras que en otros tipos de tareas los beneficios son mucho menores. En MMLU, generar directamente la respuesta sin CoT produce una precisión casi idéntica a la de CoT, a menos que la pregunta o la respuesta del modelo contenga un signo igual, lo que indica operaciones simbólicas y razonamiento. A partir de este hallazgo, se analiza el comportamiento de CoT en estos problemas separando planificación y ejecución, y comparándolo con LLM aumentados con herramientas. Gran parte de la mejora de CoT proviene de optimizar la ejecución simbólica, pero su rendimiento es inferior al de usar un resolvedor simbólico. Los resultados indican que CoT puede aplicarse de forma selectiva para mantener el rendimiento mientras se reducen los costos de inferencia. Además, sugieren la necesidad de ir más allá del CoT basado en prompting hacia nuevos paradigmas que aprovechen mejor el cómputo intermedio en todo el espectro de aplicaciones de LLM.

Chain-of-thought (CoT) via prompting is the de facto method for eliciting reasoning capabilities from large language models (LLMs). But for what kinds of tasks is this extra ``thinking'' really helpful? To analyze this, we conducted a quantitative meta-analysis covering over 100 papers using CoT and ran our own evaluations of 20 datasets across 14 models. Our results show that CoT gives strong performance benefits primarily on tasks involving math or logic, with much smaller gains on other types of tasks. On MMLU, directly generating the answer without CoT leads to almost identical accuracy as CoT unless the question or model's response contains an equals sign, indicating symbolic operations and reasoning. Following this finding, we analyze the behavior of CoT on these problems by separating planning and execution and comparing against tool-augmented LLMs. Much of CoT's gain comes from improving symbolic execution, but it underperforms relative to using a symbolic solver. Our results indicate that CoT can be applied selectively, maintaining performance while saving inference costs. Furthermore, they suggest a need to move beyond prompt-based CoT to new paradigms that better leverage intermediate computation across the whole range of LLM applications.

Enlace al artículo

https://arxiv.org/abs/2409.12183

Leer más

https://x.com/omarsar0/status/1836599280477299013

Evaluación integral de modelos de lenguaje grandes ajustados por instrucciones y cuantizados: análisis experimental hasta 405B / A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B

Introducción al artículo

Al evaluar el rendimiento de LLM ajustados por instrucciones en modelos que van de 7B a 405B, a través de diversos métodos de cuantización, se encontró que 1) cuantizar un LLM más grande hasta un tamaño similar al de un LLM FP16 más pequeño generalmente ofrece mejor rendimiento en la mayoría de los benchmarks, 2) el rendimiento varía de forma considerable según el método de cuantización, el tamaño del modelo y el ancho de bits, y los métodos de solo pesos suelen dar buenos resultados en modelos más grandes, y 3) la dificultad de la tarea no influye de forma significativa en la degradación de precisión causada por la cuantización.

Evaluates the performance of instruction-tuned LLMs across various quantization methods on models ranging from 7B to 405B; the key findings are 1) quantizing a larger LLM to a similar size as a smaller FP16 LLM generally performs better across most benchmarks, 2) performance varies significantly with different quantization methods, model size, and bit-width, with weight-only methods often yielding better results in larger models, and 3) task difficulty does not significantly impact accuracy degradation due to quantization.

Resumen del artículo (Abstract)

Estudios previos evaluaron los LLM cuantizados usando métricas limitadas, como la perplejidad o unas pocas tareas básicas de conocimiento, y conjuntos de datos antiguos. Además, modelos recientes a gran escala como Llama 3.1, con hasta 405B, no se habían examinado a fondo. Este artículo evalúa el desempeño de LLM ajustados para instrucciones en distintos métodos de cuantización (GPTQ, AWQ, SmoothQuant, FP8) sobre modelos que van de 7B a 405B. Usando 13 benchmarks, se evalúa el desempeño en seis tipos de tareas: preguntas y respuestas de sentido común, conocimiento y comprensión del lenguaje, seguimiento de instrucciones, detección de alucinaciones, matemáticas y diálogo. Los hallazgos principales muestran que (1) cuantizar un LLM más grande a un tamaño similar al de un LLM FP16 más pequeño generalmente ofrece mejor desempeño en la mayoría de los benchmarks, excepto en detección de alucinaciones y seguimiento de instrucciones; (2) el desempeño varía de forma importante según el método de cuantización, el tamaño del modelo y el ancho de bits, y los métodos de solo pesos suelen dar mejores resultados en modelos más grandes; (3) la dificultad de la tarea no afecta significativamente la degradación de precisión causada por la cuantización, y que el método de evaluación MT-Bench mostró tener un poder de discriminación limitado entre los LLM recientes de alto desempeño.

Prior research works have evaluated quantized LLMs using limited metrics such as perplexity or a few basic knowledge tasks and old datasets. Additionally, recent large-scale models such as Llama 3.1 with up to 405B have not been thoroughly examined. This paper evaluates the performance of instruction-tuned LLMs across various quantization methods (GPTQ, AWQ, SmoothQuant, and FP8) on models ranging from 7B to 405B. Using 13 benchmarks, we assess performance across six task types: commonsense Q&A, knowledge and language understanding, instruction following, hallucination detection, mathematics, and dialogue. Our key findings reveal that (1) quantizing a larger LLM to a similar size as a smaller FP16 LLM generally performs better across most benchmarks, except for hallucination detection and instruction following; (2) performance varies significantly with different quantization methods, model size, and bit-width, with weight-only methods often yielding better results in larger models; (3) task difficulty does not significantly impact accuracy degradation due to quantization; and (4) the MT-Bench evaluation method has limited discriminatory power among recent high-performing LLMs.

Enlace al artículo

https://arxiv.org/abs/2409.11055

Leer más

https://x.com/omarsar0/status/1836479309390995790

Iteración del pensamiento: aprovechar el diálogo interno para el razonamiento autónomo de modelos de lenguaje de gran tamaño / Iteration of Thought: Leveraging Inner Dialogue for Autonomous Large Language Model Reasoning

Introducción del artículo

Se propone el marco Iteration of Thought (IoT) para mejorar las respuestas y capacidades de razonamiento de los LLM con rutas de razonamiento adaptativas; aprovecha un agente de diálogo interno que actúa como guía para ajustar dinámicamente las rutas de razonamiento, lo que permite una exploración adaptativa entre rutas y mejora la precisión de las respuestas. Se diferencia de CoT y ToT (ambos procesos rígidos) en que su generación de prompts es un proceso dinámico que le permite adaptarse.

Proposes the Iteration of Thought (IoT) framework to enhance the LLM responses and reasoning capabilities with adaptive reasoning paths; it leverages an inner dialogue agent, acting as a guide, to dynamically adjust reasoning paths which allows adaptive cross-path exploration and enhance response accuracy; it's different from CoT and ToT (both rigid processes) in that its prompt generation is a dynamic process that allows it to adapt.

Resumen del artículo (Abstract)

La participación humana iterativa es un medio común y eficaz para aprovechar la avanzada capacidad de procesamiento del lenguaje de los modelos de lenguaje grandes (LLM). Mediante prompts conversacionales bien estructurados, los usuarios humanos pueden influir eficazmente en un LLM para que desarrolle respuestas más reflexivas y precisas. Inspirados por esta idea, proponemos el marco Iteration of Thought (IoT) para mejorar las respuestas de los LLM generando prompts que estimulen el “pensamiento” en relación con una consulta de entrada y la iteración actual de la respuesta de un LLM. A diferencia de enfoques estáticos o semiestáticos, como Chain of Thought (CoT) o Tree of Thoughts (ToT), IoT ajusta dinámicamente su ruta de razonamiento según el contexto en evolución, sin generar pensamientos exploratorios alternativos que al final se descartan. Los tres componentes del marco IoT son: (1) un Inner Dialogue Agent (IDA), encargado de generar prompts instructivos y específicos al contexto; (2) un LLM Agent (LLMA), que procesa esos prompts para refinar sus respuestas; y (3) un bucle iterativo de prompting que implementa una conversación entre los dos componentes anteriores. Presentamos dos variantes de este marco: Autonomous Iteration of Thought (AIoT), donde un LLM decide cuándo dejar de iterar, y Guided Iteration of Thought (GIoT), que siempre fuerza un número fijo de iteraciones. Investigamos el rendimiento de IoT en varios datasets, que abarcan tareas de razonamiento complejo del dataset GPQA, resolución exploratoria de problemas en Game of 24, resolución de acertijos en Mini Crosswords y preguntas y respuestas multihop del dataset HotpotQA. Los resultados muestran que IoT representa un paradigma viable para el refinamiento autónomo de respuestas en LLM, con mejoras significativas frente a CoT, lo que permite sistemas de razonamiento más adaptativos y eficientes que minimizan la intervención humana.

Iterative human engagement is a common and effective means of leveraging the advanced language processing power of large language models (LLMs). Using well-structured prompts in a conversational manner, human users can effectively influence an LLM to develop more thoughtful and accurate responses. Motivated by this insight, we propose the Iteration of Thought (IoT) framework for enhancing LLM responses by generating "thought"-provoking prompts vis a vis an input query and the current iteration of an LLM's response. Unlike static or semi-static approaches, e.g. Chain of Thought (CoT) or Tree of Thoughts (ToT), IoT adapts its reasoning path dynamically, based on evolving context, and without generating alternate explorative thoughts which are ultimately discarded. The three components of the IoT framework are (1) an Inner Dialogue Agent (IDA) responsible for generating instructive, context-specific prompts; (2) an LLM Agent (LLMA) that processes these prompts to refine its responses; and (3) an iterative prompting loop that implements a conversation between the former two components. We introduce two variants of our framework: Autonomous Iteration of Thought (AIoT), where an LLM decides when to stop iterating, and Guided Iteration of Thought (GIoT), which always forces a fixed number iterations. We investigate the performance of IoT across various datasets, spanning complex reasoning tasks from the GPQA dataset, explorative problem-solving in Game of 24, puzzle solving in Mini Crosswords, and multi-hop question answering from the HotpotQA dataset. Our results show that IoT represents a viable paradigm for autonomous response refinement in LLMs, showcasing significant improvements over CoT and thereby enabling more adaptive and efficient reasoning systems that minimize human intervention.

Enlace al artículo

https://arxiv.org/abs/2409.12618

Leer más

https://x.com/omarsar0/status/1836977595847692671

La memoria de Schrödinger: modelos de lenguaje grandes / Schrodinger's Memory: Large Language Models

Introducción al artículo

Explica el mecanismo de memoria de los LLM usando el teorema de aproximación universal. También propone un nuevo enfoque para evaluar el rendimiento de los LLM comparando la capacidad de memoria de distintos modelos, y plantea que la arquitectura Transformer funciona como un modelo UAT de ajuste dinámico con una gran capacidad para adaptar las entradas, lo que permite recordar el contenido completo a partir de una cantidad mínima de información de entrada.

Uses the Universal Approximation Theorem to explain the memory mechanism of LLMs. It also proposes a new approach to evaluate LLM performance by comparing the memory capacities of different models; the Transformer architecture functions as a dynamic fitting UAT model, with a strong ability to adaptively fit inputs; this enables LLMs to recall entire content based on minimal input information.

Resumen del artículo (Abstract)

La memoria es la base de toda actividad humana; sin memoria, sería casi imposible que las personas realizaran cualquier tarea en la vida diaria. Con el desarrollo de los Large Language Models (LLM), sus capacidades lingüísticas son cada vez más comparables a las de los humanos. Pero, ¿los LLM tienen memoria? Según su desempeño actual, los LLM sí parecen mostrar memoria. Entonces, ¿cuál es el mecanismo subyacente de esa memoria? Investigaciones previas no han explorado en profundidad las capacidades de memoria de los LLM ni la teoría que las sustenta. En este artículo, usamos el Universal Approximation Theorem (UAT) para explicar el mecanismo de memoria en los LLM. También realizamos experimentos para verificar las capacidades de memoria de varios LLM y proponemos un nuevo método para evaluar sus capacidades con base en esa habilidad de memoria. Sostenemos que la memoria de los LLM funciona como la memoria de Schr"odinger, lo que significa que solo se vuelve observable cuando se consulta un recuerdo específico. Solo podemos determinar si el modelo conserva un recuerdo a partir de su salida en respuesta a la consulta; de lo contrario, permanece en un estado indeterminado. Finalmente, ampliamos este concepto comparando las capacidades de memoria del cerebro humano y de los LLM, destacando las similitudes y diferencias en sus mecanismos de funcionamiento.

Memory is the foundation of all human activities; without memory, it would be nearly impossible for people to perform any task in daily life. With the development of Large Language Models (LLMs), their language capabilities are becoming increasingly comparable to those of humans. But do LLMs have memory? Based on current performance, LLMs do appear to exhibit memory. So, what is the underlying mechanism of this memory? Previous research has lacked a deep exploration of LLMs' memory capabilities and the underlying theory. In this paper, we use Universal Approximation Theorem (UAT) to explain the memory mechanism in LLMs. We also conduct experiments to verify the memory capabilities of various LLMs, proposing a new method to assess their abilities based on these memory ability. We argue that LLM memory operates like Schr"odinger's memory, meaning that it only becomes observable when a specific memory is queried. We can only determine if the model retains a memory based on its output in response to the query; otherwise, it remains indeterminate. Finally, we expand on this concept by comparing the memory capabilities of the human brain and LLMs, highlighting the similarities and differences in their operational mechanisms.

Enlace al artículo

https://arxiv.org/abs/2409.10482

Leer más

https://x.com/omarsar0/status/1835882330323554321

Hacer jailbreak a Large Language Models con matemáticas simbólicas / Jailbreaking Large Language Models with Symbolic Mathematics

Presentación del artículo

Usa GPT-4o para generar prompts codificados matemáticamente que funcionan como una técnica efectiva de jailbreak; muestra una tasa promedio de éxito del ataque de 73.6% en 13 sistemas de última generación, lo que destaca que los mecanismos existentes de entrenamiento de seguridad no pueden generalizar a entradas codificadas matemáticamente.

Uses GPT-4o to generate mathematically encoded prompts that serve as an effective jailbreaking technique; shows an average attack success rate of 73.6% across 13 state-of-the-art; this highlights the inability of existing safety training mechanisms to generalize to mathematically encoded inputs.

Resumen del artículo (Abstract)

Los avances recientes en seguridad de IA han llevado a un aumento de los esfuerzos para entrenar y hacer red-teaming a los Large Language Models (LLM) con el fin de mitigar la generación de contenido inseguro. Sin embargo, estos mecanismos de seguridad pueden no ser integrales, dejando posibles vulnerabilidades sin explorar. Este artículo presenta MathPrompt, una nueva técnica de jailbreak que explota las capacidades avanzadas de los LLM en matemáticas simbólicas para eludir sus mecanismos de seguridad. Al codificar prompts dañinos en lenguaje natural como problemas matemáticos, demostramos una vulnerabilidad crítica en las medidas actuales de seguridad de IA. Nuestros experimentos en 13 LLM de última generación revelan una tasa promedio de éxito del ataque de 73.6%, lo que resalta la incapacidad de los mecanismos existentes de entrenamiento de seguridad para generalizar a entradas codificadas matemáticamente. El análisis de los vectores de embeddings muestra un cambio semántico sustancial entre los prompts originales y los codificados, lo que ayuda a explicar el éxito del ataque. Este trabajo enfatiza la importancia de un enfoque holístico para la seguridad de IA y pide ampliar los esfuerzos de red-teaming para desarrollar salvaguardas robustas frente a todos los posibles tipos de entrada y sus riesgos asociados.

Recent advancements in AI safety have led to increased efforts in training and red-teaming large language models (LLMs) to mitigate unsafe content generation. However, these safety mechanisms may not be comprehensive, leaving potential vulnerabilities unexplored. This paper introduces MathPrompt, a novel jailbreaking technique that exploits LLMs' advanced capabilities in symbolic mathematics to bypass their safety mechanisms. By encoding harmful natural language prompts into mathematical problems, we demonstrate a critical vulnerability in current AI safety measures. Our experiments across 13 state-of-the-art LLMs reveal an average attack success rate of 73.6%, highlighting the inability of existing safety training mechanisms to generalize to mathematically encoded inputs. Analysis of embedding vectors shows a substantial semantic shift between original and encoded prompts, helping explain the attack's success. This work emphasizes the importance of a holistic approach to AI safety, calling for expanded red-teaming efforts to develop robust safeguards across all potential input types and their associated risks.

Este artículo fue resumido con un modelo GPT, por lo que puede contener errores; por favor, consulta también el texto original al final del artículo. Si al leer encuentras contenido extraño o incorrecto, te agradeceremos que nos lo hagas saber en los comentarios. 🤗

⚠️Publicidad⚠️: ¿Te resultó útil este artículo recopilado por 🔥la comunidad de usuarios de PyTorch en Corea🇰🇷? Si te registras como miembro, te enviaremos los artículos principales por correo electrónico💌. (Por defecto es Weekly, pero también puedes cambiarlo a Daily.)

3 comentarios

savvykang 2024-09-23

El título dice junio y la publicación enlazada es de septiembre. ¿Habrá quedado así por el autocompletado?

ninebow 2024-09-23

Ups, sí, así es ;;; gracias por avisarme. T_T
El título debería ser '[2024/09/16 ~ 09/22] Los principales artículos de ML de esta semana (Top ML Papers of the Week)', pero me equivoqué mientras usaba la plantilla. xguru, si llegas a verlo, por favor cámbialo. 🙇‍♂️

ninebow 2024-09-23

¡¡Gracias!!

[2024/09/16 ~ 09/22] Los principales artículos de ML de esta semana (Top ML Papers of the Week)

Moshi

Introducción al paper

Resumen del paper (Abstract)

Enlace al paper

Leer más

Entrenar modelos de lenguaje para que se autocorrijan mediante aprendizaje por refuerzo / Training Language Models to Self-Correct via Reinforcement Learning

Introducción al paper

Resumen del artículo (Abstract)

Enlace al artículo

Leer más

Documento técnico de Qwen2.5-Coder / Qwen2.5-Coder Technical Report

Presentación del artículo

Resumen del artículo (Abstract)

Enlace al artículo

Leer más

Sobre el Diagrama del Pensamiento (DoT) / On the Diagram of Thought

Introducción al artículo

Resumen del artículo (Abstract)

Enlace al artículo

Lectura adicional

Agentes en ingeniería de software: encuesta, panorama y visión / Agents in Software Engineering: Survey, Landscape, and Vision

Introducción al artículo

Resumen (Abstract)

Enlace al artículo

Lectura adicional

¿Usar CoT o no? La cadena de pensamiento ayuda principalmente en matemáticas y razonamiento simbólico / To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning

Introducción al artículo

Resumen (Abstract)

Enlace al artículo

Leer más

Evaluación integral de modelos de lenguaje grandes ajustados por instrucciones y cuantizados: análisis experimental hasta 405B / A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B

Introducción al artículo

Resumen del artículo (Abstract)

Enlace al artículo

Leer más

Iteración del pensamiento: aprovechar el diálogo interno para el razonamiento autónomo de modelos de lenguaje de gran tamaño / Iteration of Thought: Leveraging Inner Dialogue for Autonomous Large Language Model Reasoning

Introducción del artículo

Resumen del artículo (Abstract)

Enlace al artículo

Leer más

La memoria de Schrödinger: modelos de lenguaje grandes / Schrodinger's Memory: Large Language Models

Introducción al artículo

Resumen del artículo (Abstract)

Enlace al artículo

Leer más

Hacer jailbreak a Large Language Models con matemáticas simbólicas / Jailbreaking Large Language Models with Symbolic Mathematics

Presentación del artículo

Resumen del artículo (Abstract)

Enlace al artículo

Leer más

Texto original

Lecturas relacionadas

3 comentarios