24] Principales papers de ML de esta semana (Top ML Papers of the Week)

(discuss.pytorch.kr)

1 puntos por ninebow 2024-03-27 | Aún no hay comentarios. | Compartir por WhatsApp

He traducido automáticamente el artículo semanal sobre papers de ML que publica DAIR.AI.

Entre los papers seleccionados esta semana se observan, en general, muchos estudios que utilizan modelos de lenguaje de gran escala (LLMs). En particular, como puede verse en títulos como 'Tool Use in LLMs', 'Step-by-Step Comparisons Make LLMs Better Reasoners', 'LLM4Decompile', 'Agent-FLAN', 'LLMs Leak Proprietary Information' y 'Retrieval-Augmented Fine-Tuning', estos trabajos parecen abordar el amplio rango de aplicaciones de los LLMs, métodos para mejorar su desempeño e incluso temas de seguridad.
Esta tendencia puede verse como el resultado de los esfuerzos por explorar el alcance de uso de los LLMs en diversos campos de investigación, a medida que han ganado atención en el área de la inteligencia artificial durante los últimos años. En particular, no solo se estudian metodologías para procesar tareas existentes de forma más eficiente, sino también la mejora de la capacidad de razonamiento en el uso de herramientas o en procesos de resolución de problemas, la exploración de nuevas áreas de aplicación como la ingeniería inversa de software, y la investigación sobre la estabilidad y la seguridad de los modelos, todo lo cual amplía el potencial de desarrollo de los LLMs. Además, estos estudios están desempeñando un papel importante para profundizar la comprensión de cómo pueden utilizarse los LLMs en entornos reales y cuáles son los posibles problemas asociados.
Junto con esto, papers como 'Evolutionary Model Merge' y 'DROID' proponen investigaciones sobre la integración y evolución de modelos, lo que muestra que también está creciendo el interés por métodos para mejorar y optimizar continuamente el rendimiento de los modelos. Esto sugiere una dirección importante no solo para los LLMs, sino también para el desarrollo e integración de diversas tecnologías de inteligencia artificial, y se espera que siga siendo un tema clave en futuras investigaciones. Por lo tanto, los papers seleccionados esta semana ofrecen ideas valiosas sobre las tendencias actuales y la dirección futura de la investigación relacionada con los LLMs.

Grok-1

Introducción al paper

Un modelo mixture-of-experts de 314B parámetros que incluye la publicación abierta de los pesos del modelo base y de la arquitectura de red; el modelo MoE activa el 25% de los pesos para un token dado y su fecha de corte de preentrenamiento es octubre de 2023.

a mixture-of-experts model with 314B parameters which includes the open release of the base model weights and network architecture; the MoE model activates 25% of the weights for a given token and its pretraining cutoff date is October 2023.

Enlace al paper

https://x.ai/blog/grok-os

Leer más

https://discuss.pytorch.kr/t/x-ai-grok/3793/1

https://x.com/ibab_ml/status/1769447989192675748

Optimización evolutiva de recetas de fusión de modelos / Evolutionary Optimization of Model Merging Recipes

Introducción al paper

Un enfoque para automatizar el desarrollo de modelos fundacionales usando evolución para combinar modelos open source; facilita la fusión entre dominios, donde un LLM japonés de matemáticas logró rendimiento de vanguardia en benchmarks japoneses de LLM e incluso superó a modelos con muchos más parámetros, a pesar de no haber sido entrenado explícitamente para esas tareas.

an approach for automating foundation model development using evolution to combine open-source models; facilitates cross-domain merging where a Japanese Math LLM achieved state-of-the-art performance on Japanese LLM benchmarks, even surpassing models with significantly more parameters, despite not explicitly trained for these tasks.

Resumen del paper (Abstract)

Presenta un nuevo caso de aplicación de algoritmos evolutivos para automatizar la creación de modelos fundacionales potentes. Aunque la fusión de modelos ha surgido como un enfoque prometedor para el desarrollo de LLMs debido a su eficiencia en costos, actualmente depende de la intuición humana y del conocimiento del dominio, lo que limita su potencial. Aquí se propone un enfoque evolutivo que supera esta limitación al descubrir automáticamente combinaciones eficaces de diversos modelos open source y aprovechar su inteligencia colectiva sin requerir grandes volúmenes adicionales de datos de entrenamiento ni cómputo. Este enfoque opera tanto en el espacio de parámetros como en el espacio de flujo de datos, lo que permite optimizar más allá de los pesos de los modelos individuales. Este enfoque incluso facilita la fusión entre dominios, generando modelos como un LLM japonés con capacidades de razonamiento matemático. Sorprendentemente, su LLM japonés de matemáticas logró rendimiento de vanguardia en una variedad de benchmarks japoneses de LLM ya establecidos, e incluso superó a modelos con una cantidad de parámetros significativamente mayor, a pesar de no haber sido entrenado explícitamente para esas tareas. Además, un VLM japonés con conciencia cultural generado mediante este enfoque demostró su eficacia para describir contenido específico de la cultura japonesa, superando a VLMs japoneses anteriores. Este trabajo no solo devuelve nuevos modelos de vanguardia a la comunidad open source, sino que también introduce un nuevo paradigma para la composición automatizada de modelos, abriendo el camino para explorar enfoques alternativos y eficientes para el desarrollo de modelos fundacionales.

We present a novel application of evolutionary algorithms to automate the creation of powerful foundation models. While model merging has emerged as a promising approach for LLM development due to its cost-effectiveness, it currently relies on human intuition and domain knowledge, limiting its potential. Here, we propose an evolutionary approach that overcomes this limitation by automatically discovering effective combinations of diverse open-source models, harnessing their collective intelligence without requiring extensive additional training data or compute. Our approach operates in both parameter space and data flow space, allowing for optimization beyond just the weights of the individual models. This approach even facilitates cross-domain merging, generating models like a Japanese LLM with Math reasoning capabilities. Surprisingly, our Japanese Math LLM achieved state-of-the-art performance on a variety of established Japanese LLM benchmarks, even surpassing models with significantly more parameters, despite not being explicitly trained for such tasks. Furthermore, a culturally-aware Japanese VLM generated through our approach demonstrates its effectiveness in describing Japanese culture-specific content, outperforming previous Japanese VLMs. This work not only contributes new state-of-the-art models back to the open-source community, but also introduces a new paradigm for automated model composition, paving the way for exploring alternative, efficient approaches to foundation model development.

Enlace al paper

https://arxiv.org/abs/2403.13187

Leer más

https://x.com/SakanaAILabs/status/1770613032198279663

TacticAI: asistente de IA para tácticas de fútbol / TacticAI: an AI assistant for football tactics

Presentación del paper

Un sistema de asistencia con IA para tácticas de fútbol, desarrollado y evaluado en colaboración con expertos de distintas áreas del Liverpool FC, que ofrece a los entrenadores una forma de muestrear y explorar configuraciones alternativas de jugadores para rutinas de tiro de esquina y seleccionar la táctica con la mayor probabilidad de éxito; las sugerencias del modelo de TacticAI son preferidas frente a las tácticas existentes en el 90% de los casos y ofrecen un sistema eficaz de búsqueda de tiros de esquina.

an AI-powered assistant for football tactics developed and evaluated in collaboration with domain experts from Liverpool FC; the systems offer coaches a way to sample and explore alternative player setups for a corner kick routine and select the tactic with the highest predicted likelihood of success; TacticAI’s model suggestions are favored over existing tactics 90% of the time and it offers an effective corner kick retrieval system.

Resumen del paper (Abstract)

Identificar los patrones clave de las tácticas utilizadas por los equipos rivales y desarrollar respuestas efectivas está en el corazón del fútbol moderno. Sin embargo, hacerlo de forma algorítmica sigue siendo un desafío de investigación abierto. Para abordar esta necesidad no satisfecha, Unity propone TacticAI, un asistente de IA para tácticas de fútbol desarrollado y evaluado en estrecha colaboración con expertos del Liverpool FC. Se centran en analizar los tiros de esquina, ya que ofrecen a los entrenadores las oportunidades más directas de intervención y mejora. TacticAI integra tanto componentes predictivos como generativos, lo que permite a los entrenadores muestrear y explorar de manera efectiva configuraciones alternativas de jugadores para cada rutina de tiro de esquina y seleccionar aquellas con la mayor probabilidad prevista de éxito. Unity valida TacticAI en varias tareas de referencia relevantes, como la predicción de receptores y de intentos de disparo, así como la recomendación de ajustes en la posición de los jugadores. La utilidad de TacticAI se validó mediante un estudio cualitativo realizado con expertos del Liverpool FC en el dominio del fútbol. Los resultados muestran que las sugerencias del modelo de TacticAI no solo son indistinguibles de las tácticas reales, sino que además fueron preferidas sobre las tácticas existentes en el 90% de los casos, y que TacticAI ofrece un sistema eficaz de búsqueda de tiros de esquina. TacticAI pudo lograr estos resultados a pesar de la disponibilidad limitada de datos gold-standard, alcanzando eficiencia de datos mediante geometric deep learning.

Identifying key patterns of tactics implemented by rival teams, and developing effective responses, lies at the heart of modern football. However, doing so algorithmically remains an open research challenge. To address this unmet need, we propose TacticAI, an AI football tactics assistant developed and evaluated in close collaboration with domain experts from Liverpool FC. We focus on analysing corner kicks, as they offer coaches the most direct opportunities for interventions and improvements. TacticAI incorporates both a predictive and a generative component, allowing the coaches to effectively sample and explore alternative player setups for each corner kick routine and to select those with the highest predicted likelihood of success. We validate TacticAI on a number of relevant benchmark tasks: predicting receivers and shot attempts and recommending player position adjustments. The utility of TacticAI is validated by a qualitative study conducted with football domain experts at Liverpool FC. We show that TacticAI’s model suggestions are not only indistinguishable from real tactics, but also favoured over existing tactics 90% of the time, and that TacticAI offers an effective corner kick retrieval system. TacticAI achieves these results despite the limited availability of gold-standard data, achieving data efficiency through geometric deep learning.

Enlace del paper

https://www.nature.com/articles/s41467-024-45965-x

Leer más

https://discuss.pytorch.kr/t/tacticai-ai-feat-deepmind-fc/3841

https://x.com/GoogleDeepMind/status/1770121564085707082

Uso de herramientas en LLM / Tool Use in LLMs

Presentación del paper

Ofrece una visión general del uso de herramientas en los LLM, incluida una definición formal del paradigma de uso de herramientas, escenarios en los que los LLM aprovechan este uso y para qué tareas este enfoque funciona bien; también presenta un análisis del uso complejo de herramientas y resume los testbeds y las métricas de evaluación en trabajos de tooling para LM.

provides an overview of tool use in LLMs, including a formal definition of the tool-use paradigm, scenarios where LLMs leverage tool usage, and for which tasks this approach works well; it also provides an analysis of complex tool usage and summarize testbeds and evaluation metrics across LM tooling works.

Resumen del paper (Abstract)

Los modelos de lenguaje (LM) son potentes, pero se usan principalmente para tareas de generación de texto. Las herramientas han mejorado sustancialmente su rendimiento en tareas que requieren habilidades complejas. Sin embargo, muchos trabajos adoptan el término “herramienta” de distintas maneras, lo que plantea la pregunta: ¿qué es una herramienta, en realidad? Entonces, ¿dónde y cómo ayudan las herramientas a los LM? En esta encuesta, proporcionamos una definición unificada de las herramientas como programas externos utilizados por los LM, y realizamos una revisión sistemática de los escenarios y enfoques de uso de herramientas en LM. Con base en esta revisión, estudiamos empíricamente la eficiencia de varios métodos de uso de herramientas midiendo el cómputo requerido y las ganancias de rendimiento en distintos benchmarks, y destacamos algunos desafíos y posibles líneas futuras de investigación en el área.

Language models (LMs) are powerful yet mostly for text generation tasks. Tools have substantially enhanced their performance for tasks that require complex skills. However, many works adopt the term “tool” in different ways, raising the question: What is a tool anyway? Subsequently, where and how do tools help LMs? In this survey, we provide a unified definition of tools as external programs used by LMs, and perform a systematic review of LM tooling scenarios and approaches. Grounded on this review, we empirically study the efficiency of various tooling methods by measuring their required compute and performance gains on various benchmarks, and highlight some challenges and potential future research in the field.

Enlace al paper

https://zorazrw.github.io/files/WhatAreToolsAnyway.pdf

Leer más

https://x.com/omarsar0/status/1770497515898433896

RankPrompt: hacer que los modelos de lenguaje razonen mejor mediante comparaciones paso a paso / RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners

Introducción del paper

Se propone RankPrompt, un método de prompting que permite a los LLM clasificar por sí mismos sus respuestas sin recursos adicionales. Este enfoque de auto-ranking ordena las candidatas mediante una evaluación comparativa sistemática paso a paso, y parece funcionar bien porque aprovecha la capacidad de los LLM para generar cadenas de comparaciones como demostraciones. RankPrompt mejora significativamente el rendimiento de razonamiento de ChatGPT y GPT-4 en muchas tareas de razonamiento aritmético y de sentido común.

proposes RankPrompt, a prompting method to enable LLMs to self-rank their responses without additional resources; this self-ranking approach ranks candidates through a systematic, step-by-step comparative evaluation; it seems to work well as it leverages the capabilities of LLMs to generate chains of comparisons as demonstrations; RankPrompt significantly enhances the reasoning performance of ChatGPT and GPT-4 on many arithmetic and commonsense reasoning tasks.

Resumen del paper (Abstract)

Los modelos de lenguaje grandes (LLM) han logrado un rendimiento impresionante en diversas tareas de razonamiento. Sin embargo, incluso los LLM de última generación, como ChatGPT, son propensos a cometer errores lógicos durante sus procesos de razonamiento. Las soluciones existentes, como desplegar verificadores específicos por tarea o votar entre múltiples trayectorias de razonamiento, o bien requieren amplias anotaciones humanas o fallan en escenarios con respuestas inconsistentes. Para abordar estos desafíos, introducen RankPrompt, un nuevo método de prompting que permite a los LLM clasificar por sí mismos sus respuestas sin recursos adicionales. RankPrompt descompone el problema de ranking en una serie de comparaciones entre respuestas diversas, aprovechando las capacidades inherentes de los LLM para generar cadenas de comparación como ejemplos contextuales. Los resultados experimentales en 11 tareas de razonamiento aritmético y de sentido común muestran que RankPrompt mejora significativamente el rendimiento de razonamiento de ChatGPT y GPT-4, con mejoras de hasta 13%. Además, RankPrompt sobresale en evaluaciones automáticas basadas en LLM para tareas abiertas, alineándose con los juicios humanos el 74% del tiempo en el dataset AlpacaEval. También muestra solidez frente a variaciones en el orden y la consistencia de las respuestas. En conjunto, estos resultados validan a RankPrompt como un método eficaz para extraer retroalimentación de alta calidad de los modelos de lenguaje.

Large Language Models (LLMs) have achieved impressive performance across various reasoning tasks. However, even state-of-the-art LLMs such as ChatGPT are prone to logical errors during their reasoning processes. Existing solutions, such as deploying task-specific verifiers or voting over multiple reasoning paths, either require extensive human annotations or fail in scenarios with inconsistent responses. To address these challenges, we introduce RankPrompt, a new prompting method that enables LLMs to self-rank their responses without additional resources. RankPrompt breaks down the ranking problem into a series of comparisons among diverse responses, leveraging the inherent capabilities of LLMs to generate chains of comparison as contextual exemplars. Our experiments across 11 arithmetic and commonsense reasoning tasks show that RankPrompt significantly enhances the reasoning performance of ChatGPT and GPT-4, with improvements of up to 13%. Moreover, RankPrompt excels in LLM-based automatic evaluations for open-ended tasks, aligning with human judgments 74% of the time in the AlpacaEval dataset. It also exhibits robustness to variations in response order and consistency. Collectively, our results validate RankPrompt as an effective method for eliciting high-quality feedback from language models.

Enlace al paper

https://arxiv.org/abs/2403.12373

Leer más

https://x.com/omarsar0/status/1770492690129359135

LLM4Decompile: descompilar código binario con modelos de lenguaje grandes / LLM4Decompile: Decompiling Binary Code with Large Language Models

Introducción del paper

una familia de LLM decompiladores de acceso abierto que va de 1B a 33B parámetros; estos modelos fueron entrenados con 4 mil millones de tokens de código fuente en C y su correspondiente código ensamblador; los autores también presentan Decompile-Eval, un conjunto de datos para evaluar la recompilabilidad y la reejecutabilidad en decompilación, así como para evaluar desde la perspectiva de la semántica del programa; LLM4Decompile demuestra la capacidad de decompilar el 21% del código ensamblador, logrando una mejora del 50% sobre GPT-4.

a family of open-access decompilation LLMs ranging from 1B to 33B parameters; these models are trained on 4 billion tokens of C source code and corresponding assembly code; the authors also introduce Decompile-Eval, a dataset for assessing re-compatibility and re-executability for decompilation and evaluating with a perspective of program semantics; LLM4Decompile demonstrates the capability to decompile 21% of the assembly code, achieving a 50% improvement over GPT-4.

Resumen del paper (Abstract)

La decompilación busca restaurar código compilado a código fuente legible para humanos, pero enfrenta dificultades por detalles como nombres y estructura. Los modelos de lenguaje grandes (LLM) muestran potencial para tareas de programación, lo que motiva su aplicación a la decompilación. Sin embargo, no existe ningún LLM de código abierto para decompilación. Además, los sistemas de evaluación de decompilación existentes consideran principalmente la precisión a nivel de tokens y en gran medida ignoran la ejecutabilidad del código, que es la característica más importante de cualquier programa. Por ello, presentamos los primeros LLM decompiladores de acceso abierto, que van de 1B a 33B parámetros, preentrenados con 4 mil millones de tokens de código fuente en C y el código ensamblador correspondiente. Estos LLM de código abierto pueden servir como referencia para futuros desarrollos en el área. Para garantizar una evaluación práctica de programas, presentamos Decompile-Eval, el primer conjunto de datos que considera la recompilabilidad y la reejecutabilidad para la decompilación. Este benchmark enfatiza la importancia de evaluar el modelo de decompilación desde la perspectiva de la semántica del programa. Los experimentos indican que nuestro LLM4Decompile ha demostrado la capacidad de decompilar correctamente el 21% del código ensamblador, lo que representa una mejora del 50% frente a GPT-4. Nuestro código, conjunto de datos y modelos están disponibles en https://github.com/albertan017/LLM4Decompile

Decompilation aims to restore compiled code to human-readable source code, but struggles with details like names and structure. Large language models (LLMs) show promise for programming tasks, motivating their application to decompilation. However, there does not exist any open-source LLM for decompilation. Moreover, existing decompilation evaluation systems mainly consider token-level accuracy and largely ignore code executability, which is the most important feature of any program. Therefore, we release the first open-access decompilation LLMs ranging from 1B to 33B pre-trained on 4 billion tokens of C source code and the corresponding assembly code. The open-source LLMs can serve as baselines for further development in the field. To ensure practical program evaluation, we introduce Decompile-Eval, the first dataset that considers re-compilability and re-executability for decompilation. The benchmark emphasizes the importance of evaluating the decompilation model from the perspective of program semantics. Experiments indicate that our LLM4Decompile has demonstrated the capability to accurately decompile 21% of the assembly code, which achieves a 50% improvement over GPT-4. Our code, dataset, and models are released at https://github.com/albertan017/LLM4Decompile

Enlace al paper

https://arxiv.org/abs/2403.05286v1

Leer más

https://discuss.pytorch.kr/t/llm4decompile-llm-decompile/3809

https://github.com/albertan017/LLM4Decompile

https://x.com/omarsar0/status/1771218791399092351

Agent-FLAN: diseño de datos y métodos de ajuste efectivo de agentes para modelos de lenguaje grandes / Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models

Introducción del paper

diseña datos y métodos para ajustar finamente de forma efectiva modelos de lenguaje para agentes, denominado Agent-FLAN; esto permite que Llama2-7B supere en 3.5% a los trabajos previos de mejor rendimiento en varios conjuntos de datos de evaluación de agentes; Agent-FLAN alivia en gran medida los problemas de alucinación y mejora de forma consistente las capacidades de agente de los LLM al escalar el tamaño del modelo, mientras mejora en general el LLM;

Designs data and methods to effectively fine-tune language models for agents, referred to as Agent-FLAN; this enables Llama2-7B to outperform prior best works by 3.5% across various agent evaluation datasets; Agent-FLAN greatly alleviates the hallucination issues and consistently improves the agent capability of LLMs when scaling model sizes while generally improving the LLM;

Resumen del paper (Abstract)

Los modelos de lenguaje grandes (LLM) de código abierto han logrado un gran éxito en diversas tareas de NLP, pero cuando funcionan como agentes siguen siendo muy inferiores a los modelos basados en API. Cómo integrar capacidades de agente en los LLM generales se ha convertido en un problema crucial y urgente. Este paper presenta primero tres observaciones clave: (1) el corpus actual de entrenamiento de agentes mezcla tanto el seguimiento de formatos como el razonamiento de agente, lo que se desvía significativamente de la distribución de los datos de preentrenamiento; (2) los LLM muestran distintas velocidades de aprendizaje según las capacidades requeridas por las tareas de agente; y (3) los enfoques actuales tienen efectos secundarios al mejorar las capacidades de agente mediante la introducción de alucinaciones. Con base en estos hallazgos, proponen Agent-FLAN para ajustar finamente de manera efectiva modelos de lenguaje para agentes. Mediante una cuidadosa descomposición y rediseño del corpus de entrenamiento, Agent-FLAN permite superar en 3.5% a los mejores trabajos previos en varios datasets de evaluación de agentes. Con muestras negativas construidas de forma integral, Agent-FLAN mitiga en gran medida los problemas de alucinación con base en benchmarks de evaluación establecidos. Además, mejora de forma consistente la capacidad de agente de los LLM al escalar el tamaño del modelo, mientras mejora ligeramente sus capacidades generales. El código puede consultarse en https://github.com/InternLM/Agent-FLAN.

Open-sourced Large Language Models (LLMs) have achieved great success in various NLP tasks, however, they are still far inferior to API-based models when acting as agents. How to integrate agent ability into general LLMs becomes a crucial and urgent problem. This paper first delivers three key observations: (1) the current agent training corpus is entangled with both formats following and agent reasoning, which significantly shifts from the distribution of its pre-training data; (2) LLMs exhibit different learning speeds on the capabilities required by agent tasks; and (3) current approaches have side-effects when improving agent abilities by introducing hallucinations. Based on the above findings, we propose Agent-FLAN to effectively Fine-tune LANguage models for Agents. Through careful decomposition and redesign of the training corpus, Agent-FLAN enables Llama2-7B to outperform prior best works by 3.5% across various agent evaluation datasets. With comprehensively constructed negative samples, Agent-FLAN greatly alleviates the hallucination issues based on our established evaluation benchmark. Besides, it consistently improves the agent capability of LLMs when scaling model sizes while slightly enhancing the general capability of LLMs. The code will be available at https://github.com/InternLM/Agent-FLAN.

Enlace al paper

https://arxiv.org/abs/2403.12881v1

Leer más

https://github.com/InternLM/Agent-FLAN

https://x.com/_akhaliq/status/1770302813152690259

Cuando los logits de LLM protegidos por API filtran información propietaria / Logits of API-Protected LLMs Leak Proprietary Information

Introducción al paper

Muestra que es posible aprender una gran cantidad de información no pública sobre un LLM protegido por API usando los logits. Con una cantidad relativamente pequeña de consultas a la API, este enfoque estima que el tamaño de embedding de gpt-3.5-turbo de OpenAI es de aproximadamente 4,096; el paper también propone medidas de protección contra los ataques utilizados.

shows that it’s possible to learn a large amount of non-public information about an API-protected LLM using the logits; with a relatively small number of API queries, the approach estimates that the embedding size of OpenAI's gpt-3.5-turbo to be about 4,096; the paper also proposes guardrails against the attacks used.

Resumen del paper (Abstract)

La comercialización de los modelos de lenguaje grandes (LLM) ha llevado a que el acceso de alto nivel solo por API a modelos propietarios se convierta en una práctica común. Este estudio muestra que, incluso con supuestos conservadores sobre la arquitectura del modelo, es posible aprender una cantidad sorprendentemente grande de información no pública sobre un LLM protegido por API con un número relativamente pequeño de consultas a la API (por ejemplo, por menos de 1,000 dólares en el caso de gpt-3.5-turbo de OpenAI). El punto central de estos hallazgos es que la mayoría de los LLM modernos sufren de un cuello de botella de softmax, lo que restringe las salidas del modelo a un subespacio lineal del espacio de salida completo. Mostramos que esto permite construir una imagen del modelo o una firma del modelo, lo que habilita varias capacidades a bajo costo: descubrir de forma eficiente el tamaño oculto del LLM, obtener salidas para todo el vocabulario, detectar y diferenciar distintas actualizaciones del modelo, identificar el LLM de origen a partir de una sola salida completa del LLM, e incluso estimar los parámetros de la capa de salida. Nuestras investigaciones empíricas confirman la eficacia de estos métodos, que nos permitieron estimar que el tamaño de embedding de gpt-3.5-turbo de OpenAI es de aproximadamente 4,096. Por último, discutimos formas en que los proveedores de LLM pueden defenderse de estos ataques, así como cómo estas capacidades pueden verse como una característica (y no como un error), al permitir una mayor transparencia y rendición de cuentas.

The commercialization of large language models (LLMs) has led to the common practice of high-level API-only access to proprietary models. In this work, we show that even with a conservative assumption about the model architecture, it is possible to learn a surprisingly large amount of non-public information about an API-protected LLM from a relatively small number of API queries (e.g., costing under $1,000 for OpenAI's gpt-3.5-turbo). Our findings are centered on one key observation: most modern LLMs suffer from a softmax bottleneck, which restricts the model outputs to a linear subspace of the full output space. We show that this lends itself to a model image or a model signature which unlocks several capabilities with affordable cost: efficiently discovering the LLM's hidden size, obtaining full-vocabulary outputs, detecting and disambiguating different model updates, identifying the source LLM given a single full LLM output, and even estimating the output layer parameters. Our empirical investigations show the effectiveness of our methods, which allow us to estimate the embedding size of OpenAI's gpt-3.5-turbo to be about 4,096. Lastly, we discuss ways that LLM providers can guard against these attacks, as well as how these capabilities can be viewed as a feature (rather than a bug) by allowing for greater transparency and accountability.

Enlace al paper

https://arxiv.org/abs/2403.09539

Leer más

https://x.com/DimitrisPapail/status/1768654579254579385

DROID: conjunto de datos a gran escala de manipulación robótica en entornos reales / DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset

Introducción al paper

Un conjunto de datos open source y a gran escala de manipulación robótica para entrenar y desarrollar políticas de manipulación robótica más capaces y robustas, que incluye 76,000 trayectorias de demostración recopiladas en 564 escenas y 86 tareas; entrenar con DROID puede conducir a políticas de mayor rendimiento y mejor generalización.

an open-source, large-scale robot manipulation dataset to train and build more capable and robust robotic manipulation policies; it contains 76K demonstration trajectories, collected across 564 scenes and 86 tasks; training with DROID leads to higher performing policies and generalization.

Resumen del paper (Abstract)

La creación de conjuntos de datos grandes, diversos y de alta calidad para manipulación robótica es un paso clave hacia políticas de manipulación robótica más capaces y robustas. Sin embargo, crear este tipo de conjuntos de datos es difícil: recopilar datos de manipulación robótica en entornos diversos plantea desafíos logísticos y de seguridad, y requiere inversiones sustanciales en hardware y trabajo humano. Como resultado, incluso las políticas de manipulación robótica más generales de hoy se entrenan principalmente con datos recopilados en un número reducido de entornos, con diversidad limitada de escenas y tareas. En este trabajo, presentamos DROID (Distributed Robot Interaction Dataset), un conjunto de datos diverso de manipulación robótica con 76,000 trayectorias de demostración, o 350 horas de datos de interacción, recopilados en 564 escenas y 84 tareas por 50 recolectores de datos en Norteamérica, Asia y Europa a lo largo de 12 meses. Demostramos que entrenar con DROID produce políticas con mayor rendimiento y mejor capacidad de generalización. Publicamos como open source el conjunto de datos completo, el código de aprendizaje de políticas y una guía detallada para reproducir nuestra configuración de hardware robótico.

The creation of large, diverse, high-quality robot manipulation datasets is an important stepping stone on the path toward more capable and robust robotic manipulation policies. However, creating such datasets is challenging: collecting robot manipulation data in diverse environments poses logistical and safety challenges and requires substantial investments in hardware and human labour. As a result, even the most general robot manipulation policies today are mostly trained on data collected in a small number of environments with limited scene and task diversity. In this work, we introduce DROID (Distributed Robot Interaction Dataset), a diverse robot manipulation dataset with 76k demonstration trajectories or 350 hours of interaction data, collected across 564 scenes and 84 tasks by 50 data collectors in North America, Asia, and Europe over the course of 12 months. We demonstrate that training with DROID leads to policies with higher performance and improved generalization ability. We open source the full dataset, policy learning code, and a detailed guide for reproducing our robot hardware setup.

Enlace al paper

https://arxiv.org/abs/2403.12945

Leer más

https://x.com/chelseabfinn/status/1770311755140575413

RAFT: adaptar modelos de lenguaje a RAG específico de dominio / RAFT: Adapting Language Model to Domain Specific RAG

Introducción al paper

Combina las ventajas de RAG y el fine-tuning para mejorar la capacidad de un modelo de responder preguntas en entornos "open-book" dentro del dominio; al combinarlo con la respuesta de estilo CoT de RAFT, ayuda a mejorar el razonamiento.

combines the benefits of RAG and fine-tuning to improve a model's ability to answer questions in "open-book" in-domain settings; combining it with RAFT's CoT-style response helps to improve reasoning.

Resumen del paper (Abstract)

El preentrenamiento de modelos de lenguaje de gran tamaño (LLMs) sobre grandes corpus de datos textuales ya es un paradigma estándar. Al usar estos LLMs en muchas aplicaciones downstream, es común incorporar además conocimiento nuevo (por ejemplo, noticias urgentes o conocimiento privado de un dominio) en el modelo preentrenado, ya sea mediante prompting basado en RAG o mediante fine-tuning. Sin embargo, la metodología óptima para que el modelo adquiera ese conocimiento nuevo sigue siendo una cuestión abierta. En este paper, presentamos Retrieval Augmented FineTuning (RAFT), una receta de entrenamiento que mejora la capacidad del modelo para responder preguntas en entornos "open-book" dentro del dominio. En RAFT, dada una pregunta y un conjunto de documentos recuperados, entrenamos al modelo para ignorar aquellos documentos que no ayudan a responder la pregunta, a los que llamamos documentos distractores. RAFT logra esto citando de forma textual la secuencia correcta del documento relevante que ayudaría a responder la pregunta. Esto, combinado con la respuesta de estilo chain-of-thought de RAFT, ayuda a mejorar la capacidad de razonamiento del modelo. En RAG específico de dominio, RAFT mejora de manera consistente el rendimiento del modelo en los datasets PubMed, HotpotQA y Gorilla, y presenta una receta de postentrenamiento para mejorar LLMs preentrenados hacia RAG dentro del dominio. El código y la demo de RAFT están disponibles como open source en github.com/ShishirPatil/gorilla.

Pretraining Large Language Models (LLMs) on large corpora of textual data is now a standard paradigm. When using these LLMs for many downstream applications, it is common to additionally bake in new knowledge (e.g., time-critical news, or private domain knowledge) into the pretrained model either through RAG-based-prompting, or fine-tuning. However, the optimal methodology for the model to gain such new knowledge remains an open question. In this paper, we present Retrieval Augmented FineTuning (RAFT), a training recipe that improves the model's ability to answer questions in a "open-book" in-domain settings. In RAFT, given a question, and a set of retrieved documents, we train the model to ignore those documents that don't help in answering the question, which we call, distractor documents. RAFT accomplishes this by citing verbatim the right sequence from the relevant document that would help answer the question. This coupled with RAFT's chain-of-thought-style response helps improve the model's ability to reason. In domain-specific RAG, RAFT consistently improves the model's performance across PubMed, HotpotQA, and Gorilla datasets, presenting a post-training recipe to improve pre-trained LLMs to in-domain RAG. RAFT's code and demo are open-sourced at github.com/ShishirPatil/gorilla.

Este artículo fue resumido con un modelo GPT, por lo que puede contener errores; por favor consulta también el texto original al final del artículo. Si mientras lees encuentras contenido extraño o incorrecto, te agradeceríamos que nos lo hicieras saber en los comentarios.

⚠️Publicidad⚠️: ¿Te resultó útil este artículo recopilado por la comunidad de usuarios de PyTorch Korea? Si te registras como miembro, te enviaremos los artículos principales por correo electrónico. (La opción predeterminada es Weekly, pero también puedes cambiarla a Daily.)

[2024/03/18 ~ 03/24] Principales papers de ML de esta semana (Top ML Papers of the Week)

Grok-1

Introducción al paper

Enlace al paper

Leer más

Optimización evolutiva de recetas de fusión de modelos / Evolutionary Optimization of Model Merging Recipes

Introducción al paper

Resumen del paper (Abstract)

Enlace al paper

Leer más

TacticAI: asistente de IA para tácticas de fútbol / TacticAI: an AI assistant for football tactics

Presentación del paper

Resumen del paper (Abstract)

Enlace del paper

Leer más

Uso de herramientas en LLM / Tool Use in LLMs

Presentación del paper

Resumen del paper (Abstract)

Enlace al paper

Leer más

RankPrompt: hacer que los modelos de lenguaje razonen mejor mediante comparaciones paso a paso / RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners

Introducción del paper

Resumen del paper (Abstract)

Enlace al paper

Leer más

LLM4Decompile: descompilar código binario con modelos de lenguaje grandes / LLM4Decompile: Decompiling Binary Code with Large Language Models

Introducción del paper

Resumen del paper (Abstract)

Enlace al paper

Leer más

Agent-FLAN: diseño de datos y métodos de ajuste efectivo de agentes para modelos de lenguaje grandes / Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models

Introducción del paper

Resumen del paper (Abstract)

Enlace al paper

Leer más

Cuando los logits de LLM protegidos por API filtran información propietaria / Logits of API-Protected LLMs Leak Proprietary Information

Introducción al paper

Resumen del paper (Abstract)

Enlace al paper

Leer más

DROID: conjunto de datos a gran escala de manipulación robótica en entornos reales / DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset

Introducción al paper

Resumen del paper (Abstract)

Enlace al paper

Leer más

RAFT: adaptar modelos de lenguaje a RAG específico de dominio / RAFT: Adapting Language Model to Domain Specific RAG

Introducción al paper

Resumen del paper (Abstract)

Enlace al paper

Leer más

Texto original

Lecturas relacionadas

Aún no hay comentarios.