[2024/06/03 ~ 06/09] Los principales papers de ML de esta semana (Top ML Papers of the Week)
(discuss.pytorch.kr)-
Probamos una traducción automática de los artículos sobre papers de ML que DAIR.AI publica cada semana.
-
Al revisar los papers seleccionados esta semana, se observa una tendencia en la que la mayoría se enfoca en los modelos de lenguaje de gran escala (LLMs). En concreto, pueden resumirse como investigaciones sobre extracción de conceptos de modelos de lenguaje de gran escala (Extracting Concepts from GPT-4), mejora de la eficiencia (MatMul-free LLMs), comprensión del proceso de razonamiento del modelo (Buffer of Thoughts), la estructura geométrica de los LLMs (The Geometry of Concepts in LLMs) y la alineación de estos modelos (Aligning LLMs with Demonstrated Feedback, Towards Scalable Automated Alignment of LLMs). Estos temas reflejan los intereses actuales por comprender, mejorar y explorar las posibilidades de aplicación de los LLMs en el campo de la inteligencia artificial. Aunque no se revisó en detalle el contenido de todos los papers, sus títulos por sí solos parecen suficientes para identificar la dirección de la investigación reciente.
-
Esta tendencia puede explicarse por varias razones. En primer lugar, tras el éxito de modelos de lenguaje de gran escala como GPT-4, el interés por estos modelos en la investigación en inteligencia artificial ha aumentado de forma explosiva. Estos modelos están desempeñando un papel importante no solo en el procesamiento de lenguaje natural (NLP), sino también en alcanzar un rendimiento de nivel humano en diversas tareas de conocimiento. En segundo lugar, comprender y desarrollar los LLMs ofrece oportunidades que pueden conducir a la creación de sistemas de IA capaces de realizar tareas más complejas y creativas. Por último, estas investigaciones pueden contribuir al avance de tecnologías que permitan entender y controlar el comportamiento de los modelos, algo esencial para reforzar la seguridad y el uso ético de la IA. En consecuencia, los papers seleccionados esta semana reflejan la investigación y la experimentación que se están llevando a cabo en la frontera del desarrollo de la tecnología de IA, en particular de los modelos de lenguaje de gran escala.
NLLB: ampliar la traducción automática neuronal a 200 idiomas / Scaling neural machine translation to 200 languages
Introducción al paper
Propone un modelo multilingüe masivo que aprovecha el aprendizaje por transferencia en 200 idiomas; se basa en una arquitectura de mezcla de expertos con compuertas dispersas y se entrena con datos mediante un enfoque adaptado a idiomas de bajos recursos; evalúa 40 mil traducciones y logra una mejora promedio del 44% en la calidad de traducción.
Proposes a massive multilingual model that leverages transfer learning across 200 languages; it’s based on a sparsely Gated Mixture of Experts architecture and trained on data via an approach tailored for low-resource languages; evaluates on 40K translations and achieves an average of 44% improvement in translation quality.
Resumen del paper (Abstract)
Los avances en las técnicas neuronales han abierto nuevas vías para la investigación en traducción automática. Hoy en día, los sistemas de traducción automática neuronal (NMT) pueden aprovechar capacidades altamente multilingües e incluso realizar traducción zero-shot, ofreciendo resultados prometedores en términos de cobertura de idiomas y calidad. Sin embargo, escalar una NMT de calidad requiere grandes volúmenes de datos bilingües paralelos, que no están disponibles por igual para los más de 7,000 idiomas del mundo. Enfocarse en mejorar la calidad de traducción de un grupo relativamente pequeño de idiomas con abundantes recursos, en lugar de dirigir la atención investigadora hacia los idiomas con pocos recursos, puede agravar las desigualdades digitales a largo plazo. Para romper este patrón, aquí presentamos No Language Left Behind (NLLB), un único modelo masivamente multilingüe que aprovecha el aprendizaje por transferencia entre idiomas. Desarrollamos un modelo de cómputo condicional basado en la arquitectura Sparsely Gated Mixture of Experts, que entrenamos con datos obtenidos mediante nuevas técnicas de minería adaptadas a idiomas de bajos recursos. Además, ideamos múltiples mejoras de arquitectura y entrenamiento para contrarrestar el sobreajuste mientras entrenábamos en miles de tareas. Evaluamos el rendimiento de nuestro modelo en más de 40,000 direcciones de traducción usando herramientas creadas específicamente para este propósito: un benchmark automático (FLORES-200), una métrica de evaluación humana (XSTS) y un detector de toxicidad que cubre todos los idiomas del modelo. En comparación con los modelos de vanguardia anteriores, nuestro modelo logra una mejora promedio del 44% en la calidad de traducción medida por BLEU. Al demostrar cómo escalar la NMT a 200 idiomas y poner a disposición libremente todas las contribuciones de este esfuerzo para uso no comercial, nuestro trabajo sienta una base importante para el desarrollo de un sistema de traducción universal.
The development of neural techniques has opened up new avenues for research in machine translation. Today, neural machine translation (NMT) systems can leverage highly multilingual capacities and even perform zero-shot translation, delivering promising results in terms of language coverage and quality. However, scaling quality NMT requires large volumes of parallel bilingual data, which are not equally available for the 7,000+ languages in the world. Focusing on improving the translation qualities of a relatively small group of high-resource languages comes at the expense of directing research attention to low-resource languages, exacerbating digital inequities in the long run. To break this pattern, here we introduce No Language Left Behind—a single massively multilingual model that leverages transfer learning across languages. We developed a conditional computational model based on the Sparsely Gated Mixture of Experts architecture, which we trained on data obtained with new mining techniques tailored for low-resource languages. Furthermore, we devised multiple architectural and training improvements to counteract overfitting while training on thousands of tasks. We evaluated the performance of our model over 40,000 translation directions using tools created specifically for this purpose—an automatic benchmark (FLORES-200), a human evaluation metric (XSTS) and a toxicity detector that covers every language in our model. Compared with the previous state-of-the-art models, our model achieves an average of 44% improvement in translation quality as measured by BLEU. By demonstrating how to scale NMT to 200 languages and making all contributions in this effort freely available for non-commercial use, our work lays important groundwork for the development of a universal translation system.
Enlace del paper
https://www.nature.com/articles/s41586-024-07335-x
Leer más
https://github.com/facebookresearch/fairseq/tree/nllb
https://x.com/AIatMeta/status/1798420492774432769
Extraer conceptos de GPT-4 / Extracting Concepts from GPT-4
Introducción a la investigación
Propone un nuevo método escalable basado en autoencoders dispersos para extraer alrededor de 16 millones de patrones interpretables de GPT-4; el método demuestra una escalabilidad predecible y es más eficiente que las técnicas anteriores.
> Proposes a new scalable method based on sparse autoencoders to extract around 16 million interpretable patterns from GPT-4; the method demonstrates predictable scaling and is more efficient than previous techniques.
Resumen del paper
Los SAE (Sparse AutoEncoder, autoencoders dispersos) ofrecen un enfoque no supervisado prometedor para extraer características interpretables de un modelo de lenguaje al reconstruir activaciones desde una capa de cuello de botella dispersa. Como los modelos de lenguaje aprenden muchos conceptos, los autoencoders deben ser muy grandes para recuperar todas las características relevantes. Sin embargo, estudiar las propiedades del escalado de los autoencoders es difícil debido a la necesidad de equilibrar los objetivos de reconstrucción y dispersión, así como a la presencia de latentes muertos. Proponemos usar autoencoders k-sparse [Makhzani and Frey, 2013] para controlar directamente la dispersión, simplificando el ajuste y mejorando la frontera entre reconstrucción y dispersión. Además, encontramos modificaciones que generan pocos latentes muertos, incluso en las escalas más grandes que probamos. Usando estas técnicas, encontramos leyes de escalado claras con respecto al tamaño del autoencoder y la dispersión. También introducimos varias métricas nuevas para evaluar la calidad de las características con base en la recuperación de características hipotetizadas, la explicabilidad de los patrones de activación y la dispersión de los efectos downstream. En general, todas estas métricas mejoran a medida que aumenta el tamaño del autoencoder. Para demostrar la escalabilidad de nuestro enfoque, entrenamos un autoencoder de 16 millones de latentes sobre activaciones de GPT-4 para 40 mil millones de tokens. Publicamos el código y los autoencoders para modelos open source, así como un visualizador.
> Sparse autoencoders provide a promising unsupervised approach for extracting interpretable features from a language model by reconstructing activations from a sparse bottleneck layer. Since language models learn many concepts, autoencoders need to be very large to recover all relevant features. However, studying the properties of autoencoder scaling is difficult due to the need to balance reconstruction and sparsity objectives and the presence of dead latents. We propose using k-sparse autoencoders [Makhzani and Frey, 2013] to directly control sparsity, simplifying tuning and improving the reconstruction-sparsity frontier. Additionally, we find modifications that result in few dead latents, even at the largest scales we tried. Using these techniques, we find clean scaling laws with respect to autoencoder size and sparsity. We also introduce several new metrics for evaluating feature quality based on the recovery of hypothesized features, the explainability of activation patterns, and the sparsity of downstream effects. These metrics all generally improve with autoencoder size. To demonstrate the scalability of our approach, we train a 16 million latent autoencoder on GPT-4 activations for 40 billion tokens. We release code and autoencoders for open-source models, as well as a visualizer.
Enlaces de investigación y del paper
https://openai.com/index/extracting-concepts-from-gpt-4/
https://cdn.openai.com/papers/sparse-autoencoders.pdf
Lecturas adicionales
https://github.com/openai/sparse_autoencoder
https://openaipublic.blob.core.windows.net/sparse-autoencoder/…
https://x.com/OpenAI/status/1798762092528586945
Los Transformers son SSM: modelos generalizados y algoritmos eficientes mediante la dualidad estructurada de espacios de estado / Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality
Introducción del paper
Una nueva arquitectura que combina modelos de espacio de estado (SSM) y atención estructurada usa estados 8 veces más grandes y entrena 50% más rápido; la nueva capa de dualidad de espacios de estado es más eficiente y escalable en comparación con el enfoque usado en Mamba, y además mejora los resultados en tareas que requieren una gran capacidad de estado.
> A new architecture that combines state space models (SSMs) and structured attention; it uses 8x larger states and trains 50% faster; the new state space duality layer is more efficient and scalable compared to the approach used in Mamba; it also improves results on tasks that require large state capacity.
Resumen del paper(Abstract)
Los Transformers han sido la arquitectura principal detrás del éxito del deep learning en modelado de lenguaje, pero recientemente se ha demostrado que los modelos de espacio de estado (SSM), como Mamba, igualan o superan a los Transformers en escalas pequeñas y medianas. Mostramos que estas familias de modelos en realidad están muy estrechamente relacionadas, y desarrollamos un marco amplio de conexiones teóricas entre los SSM y variantes de atención, conectadas mediante varias descomposiciones de una clase bien estudiada de matrices semiseparables estructuradas. Nuestro marco de dualidad de espacios de estado (SSD) nos permite diseñar una nueva arquitectura (Mamba-2) cuya capa central es un refinamiento del SSM selectivo de Mamba que es de 2 a 8 veces más rápido, al tiempo que sigue siendo competitivo con los Transformers en modelado de lenguaje.
> While Transformers have been the main architecture behind deep learning's success in language modeling, state-space models (SSMs) such as Mamba have recently been shown to match or outperform Transformers at small to medium scale. We show that these families of models are actually quite closely related, and develop a rich framework of theoretical connections between SSMs and variants of attention, connected through various decompositions of a well-studied class of structured semiseparable matrices. Our state space duality (SSD) framework allows us to design a new architecture (Mamba-2) whose core layer is an a refinement of Mamba's selective SSM that is 2-8X faster, while continuing to be competitive with Transformers on language modeling.
Enlace del paper
https://arxiv.org/abs/2405.21060
Leer más
https://x.com/_albertgu/status/1797651223035904355
Modelado de lenguaje escalable sin multiplicación de matrices (MatMul) / Scalable MatMul-free Language Modeling
Introducción al paper
Propone una implementación que elimina las operaciones de multiplicación de matrices de los LLM mientras mantiene el rendimiento en escalas de miles de millones de parámetros, y afirma que a medida que aumenta el tamaño del modelo se reduce la brecha de rendimiento entre los Transformers de precisión completa y los modelos sin MatMul, y que al usar kernels optimizados durante la inferencia el consumo de memoria se reduce en más de 10 veces.
> Proposes an implementation that eliminates matrix multiplication operations from LLMs while maintaining performance at billion-parameter scales; the performance between full precision Transformers and the MatMul-free models narrows as the model size increases; claims that by using an optimized kernel during inference, memory consumption is reduced by more than 10x.
Resumen del paper (Abstract)
En general, la multiplicación de matrices (MatMul) domina el costo computacional total de los modelos de lenguaje grandes (LLM). Este costo solo aumenta a medida que los LLM escalan a dimensiones de embedding y longitudes de contexto mayores. En este trabajo, mostramos que las operaciones MatMul pueden eliminarse por completo de los LLM mientras se mantiene un rendimiento sólido en escalas de miles de millones de parámetros. Nuestros experimentos muestran que los modelos sin MatMul que proponemos logran un rendimiento comparable al de los Transformers de última generación, que requieren mucha más memoria durante la inferencia, en una escala de hasta al menos 2.7B parámetros. Al investigar las leyes de escalado, encontramos que la brecha de rendimiento entre nuestros modelos sin MatMul y los Transformers de precisión completa se reduce a medida que aumenta el tamaño del modelo. También proporcionamos una implementación eficiente para GPU de este modelo, que puede reducir el uso de memoria hasta en un 61% frente a una línea base no optimizada durante el entrenamiento. Al utilizar un kernel optimizado durante la inferencia, el consumo de memoria de nuestro modelo puede reducirse en más de 10 veces en comparación con modelos no optimizados. Para cuantificar adecuadamente la eficiencia de nuestra arquitectura, construimos una solución de hardware personalizada en un FPGA que aprovecha operaciones ligeras más allá de lo que las GPU pueden hacer. Procesamos modelos de escala de mil millones de parámetros a 13W, con un rendimiento superior a la velocidad de lectura humana, acercando los LLM a una eficiencia similar a la del cerebro. Este trabajo no solo muestra hasta qué punto se pueden simplificar los LLM sin perder un rendimiento efectivo, sino que también señala los tipos de operaciones que los futuros aceleradores deberían optimizar para procesar la próxima generación de LLM ligeros. La implementación del código está disponible en \url{https://github.com/ridgerchu/matmulfreellm}.
> Matrix multiplication (MatMul) typically dominates the overall computational cost of large language models (LLMs). This cost only grows as LLMs scale to larger embedding dimensions and context lengths. In this work, we show that MatMul operations can be completely eliminated from LLMs while maintaining strong performance at billion-parameter scales. Our experiments show that our proposed MatMul-free models achieve performance on-par with state-of-the-art Transformers that require far more memory during inference at a scale up to at least 2.7B parameters. We investigate the scaling laws and find that the performance gap between our MatMul-free models and full precision Transformers narrows as the model size increases. We also provide a GPU-efficient implementation of this model which reduces memory usage by up to 61% over an unoptimized baseline during training. By utilizing an optimized kernel during inference, our model's memory consumption can be reduced by more than 10x compared to unoptimized models. To properly quantify the efficiency of our architecture, we build a custom hardware solution on an FPGA which exploits lightweight operations beyond what GPUs are capable of. We processed billion-parameter scale models at 13W beyond human readable throughput, moving LLMs closer to brain-like efficiency. This work not only shows how far LLMs can be stripped back while still performing effectively, but also points at the types of operations future accelerators should be optimized for in processing the next generation of lightweight LLMs. Our code implementation is available at \url{https://github.com/ridgerchu/matmulfreellm}.
Enlace al paper
https://arxiv.org/abs/2406.02528
Leer más
https://github.com/ridgerchu/matmulfreellm
https://x.com/omarsar0/status/1798373841741185261
Buffer de pensamientos: razonamiento aumentado con pensamiento usando modelos de lenguaje grandes / Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models
Introducción al paper
Presenta un enfoque de razonamiento aumentado con pensamiento para mejorar la precisión, eficiencia y robustez del razonamiento basado en LLM. Aprovecha un meta-buffer que contiene pensamientos de alto nivel (plantillas de pensamiento) destilados a partir de procesos de resolución de problemas, luego recupera la plantilla de pensamiento relevante y la instancia con estructuras de razonamiento específicas de la tarea para el proceso de razonamiento aumentado con pensamiento. Demostró rendimiento SOTA en 10 tareas desafiantes con un costo equivalente al 12% del de métodos de prompting de múltiples consultas como Tree-of-Thoughts.
> Presents a thought-augmented reasoning approach to enhance the accuracy, efficiency, and robustness of LLM-based reasoning; it leverages a meta-buffer containing high-level thoughts (thought templates) distilled from problem-solving processes; the relevant thought template is then retrieved and instantiated with task-specific reasoning structures for the thought-augmented reasoning process; it demonstrates SOTA performance on 10 challenging tasks while requiring 12% of the cost of multi-query prompting methods like Tree-of-Thoughts.
Resumen del paper (Abstract)
Presentamos Buffer of Thoughts (BoT), un nuevo y versátil enfoque de razonamiento aumentado por pensamientos para mejorar la precisión, eficiencia y robustez de los modelos de lenguaje grandes (LLM). En concreto, proponemos un meta-buffer para almacenar una serie de pensamientos informativos de alto nivel, es decir, plantillas de pensamiento, destilados de los procesos de resolución de problemas en diversas tareas. Luego, para cada problema, recuperamos una plantilla de pensamiento relevante y la instanciamos de forma adaptativa con estructuras de razonamiento específicas para realizar un razonamiento eficiente. Además, para garantizar la escalabilidad y la estabilidad, proponemos un buffer-manager que actualiza dinámicamente el meta-buffer, mejorando así la capacidad del meta-buffer a medida que se resuelven más tareas. Tras realizar experimentos extensivos en 10 tareas desafiantes e intensivas en razonamiento, logramos mejoras de rendimiento significativas frente a métodos SOTA previos: 11% en Game of 24, 20% en Geometric Shapes y 51% en Checkmate-in-One. Análisis adicionales muestran la superior capacidad de generalización y robustez del modelo de nuestro BoT, mientras requiere en promedio solo el 12% del costo de los métodos de prompting de múltiples consultas (p. ej., tree/graph of thoughts). En particular, encontramos que nuestro Llama3-8B+BoT tiene el potencial de superar al modelo Llama3-70B. El proyecto está disponible en el siguiente enlace: https://github.com/YangLing0818/buffer-of-thought-llm
> We introduce Buffer of Thoughts (BoT), a novel and versatile thought-augmented reasoning approach for enhancing accuracy, efficiency and robustness of large language models (LLMs). Specifically, we propose meta-buffer to store a series of informative high-level thoughts, namely thought-template, distilled from the problem-solving processes across various tasks. Then for each problem, we retrieve a relevant thought-template and adaptively instantiate it with specific reasoning structures to conduct efficient reasoning. To guarantee the scalability and stability, we further propose buffer-manager to dynamically update the meta-buffer, thus enhancing the capacity of meta-buffer as more tasks are solved. We conduct extensive experiments on 10 challenging reasoning-intensive tasks, and achieve significant performance improvements over previous SOTA methods: 11% on Game of 24, 20% on Geometric Shapes and 51% on Checkmate-in-One. Further analysis demonstrate the superior generalization ability and model robustness of our BoT, while requiring only 12% of the cost of multi-query prompting methods (e.g., tree/graph of thoughts) on average. Notably, we find that our Llama3-8B+BoT has the potential to surpass Llama3-70B model. Our project is available at: https://github.com/YangLing0818/buffer-of-thought-llm
Enlace al paper
https://arxiv.org/abs/2406.04271
Leer más
https://github.com/YangLing0818/buffer-of-thought-llm
https://x.com/omarsar0/status/1799113545696567416
SaySelf: entrenar a los LLM para expresar confianza con fundamentos autorreflexivos / SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales
Presentación del paper
Un marco de entrenamiento para enseñar a los LLM a expresar estimaciones de confianza detalladas más precisas y fundamentos autorreflexivos; realiza ajuste fino supervisado sobre un conjunto de datos que contiene resúmenes de las diferencias entre múltiples cadenas de razonamiento, y luego aplica aprendizaje por refuerzo para calibrar las estimaciones de confianza, alentando al LLM a generar predicciones precisas y de alta confianza y penalizando la sobreconfianza en salidas erróneas.
> A training framework to teach LLMs to express more accurate fine-grained confidence estimates and self-reflective rationales; it performs supervised finetuning on a dataset that contains summaries of the difference between multiple reasoning chains; reinforcement learning is then applied to calibrate confidence estimates, encouraging the LLM to produce accurate, high-confidence predictions and penalize overconfidence in erroneous outputs.
Resumen del paper (Abstract)
Los modelos de lenguaje grandes (LLM) suelen generar información inexacta o fabricada y, por lo general, no indican su nivel de confianza, lo que a menudo limita su aplicación a gran escala. Trabajos previos han intentado extraer confianza de los LLM mediante prompting directo o de autoconsistencia, o construyendo conjuntos de datos específicos para ajuste fino supervisado. Los enfoques basados en prompting tienen un rendimiento inferior, y los enfoques basados en entrenamiento están limitados a estimaciones de confianza binarias o inexactas a nivel de grupo. En este estudio, presentamos la versión avanzada de SaySelf, un marco de entrenamiento que enseña a los LLM a expresar estimaciones de confianza más precisas y detalladas. Además, aparte de las puntuaciones de confianza, SaySelf inicia un proceso para guiar a los LLM a generar justificaciones autorreflexivas que identifiquen claramente las brechas en su conocimiento paramétrico y expliquen su incertidumbre. Esto se logra usando un LLM para resumir automáticamente, mediante lenguaje natural, las incertidumbres sobre conocimientos específicos. El resumen se basa en el análisis de inconsistencias entre múltiples cadenas de razonamiento muestreadas, y los datos resultantes se utilizan para ajuste fino supervisado. Además, se emplea aprendizaje por refuerzo con una función de recompensa cuidadosamente diseñada para calibrar las estimaciones de confianza, incentivando a los LLM a ofrecer predicciones precisas y de alta confianza, y penalizando la sobreconfianza en salidas erróneas. Los resultados experimentales en conjuntos de datos tanto dentro como fuera de distribución demuestran que SaySelf es eficaz para reducir el error de calibración de confianza y mantener el rendimiento en las tareas. También se muestra que las justificaciones autorreflexivas generadas son razonables y pueden contribuir aún más a la calibración. El código está disponible públicamente en https://github.com/xu1868/SaySelf.
> Large language models (LLMs) often generate inaccurate or fabricated information and generally fail to indicate their confidence, which limits their broader applications. Previous work elicits confidence from LLMs by direct or self-consistency prompting, or constructing specific datasets for supervised finetuning. The prompting-based approaches have inferior performance, and the training-based approaches are limited to binary or inaccurate group-level confidence estimates. In this work, we present the advanced SaySelf, a training framework that teaches LLMs to express more accurate fine-grained confidence estimates. In addition, beyond the confidence scores, SaySelf initiates the process of directing LLMs to produce self-reflective rationales that clearly identify gaps in their parametric knowledge and explain their uncertainty. This is achieved by using an LLM to automatically summarize the uncertainties in specific knowledge via natural language. The summarization is based on the analysis of the inconsistency in multiple sampled reasoning chains, and the resulting data is utilized for supervised fine-tuning. Moreover, we utilize reinforcement learning with a meticulously crafted reward function to calibrate the confidence estimates, motivating LLMs to deliver accurate, high-confidence predictions and to penalize overconfidence in erroneous outputs. Experimental results in both in-distribution and out-of-distribution datasets demonstrate the effectiveness of SaySelf in reducing the confidence calibration error and maintaining the task performance. We show that the generated self-reflective rationales are reasonable and can further contribute to the calibration. The code is made public at https://github.com/xu1868/SaySelf.
Enlace al paper
https://arxiv.org/abs/2405.20974
Leer más
https://github.com/xu1868/SaySelf
https://x.com/omarsar0/status/1797682549608833477
La geometría de los conceptos categóricos y jerárquicos en modelos de lenguaje grandes / The Geometry of Categorical and Hierarchical Concepts in Large Language Models
Introducción al paper
Estudia la estructura geométrica de los conceptos categóricos y cómo se codifican en los LLM las relaciones jerárquicas entre ellos, y encuentra que los conceptos categóricos simples son representados por los LLM como símplices, mientras que los conceptos complejos se representan como politopos construidos a partir de sumas directas de símplices, lo que refleja la estructura jerárquica.
> Studies the geometry of categorical concepts and how the hierarchical relations between them are encoded in LLMs; finds that simple categorical concepts are represented as simplices by the LLMs and complex concepts are represented as polytopes constructed from direct sums of simplices, which reflect the hierarchical structure.
Resumen del paper (Abstract)
Comprender cómo se codifica el significado semántico en los espacios de representación de los modelos de lenguaje de gran escala es un problema fundamental de la interpretabilidad. Este paper estudia dos preguntas fundacionales en esta área. Primero, ¿cómo se representan los conceptos categóricos, como {'mamífero', 'ave', 'reptil', 'pez'}? Segundo, ¿cómo se codifican las relaciones jerárquicas entre conceptos? Por ejemplo, ¿cómo se codifica el hecho de que un 'perro' es un tipo de 'mamífero'? Para responder estas preguntas, mostramos cómo extender la hipótesis de representación lineal. Encontramos una estructura sorprendentemente simple: los conceptos categóricos simples se representan como símplexes, los conceptos jerárquicamente relacionados son ortogonales en un sentido que definimos con precisión y, como consecuencia, los conceptos complejos se representan como politopos construidos a partir de sumas directas de símplexes, reflejando la estructura jerárquica. Validamos estos resultados teóricos en el modelo de lenguaje de gran escala Gemma, estimando representaciones para 957 conceptos jerárquicamente relacionados usando datos de WordNet.
> Understanding how semantic meaning is encoded in the representation spaces of large language models is a fundamental problem in interpretability. In this paper, we study the two foundational questions in this area. First, how are categorical concepts, such as {'mammal', 'bird', 'reptile', 'fish'}, represented? Second, how are hierarchical relations between concepts encoded? For example, how is the fact that 'dog' is a kind of 'mammal' encoded? We show how to extend the linear representation hypothesis to answer these questions. We find a remarkably simple structure: simple categorical concepts are represented as simplices, hierarchically related concepts are orthogonal in a sense we make precise, and (in consequence) complex concepts are represented as polytopes constructed from direct sums of simplices, reflecting the hierarchical structure. We validate these theoretical results on the Gemma large language model, estimating representations for 957 hierarchically related concepts using data from WordNet.
Enlace al paper
https://arxiv.org/abs/2406.01506
Leer más
https://x.com/omarsar0/status/1798010546522103898
Mostrar, no decir: alinear modelos de lenguaje con retroalimentación demostrada / Show, Don't Tell: Aligning Language Models with Demonstrated Feedback
Introducción al paper
Propone un método para alinear LLMs a un entorno específico mediante una cantidad muy pequeña de demostraciones como retroalimentación; alinea las salidas del LLM con los comportamientos demostrados por el usuario, puede aprender alineación fina de estilo y tarea en múltiples dominios y supera a los métodos de few-shot prompting, SFT y self-play en los benchmarks evaluados.
> Proposes a method to align LLMs to a specific setting via a very small number of demonstrations as feedback; it aligns LLM outputs to a user’s demonstrated behaviors and can learn fine-grained style and task alignment across domains; outperforms few-shot prompting, SFT, and self-play methods on the tested benchmarks.
Resumen(Abstract)
Los modelos de lenguaje están alineados para emular la voz colectiva de muchos, lo que da como resultado salidas que no se alinean con nadie en particular. Desviar a los LLMs de una salida genérica es posible mediante ajuste fino supervisado o RLHF, pero eso requiere conjuntos de datos prohibitivamente grandes para nuevas tareas ad hoc. En cambio, argumentan que es posible alinear un LLM a un entorno específico aprovechando una cantidad muy pequeña de demostraciones ($<10$) como retroalimentación. Su método, Demonstration ITerated Task Optimization (DITTO), alinea directamente las salidas del modelo de lenguaje con los comportamientos demostrados por el usuario. Derivado a partir de ideas del aprendizaje por imitación en línea, DITTO genera de forma económica datos de comparación en línea al tratar las demostraciones de los usuarios como preferibles frente a la salida del LLM y de sus checkpoints intermedios. Evalúan la capacidad de DITTO para aprender alineación fina de estilo y tarea en dominios como artículos de noticias, correos electrónicos y publicaciones de blog. Además, realizan un estudio con usuarios solicitando una variedad de demostraciones de los participantes ($N=16$). En sus benchmarks y estudio con usuarios, encuentran que las tasas de victoria de DITTO superan a few-shot prompting, al ajuste fino supervisado y a otros métodos de self-play por un promedio de 19 puntos porcentuales. Al usar directamente las demostraciones como retroalimentación, DITTO ofrece un nuevo método para una personalización efectiva de los LLMs.
> Language models are aligned to emulate the collective voice of many, resulting in outputs that align with no one in particular. Steering LLMs away from generic output is possible through supervised finetuning or RLHF, but requires prohibitively large datasets for new ad-hoc tasks. We argue that it is instead possible to align an LLM to a specific setting by leveraging a very small number ($<10$) of demonstrations as feedback. Our method, Demonstration ITerated Task Optimization (DITTO), directly aligns language model outputs to a user's demonstrated behaviors. Derived using ideas from online imitation learning, DITTO cheaply generates online comparison data by treating users' demonstrations as preferred over output from the LLM and its intermediate checkpoints. We evaluate DITTO's ability to learn fine-grained style and task alignment across domains such as news articles, emails, and blog posts. Additionally, we conduct a user study soliciting a range of demonstrations from participants ($N=16$). Across our benchmarks and user study, we find that win-rates for DITTO outperform few-shot prompting, supervised fine-tuning, and other self-play methods by an average of 19% points. By using demonstrations as feedback directly, DITTO offers a novel method for effective customization of LLMs.
Enlace al paper
https://arxiv.org/abs/2406.00888
Leer más
https://x.com/arankomatsuzaki/status/1797833884463472653
Hacia una alineación automatizada y escalable de los LLMs: paper de encuesta / Towards Scalable Automated Alignment of LLMs: A Survey
Presentación del paper
Se ofrece una visión general de los métodos usados para alinear LLM y se exploran las siguientes 4 direcciones: 1) alineación mediante sesgo inductivo, 2) alineación mediante imitación del comportamiento, 3) alineación mediante retroalimentación del modelo, 4) alineación mediante retroalimentación del entorno.
> Provides an overview of methods used for alignment of LLMs; explores the 4 following directions: 1) aligning through inductive bias, 2) aligning through behavior imitation, 3) aligning through model feedback, and 4) aligning through environment feedback.
Resumen del paper (Abstract)
La alineación es el paso más crítico para construir modelos de lenguaje de gran escala (LLM) que satisfagan las necesidades humanas. A medida que los LLM avanzan rápidamente hasta superar gradualmente las capacidades humanas, los métodos tradicionales de alineación basados en anotación humana cada vez son menos capaces de responder a las demandas de escalabilidad. Por lo tanto, existe una necesidad urgente de explorar nuevas fuentes de señales de alineación automatizada y nuevos enfoques técnicos. En este paper, revisamos de forma sistemática los métodos de alineación automatizada que han surgido recientemente, con el objetivo de explorar cómo lograr una alineación automatizada efectiva y escalable una vez que las capacidades de los LLM excedan las de los humanos. En particular, clasificamos los métodos existentes de alineación automatizada en 4 grandes categorías según las fuentes de las señales de alineación, y discutimos el estado actual y el potencial de desarrollo de cada categoría. Además, exploramos los mecanismos subyacentes que hacen posible la alineación automatizada y analizamos los factores esenciales que vuelven factibles y efectivas estas tecnologías de alineación automatizada desde el papel fundamental de la alineación.
> Alignment is the most critical step in building large language models (LLMs) that meet human needs. With the rapid development of LLMs gradually surpassing human capabilities, traditional alignment methods based on human-annotation are increasingly unable to meet the scalability demands. Therefore, there is an urgent need to explore new sources of automated alignment signals and technical approaches. In this paper, we systematically review the recently emerging methods of automated alignment, attempting to explore how to achieve effective, scalable, automated alignment once the capabilities of LLMs exceed those of humans. Specifically, we categorize existing automated alignment methods into 4 major categories based on the sources of alignment signals and discuss the current status and potential development of each category. Additionally, we explore the underlying mechanisms that enable automated alignment and discuss the essential factors that make automated alignment technologies feasible and effective from the fundamental role of alignment.
Enlace del paper
https://arxiv.org/abs/2406.01252
Leer más
https://x.com/omarsar0/status/1798014572663583165
AgentGym: Evolucionando agentes basados en modelos de lenguaje de gran escala en entornos diversos / AgentGym: Evolving Large Language Model-based Agents across Diverse Environments
Presentación del paper
Es un nuevo framework que admite diversos entornos y tareas para una exploración amplia, en tiempo real y concurrente de agentes; permite construir un agente general basado en LLM con capacidades de autoevolución y explorar su potencial más allá de los datos vistos previamente a través de tareas y entornos.
> A new framework featuring various environments and tasks for broad, real-time, and concurrent agent exploration; builds a generally capable LLM-based agent with self-evolution abilities and explores its potential beyond previously seen data across tasks and environments.
Resumen del paper (Abstract)
Construir agentes generalistas que puedan manejar tareas diversas y evolucionar por sí mismos en distintos entornos es un objetivo de largo plazo en la comunidad de IA. Los modelos de lenguaje grandes (LLM) se consideran una base prometedora para construir este tipo de agentes debido a sus capacidades generalizadas. Los enfoques actuales o bien hacen que los agentes basados en LLM imiten paso a paso trayectorias proporcionadas por expertos, lo que requiere supervisión humana, es difícil de escalar y limita la exploración del entorno; o bien permiten que los agentes exploren y aprendan en entornos aislados, lo que da como resultado agentes especialistas con una generalización limitada. En este paper, damos el primer paso hacia la construcción de agentes basados en LLM con capacidades generales y habilidad de autoevolución. Identificamos una tríada de ingredientes: 1) entornos diversos para la exploración y el aprendizaje del agente, 2) un conjunto de trayectorias para dotar a los agentes de capacidades básicas y conocimiento previo, y 3) un método de evolución efectivo y escalable. Proponemos AgentGym, un nuevo framework con una variedad de entornos y tareas para una exploración de agentes amplia, en tiempo real, de formato unificado y concurrente. AgentGym también incluye una base de datos con instrucciones ampliadas, una suite de benchmarks y trayectorias de alta calidad a través de distintos entornos. A continuación, proponemos un nuevo método, AgentEvol, para investigar el potencial de la autoevolución de los agentes más allá de los datos vistos previamente en tareas y entornos. Los resultados experimentales muestran que los agentes evolucionados pueden lograr resultados comparables a los modelos SOTA. Lanzamos la suite AgentGym, que incluye la plataforma, el dataset, el benchmark, checkpoints e implementaciones de algoritmos. La suite AgentGym está disponible en https://github.com/WooooDyy/AgentGym.
> Building generalist agents that can handle diverse tasks and evolve themselves across different environments is a long-term goal in the AI community. Large language models (LLMs) are considered a promising foundation to build such agents due to their generalized capabilities. Current approaches either have LLM-based agents imitate expert-provided trajectories step-by-step, requiring human supervision, which is hard to scale and limits environmental exploration; or they let agents explore and learn in isolated environments, resulting in specialist agents with limited generalization. In this paper, we take the first step towards building generally-capable LLM-based agents with self-evolution ability. We identify a trinity of ingredients: 1) diverse environments for agent exploration and learning, 2) a trajectory set to equip agents with basic capabilities and prior knowledge, and 3) an effective and scalable evolution method. We propose AgentGym, a new framework featuring a variety of environments and tasks for broad, real-time, uni-format, and concurrent agent exploration. AgentGym also includes a database with expanded instructions, a benchmark suite, and high-quality trajectories across environments. Next, we propose a novel method, AgentEvol, to investigate the potential of agent self-evolution beyond previously seen data across tasks and environments. Experimental results show that the evolved agents can achieve results comparable to SOTA models. We release the AgentGym suite, including the platform, dataset, benchmark, checkpoints, and algorithm implementations. The AgentGym suite is available on https://github.com/WooooDyy/AgentGym.
Enlace al paper
https://arxiv.org/abs/2406.04151
Leer más
https://github.com/WooooDyy/AgentGym
https://x.com/arankomatsuzaki/status/1798904095669121443
Texto original
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-90f
Este artículo fue resumido con un modelo GPT, por lo que puede contener errores; por favor consulta también el texto original al final del artículo. Si mientras lees encuentras contenido extraño o incorrecto, te agradeceremos que nos lo hagas saber en los comentarios. 🤗
⚠️Publicidad⚠️: ¿Te resultó útil este artículo recopilado por 🔥la comunidad de usuarios de PyTorch en Corea🇰🇷? Si te registras como miembro, te enviaremos los artículos principales por correo electrónico💌. (Por defecto es Weekly, pero también puedes cambiarlo a Daily.)
Aún no hay comentarios.