12] Los principales papers de ML de esta semana (Top ML Papers of the Week)

(discuss.pytorch.kr)

3 puntos por ninebow 2023-11-13 | Aún no hay comentarios. | Compartir por WhatsApp

Resumen

Hicimos una traducción automática de los artículos sobre papers de ML que DAIR.AI publica cada semana.
Al revisar los papers seleccionados esta semana, se observa que hay varios estudios sobre modelos Transformer y grandes modelos de lenguaje (Large Language Models, LLM).
Títulos como 'Simplifying Transformer Blocks', 'Understanding In-Context Learning Abilities in Transformers' y 'S-LoRA' parecen centrarse en profundizar la comprensión de la estructura y los mecanismos de aprendizaje de los modelos Transformer.
'Hallucination in LLMs', 'On the Road with GPT-4V(ision)' y 'GPT4All' tratan el rendimiento y los casos de uso de grandes modelos de lenguaje como GPT, lo que muestra una fuerte tendencia enfocada en el avance y las aplicaciones de los grandes modelos de lenguaje.

Encuesta sobre las alucinaciones en grandes modelos de lenguaje: principios, taxonomía, desafíos y preguntas abiertas / A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions

Introducción del paper

Un paper de encuesta integral sobre las alucinaciones en los LLM (más de 50 páginas) que ofrece información sobre los principios, la taxonomía, los desafíos y las preguntas abiertas relacionadas con el problema de las alucinaciones en los LLM. #survey-paper #hallucination

A comprehensive survey (50+ pages) on hallucination in llms; provides information about principles, taxonomy, challenges, and open questions related to the issue of hallucination in llms.

Resumen del paper

La aparición de los grandes modelos de lenguaje (LLM) ha marcado un avance importante en el procesamiento de lenguaje natural (NLP), impulsando progresos notables en la comprensión y generación de texto. Sin embargo, junto con estos avances, los LLM muestran una fuerte tendencia a producir alucinaciones, generando contenido que no coincide con hechos del mundo real o con las entradas del usuario. Este fenómeno plantea desafíos importantes para su despliegue práctico y genera preocupaciones sobre la confiabilidad de los LLM en escenarios reales, lo que ha atraído un interés creciente por detectar y mitigar estas alucinaciones. En esta encuesta, buscamos ofrecer una visión general exhaustiva y profunda de los avances recientes en el campo de las alucinaciones en LLM. Primero presentamos una taxonomía innovadora de las alucinaciones en LLM y luego profundizamos en los factores que contribuyen a ellas. Posteriormente, ofrecemos una visión integral de los métodos y benchmarks para detectar alucinaciones. Además, se presentan enfoques representativos diseñados para mitigarlas. Por último, analizamos los desafíos que ponen de relieve las limitaciones actuales y formulamos preguntas abiertas con el objetivo de trazar rutas para futuras investigaciones sobre alucinaciones en LLM.

The emergence of large language models (LLMs) has marked a significant breakthrough in natural language processing (NLP), leading to remarkable advancements in text understanding and generation. Nevertheless, alongside these strides, LLMs exhibit a critical tendency to produce hallucinations, resulting in content that is inconsistent with real-world facts or user inputs. This phenomenon poses substantial challenges to their practical deployment and raises concerns over the reliability of LLMs in real-world scenarios, which attracts increasing attention to detect and mitigate these hallucinations. In this survey, we aim to provide a thorough and in-depth overview of recent advances in the field of LLM hallucinations. We begin with an innovative taxonomy of LLM hallucinations, then delve into the factors contributing to hallucinations. Subsequently, we present a comprehensive overview of hallucination detection methods and benchmarks. Additionally, representative approaches designed to mitigate hallucinations are introduced accordingly. Finally, we analyze the challenges that highlight the current limitations and formulate open questions, aiming to delineate pathways for future research on hallucinations in LLMs.

Enlace del paper

https://arxiv.org/abs/2311.05232

Leer más

https://x.com/omarsar0/status/1722985251129966705

Simplificación de bloques Transformer / Simplifying Transformer Blocks

Introducción del paper

Explora la simplificación del bloque Transformer y encuentra que muchos componentes del bloque pueden eliminarse sin pérdida de velocidad de entrenamiento; usando distintas arquitecturas como modelos autorregresivos solo decodificador y modelos solo codificador tipo BERT, los bloques simplificados emulan la velocidad de entrenamiento por actualización y el rendimiento de los Transformers estándar, e incluso pueden lograr un throughput de entrenamiento 15% mayor con menos parámetros (15%).

Explores simplifying the transformer block and finds that many block components can be removed with no loss of training speed; using different architectures like autoregressive decoder-only and bert encoder-only models, the simplified blocks emulate per-update training speed and performance of standard transformers, and even achieve 15% faster training throughput with fewer parameters (15%).

Resumen del paper

Una receta de diseño simple para Transformers profundos es componer bloques de construcción idénticos. Pero los bloques estándar de transformer están lejos de ser simples, ya que entrelazan subbloques de atención y MLP con conexiones de salto y capas de normalización en arreglos precisos. Esta complejidad conduce a arquitecturas frágiles, donde cambios aparentemente menores pueden reducir significativamente la velocidad de entrenamiento o volver imposible entrenar los modelos. En este trabajo, se preguntan hasta qué punto se puede simplificar el bloque estándar de transformer. Al combinar teoría de propagación de señales y observaciones empíricas, motivan modificaciones que permiten eliminar muchos componentes del bloque sin pérdida de velocidad de entrenamiento, incluidas las conexiones de salto, los parámetros de proyección o de valor, los subbloques secuenciales y las capas de normalización. En experimentos tanto con modelos autorregresivos solo decodificador como con modelos BERT solo codificador, sus transformers simplificados reprodujeron la velocidad de entrenamiento por actualización y el rendimiento de los transformers estándar, mientras lograron un 15% más de throughput de entrenamiento y usaron un 15% menos de parámetros.

A simple design recipe for deep Transformers is to compose identical building blocks. But standard transformer blocks are far from simple, interweaving attention and MLP sub-blocks with skip connections & normalisation layers in precise arrangements. This complexity leads to brittle architectures, where seemingly minor changes can significantly reduce training speed, or render models untrainable. In this work, we ask to what extent the standard transformer block can be simplified? Combining signal propagation theory and empirical observations, we motivate modifications that allow many block components to be removed with no loss of training speed, including skip connections, projection or value parameters, sequential sub-blocks and normalisation layers. In experiments on both autoregressive decoder-only and BERT encoder-only models, our simplified transformers emulate the per-update training speed and performance of standard transformers, while enjoying 15% faster training throughput, and using 15% fewer parameters.

Enlace al paper

https://arxiv.org/abs/2311.01906

Leer más

https://x.com/maksym_andr/status/1722235666724192688

Las mezclas de datos de preentrenamiento permiten capacidades más acotadas de selección de modelos en modelos Transformer / Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in Transformer Models

Presentación del paper

Investiga qué tan eficazmente los transformers pueden conectar mezclas de datos de preentrenamiento para identificar y aprender nuevas tareas en contexto, tanto dentro como fuera de la distribución de preentrenamiento. En los regímenes estudiados, hay evidencia limitada de que el comportamiento de aprendizaje en contexto de los modelos sea capaz de generalizar más allá de sus datos de preentrenamiento.

Investigates how effectively transformers can bridge between pretraining data mixture to identify and learn new tasks in-context which are both inside and outside the pretraining distribution; in the regimes studied, there is limited evidence that the models’ in-context learning behavior is capable of generalizing beyond their pretraining data.

Resumen del paper

Los modelos Transformer, en particular los modelos de lenguaje grandes (LLM), tienen la notable capacidad de realizar aprendizaje en contexto (ICL): ejecutar nuevas tareas cuando se les presentan ejemplos de entrada-salida no vistos, sin ningún entrenamiento explícito del modelo. En este trabajo, estudian qué tan eficazmente los transformers pueden conectar su mezcla de datos de preentrenamiento, compuesta por múltiples familias de tareas distintas, para identificar y aprender nuevas tareas en contexto tanto dentro como fuera de la distribución de preentrenamiento. Basándose en trabajos previos, investigan esta cuestión en un entorno controlado, donde estudian modelos Transformer entrenados sobre secuencias de pares $(x, f(x))$ en lugar de lenguaje natural. Sus resultados empíricos muestran que los transformers demuestran capacidades casi óptimas de selección no supervisada de modelos, en su habilidad para primero identificar en contexto distintas familias de tareas y aprender dentro de ellas en contexto cuando esas familias de tareas están bien representadas en sus datos de preentrenamiento. Sin embargo, cuando se les presentan tareas o funciones fuera del dominio de sus datos de preentrenamiento, muestran varios modos de fallo de los transformers y una degradación en su generalización incluso para tareas simples de extrapolación. En conjunto, estos resultados destacan que las impresionantes capacidades de ICL de los modelos secuenciales de alta capacidad pueden estar más estrechamente ligadas a la cobertura de sus mezclas de datos de preentrenamiento que a sesgos inductivos que generen capacidades fundamentales de generalización.

Transformer models, notably large language models (LLMs), have the remarkable ability to perform in-context learning (ICL) -- to perform new tasks when prompted with unseen input-output examples without any explicit model training. In this work, we study how effectively transformers can bridge between their pretraining data mixture, comprised of multiple distinct task families, to identify and learn new tasks in-context which are both inside and outside the pretraining distribution. Building on previous work, we investigate this question in a controlled setting, where we study transformer models trained on sequences of $(x, f(x))$ pairs rather than natural language. Our empirical results show transformers demonstrate near-optimal unsupervised model selection capabilities, in their ability to first in-context identify different task families and in-context learn within them when the task families are well-represented in their pretraining data. However when presented with tasks or functions which are out-of-domain of their pretraining data, we demonstrate various failure modes of transformers and degradation of their generalization for even simple extrapolation tasks. Together our results highlight that the impressive ICL abilities of high-capacity sequence models may be more closely tied to the coverage of their pretraining data mixtures than inductive biases that create fundamental generalization capabilities.

Enlace al paper

https://arxiv.org/abs/2311.00871

Leer más

https://x.com/abacaj/status/1721223737729581437

Generación musical simple y controlable / Simple and Controllable Music Generation

Introducción al paper

Un LLM basado en transformadores de una sola etapa que opera sobre varios flujos de representaciones musicales discretas comprimidas, y que puede generar muestras de alta calidad (mono y estéreo) mientras se ajusta según descripciones de texto o características melódicas.

A single-stage transformer-based llm that operates over several streams of compressed discrete music representation; it can generate high-quality samples (mono and stereo) while conditioning on textual description or melodic features.

Resumen del paper

Aborda la tarea de generación musical condicional. Presenta MusicGen, un único modelo de lenguaje (LM) que opera sobre varios flujos de representación musical discreta comprimida, es decir, tokens. A diferencia de trabajos anteriores, MusicGen está compuesto por un LM transformador de una sola etapa junto con patrones eficientes de entrelazado de tokens, lo que elimina la necesidad de encadenar varios modelos, por ejemplo de forma jerárquica o con upsampling. Siguiendo este enfoque, se demuestra cómo MusicGen puede generar muestras de alta calidad, tanto mono como estéreo, condicionadas por descripciones textuales o características melódicas, lo que permite un mejor control sobre la salida generada. Se realiza una evaluación empírica extensa, considerando tanto estudios automáticos como humanos, que muestra que el enfoque propuesto supera a las líneas base evaluadas en un benchmark estándar de texto a música. Mediante estudios de ablación, se arroja luz sobre la importancia de cada uno de los componentes que conforman MusicGen. Las muestras musicales, el código y los modelos están disponibles en https://github.com/facebookresearch/audiocraft

We tackle the task of conditional music generation. We introduce MusicGen, a single Language Model (LM) that operates over several streams of compressed discrete music representation, i.e., tokens. Unlike prior work, MusicGen is comprised of a single-stage transformer LM together with efficient token interleaving patterns, which eliminates the need for cascading several models, e.g., hierarchically or upsampling. Following this approach, we demonstrate how MusicGen can generate high-quality samples, both mono and stereo, while being conditioned on textual description or melodic features, allowing better controls over the generated output. We conduct extensive empirical evaluation, considering both automatic and human studies, showing the proposed approach is superior to the evaluated baselines on a standard text-to-music benchmark. Through ablation studies, we shed light over the importance of each of the components comprising MusicGen. Music samples, code, and models are available at https://github.com/facebookresearch/audiocraft

Enlace al paper

https://arxiv.org/abs/2306.05284

Leer más

https://x.com/AIatMeta/status/1723043913638810025

Actualizaciones alternadas para transformadores eficientes / Alternating Updates for Efficient Transformers

Introducción al paper

Un método que permite aprovechar el aumento de escala y capacidad en modelos transformadores sin incrementar el costo computacional; esto se logra trabajando sobre un subbloque de la representación expandida en cada capa y usando un mecanismo de predicción y corrección para actualizar los bloques inactivos; amplía la representación aprendida mientras solo incurre en un aumento despreciable de la latencia.

A method that makes it possible to take advantage of increasing scale and capacity in transformer models without increasing the computational cost; achieved by working on a subblock of the widened representation at each layer and using a predict-and-correct mechanism to update the inactivated blocks; it widens the learn representation while only incurring a negligible increase in latency.

Resumen del paper

Es bien sabido que aumentar la escala de las redes transformer profundas mejora la calidad y el rendimiento. Sin embargo, este aumento de escala suele venir acompañado de incrementos prohibitivos en el costo computacional y la latencia de inferencia. Pure Storage presenta Alternating Updates (AltUp), un método simple de implementar para aumentar la capacidad de un modelo sin la carga computacional. AltUp permite ampliar la representación aprendida, es decir, la incrustación de tokens, incurriendo solo en un aumento despreciable de la latencia. AltUp logra esto trabajando sobre un subbloque de la representación ampliada en cada capa y usando un mecanismo de predicción y corrección para actualizar los bloques inactivos. Presentamos extensiones de AltUp, como su aplicabilidad a la dimensión de secuencia, y demostramos cómo AltUp puede combinarse de forma sinérgica con enfoques existentes, como los modelos Sparse Mixture-of-Experts, para obtener modelos eficientes con una capacidad aún mayor. Nuestros experimentos en modelos transformer de referencia y tareas de lenguaje demuestran la efectividad consistente de AltUp en un conjunto diverso de escenarios. En particular, en los benchmarks SuperGLUE y SQuAD, AltUp permite una aceleración de hasta $87%$ en comparación con las líneas base densas con la misma precisión.

It has been well established that increasing scale in deep transformer networks leads to improved quality and performance. However, this increase in scale often comes with prohibitive increases in compute cost and inference latency. We introduce Alternating Updates (AltUp), a simple-to-implement method to increase a model's capacity without the computational burden. AltUp enables the widening of the learned representation, i.e., the token embedding, while only incurring a negligible increase in latency. AltUp achieves this by working on a subblock of the widened representation at each layer and using a predict-and-correct mechanism to update the inactivated blocks. We present extensions of AltUp, such as its applicability to the sequence dimension, and demonstrate how AltUp can be synergistically combined with existing approaches, such as Sparse Mixture-of-Experts models, to obtain efficient models with even higher capacity. Our experiments on benchmark transformer models and language tasks demonstrate the consistent effectiveness of AltUp on a diverse set of scenarios. Notably, on SuperGLUE and SQuAD benchmarks, AltUp enables up to $87%$ speedup relative to the dense baselines at the same accuracy.

Enlace al paper

https://arxiv.org/abs/2301.13310

Leer más

https://x.com/GoogleAI/status/1722004366201418132

Reformular y responder: dejar que los modelos de lenguaje grandes se hagan mejores preguntas a sí mismos / Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves

Presentación del paper

Un método efectivo de prompting que usa LLMs para reformular y ampliar las preguntas planteadas por humanos con el fin de mejorar el rendimiento general; puede mejorar el rendimiento de distintos modelos en una amplia variedad de tareas; este enfoque puede combinarse con chain-of-thought para mejorar aún más el rendimiento.

An effective prompting method that uses llms to rephrase and expand questions posed by humans to improve overall performance; it can improve the performance of different models across a wide range of tasks; the approach can be combined with chain-of-thought to improve performance further.

Resumen del paper

Los malentendidos surgen no solo en la comunicación interpersonal, sino también entre los humanos y los modelos de lenguaje de gran escala (LLM). Estas discrepancias pueden hacer que los LLM interpreten preguntas aparentemente no ambiguas de formas inesperadas, produciendo respuestas incorrectas. Si bien es ampliamente reconocido que la calidad de un prompt, como una pregunta, influye significativamente en la calidad de la respuesta que entregan los LLM, todavía está poco desarrollado un método sistemático para formular preguntas que los LLM puedan comprender mejor. En este paper, presentamos un método llamado Rephrase and Respond (RaR), que permite a los LLM reformular y ampliar las preguntas hechas por humanos y dar respuestas en un solo prompt. Este enfoque funciona como un método de prompting simple pero efectivo para mejorar el rendimiento. También introducimos una variante de dos pasos de RaR, en la que un LLM de reformulación primero reformula la pregunta y luego envía juntas la pregunta original y la reformulada a otro LLM encargado de responder. Esto facilita el uso efectivo en un LLM distinto de las preguntas reformuladas generadas por otro. Nuestros experimentos demuestran que nuestros métodos mejoran significativamente el rendimiento de distintos modelos en una amplia variedad de tareas. Además, ofrecemos una comparación integral entre RaR y el popular método Chain-of-Thought (CoT), tanto desde el punto de vista teórico como empírico. Mostramos que RaR es complementario a CoT y que puede combinarse con CoT para lograr un rendimiento aún mejor. Nuestro trabajo no solo contribuye a mejorar el rendimiento de los LLM de forma eficiente y efectiva, sino que también arroja luz sobre una evaluación justa de las capacidades de los LLM. Los datos y el código están disponibles en https://github.com/uclaml/Rephrase-and-Respond.

Misunderstandings arise not only in interpersonal communication but also between humans and Large Language Models (LLMs). Such discrepancies can make LLMs interpret seemingly unambiguous questions in unexpected ways, yielding incorrect responses. While it is widely acknowledged that the quality of a prompt, such as a question, significantly impacts the quality of the response provided by LLMs, a systematic method for crafting questions that LLMs can better comprehend is still underdeveloped. In this paper, we present a method named `Rephrase and Respond' (RaR), which allows LLMs to rephrase and expand questions posed by humans and provide responses in a single prompt. This approach serves as a simple yet effective prompting method for improving performance. We also introduce a two-step variant of RaR, where a rephrasing LLM first rephrases the question and then passes the original and rephrased questions together to a different responding LLM. This facilitates the effective utilization of rephrased questions generated by one LLM with another. Our experiments demonstrate that our methods significantly improve the performance of different models across a wide range to tasks. We further provide a comprehensive comparison between RaR and the popular Chain-of-Thought (CoT) methods, both theoretically and empirically. We show that RaR is complementary to CoT and can be combined with CoT to achieve even better performance. Our work not only contributes to enhancing LLM performance efficiently and effectively but also sheds light on a fair evaluation of LLM capabilities. Data and codes are available at https://github.com/uclaml/Rephrase-and-Respond.

Enlace al paper

https://arxiv.org/abs/2311.04205

Leer más

https://x.com/QuanquanGu/status/1722364144379396513

Recorriendo la carretera con GPT-4V(ision): primeras exploraciones de un modelo visual-lingüístico en conducción autónoma / On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving

Introducción al paper

Evalúa de forma exhaustiva el modelo visual-lingüístico de última generación GPT-4V(ision) y su aplicación a la conducción autónoma; el modelo demuestra un rendimiento superior en comprensión de escenas y razonamiento causal en comparación con los sistemas autónomos existentes.

Provides an exhaustive evaluation of the latest state-of-the-art visual language model, gpt-4v(ision), and its application in autonomous driving; the model demonstrates superior performance in scene understanding and causal reasoning compared to existing autonomous systems.

Resumen del paper

La materialización de la tecnología de conducción autónoma depende de la integración sofisticada de sistemas de percepción, toma de decisiones y control. Los enfoques tradicionales, tanto basados en datos como en reglas, han estado limitados por su incapacidad para captar los matices de entornos de conducción complejos y las intenciones de otros usuarios de la vía. Esto ha sido un cuello de botella importante, especialmente para desarrollar el razonamiento de sentido común y la comprensión sutil de escenas necesarios para una conducción autónoma segura y confiable. La llegada de los modelos de lenguaje visual (VLM) ha abierto una nueva frontera para hacer realidad la conducción totalmente autónoma. Este informe ofrece una evaluación exhaustiva del VLM de última generación más reciente y de su aplicación en escenarios de conducción autónoma. Explora la capacidad del modelo para comprender y razonar sobre escenas de conducción, tomar decisiones y, en última instancia, actuar como un conductor. Se realizaron pruebas integrales que abarcan desde el reconocimiento básico de escenas hasta el razonamiento causal complejo y la toma de decisiones en tiempo real bajo distintas condiciones. Los resultados muestran que 'nombre del modelo' presentó un rendimiento superior en comprensión de escenas y razonamiento causal en comparación con los sistemas de conducción autónoma existentes. Esto demuestra su potencial para manejar escenarios fuera de distribución, reconocer intenciones y tomar decisiones informadas en contextos reales de conducción. Sin embargo, todavía persisten desafíos, especialmente en la identificación de direcciones, el reconocimiento de semáforos, el grounding visual y las tareas de razonamiento espacial. Estas limitaciones subrayan la necesidad de más investigación y desarrollo. Este proyecto ya está disponible en GitHub para que cualquier persona pueda acceder a él y utilizarlo: URL{https://github.com/PJLab-ADG/GPT4V-AD-Exploration}

La búsqueda de la tecnología de conducción autónoma depende de la sofisticada integración de sistemas de percepción, toma de decisiones y control. Los enfoques tradicionales, tanto basados en datos como en reglas, se han visto obstaculizados por su incapacidad para captar los matices de entornos de conducción complejos y las intenciones de otros usuarios de la vía. Esto ha sido un cuello de botella importante, en particular para el desarrollo del razonamiento de sentido común y la comprensión matizada de escenas necesarios para una conducción autónoma segura y confiable. La aparición de los modelos de lenguaje visual (VLM) representa una nueva frontera para hacer realidad la conducción de vehículos totalmente autónoma. Este informe ofrece una evaluación exhaustiva del más reciente VLM de última generación, \modelnamefull, y de su aplicación en escenarios de conducción autónoma. Exploramos las capacidades del modelo para comprender y razonar sobre escenas de conducción, tomar decisiones y, en última instancia, actuar en calidad de conductor. Nuestras pruebas integrales abarcan desde el reconocimiento básico de escenas hasta el razonamiento causal complejo y la toma de decisiones en tiempo real bajo condiciones variables. Nuestros hallazgos revelan que \modelname muestra un rendimiento superior en comprensión de escenas y razonamiento causal en comparación con los sistemas autónomos existentes. Demuestra potencial para manejar escenarios fuera de distribución, reconocer intenciones y tomar decisiones informadas en contextos reales de conducción. Sin embargo, persisten desafíos, especialmente en la discriminación de direcciones, el reconocimiento de semáforos, el grounding visual y las tareas de razonamiento espacial. Estas limitaciones subrayan la necesidad de más investigación y desarrollo. El proyecto ya está disponible en GitHub para que las partes interesadas puedan acceder a él y utilizarlo: \url{https://github.com/PJLab-ADG/GPT4V-AD-Exploration}

Enlace al paper

https://arxiv.org/abs/2311.05332

Leer más

https://x.com/arankomatsuzaki/status/1722795897359139057

GPT4All: ecosistema open source de modelos de lenguaje comprimidos / GPT4All: An Ecosystem of Open Source Compressed Language Models

Introducción al paper

Describe brevemente los detalles técnicos de la familia de modelos GPT4All junto con el repositorio open source que busca democratizar el acceso a los LLM.

Describe los detalles técnicos de la familia de modelos gpt4all junto con el repositorio open source que busca democratizar el acceso a los llms.

Resumen del paper

Recientemente, los modelos de lenguaje grandes (LLM) han alcanzado un rendimiento a nivel humano en una variedad de benchmarks profesionales y académicos. La accesibilidad de estos modelos se ha quedado rezagada respecto a su desempeño. Los LLM de última generación requieren infraestructura costosa; solo son accesibles mediante interfaces web con límites de uso, restricciones geográficas y censura; y carecen de código y reportes técnicos disponibles públicamente. En este paper, contamos la historia de GPT4All, un popular repositorio open source que busca democratizar el acceso a los LLM. Describimos los detalles técnicos de la familia original de modelos GPT4All, así como la evolución del proyecto GPT4All desde un solo modelo hasta convertirse en un ecosistema open source plenamente desarrollado. Esperamos que este paper sirva tanto como una visión técnica general de los modelos GPT4All originales como un estudio de caso sobre el crecimiento posterior del ecosistema open source de GPT4All.

Los modelos de lenguaje grandes (LLM) han alcanzado recientemente un rendimiento a nivel humano en una variedad de benchmarks profesionales y académicos. La accesibilidad de estos modelos se ha quedado rezagada respecto a su rendimiento. Los LLM de última generación requieren infraestructura costosa; solo se puede acceder a ellos mediante interfaces web con límite de uso, bloqueo geográfico y censura; y carecen de código y reportes técnicos disponibles públicamente. En este paper, contamos la historia de GPT4All, un popular repositorio open source que busca democratizar el acceso a los LLM. Describimos los detalles técnicos de la familia original de modelos GPT4All, así como la evolución del proyecto GPT4All desde un solo modelo hasta convertirse en un ecosistema open source plenamente desarrollado. Esperamos que este paper funcione tanto como una visión técnica general de los modelos GPT4All originales como un estudio de caso sobre el crecimiento posterior del ecosistema open source de GPT4All.

Enlace al paper

https://arxiv.org/abs/2311.04931

Leer más

https://x.com/_akhaliq/status/1722833378590793915

S-LoRA: servicio para miles de adaptadores LoRA concurrentes / S-LoRA: Serving Thousands of Concurrent LoRA Adapters

Presentación del paper

Es un enfoque que permite el serving escalable de muchos adaptadores LoRA: almacena todos los adaptadores en la memoria principal, lleva a la memoria GPU los adaptadores de las consultas que se están ejecutando actualmente y utiliza una nueva estrategia de paralelismo de tensores y kernels CUDA personalizados altamente optimizados para el procesamiento por lotes heterogéneo del cómputo de LoRA; en comparación con otras soluciones, mejora el throughput 4 veces y aumenta en varios órdenes de magnitud la cantidad de adaptadores que se pueden servir.

An approach that enables the scalable serving of many lora adapters; it stores all adapters in main memory and fetches adapters of currently running queries to the gpu memory; employs novel tensor parallelism strategy and highly optimized custom cuda kernels for heterogenous batching of lora computation; improves throughput by 4x, when compared to other solutions, and increases the number of served adapters by several orders of magnitude.

Resumen del paper

En el despliegue de modelos de lenguaje de gran escala se adopta comúnmente el paradigma de “preentrenar y luego ajustar finamente”. La adaptación de bajo rango (LoRA), un método de fine-tuning eficiente en parámetros, se usa con frecuencia para adaptar un modelo base a múltiples tareas, lo que da como resultado una gran colección de adaptadores LoRA derivados de un solo modelo base. Observamos que este paradigma presenta oportunidades significativas para la inferencia por lotes durante el serving. Para aprovechar estas oportunidades, presentamos S-LoRA, un sistema diseñado para el serving escalable de muchos adaptadores LoRA. S-LoRA almacena todos los adaptadores en la memoria principal y lleva a la memoria GPU los adaptadores utilizados por las consultas que se están ejecutando en ese momento. Para usar de manera eficiente la memoria GPU y reducir la fragmentación, S-LoRA propone Unified Paging. Unified Paging utiliza un pool de memoria unificado para gestionar pesos dinámicos de adaptadores con distintos rangos y tensores de caché KV con longitudes de secuencia variables. Además, S-LoRA emplea una nueva estrategia de paralelismo de tensores y kernels CUDA personalizados altamente optimizados para admitir el procesamiento por lotes heterogéneo del cómputo de LoRA. En conjunto, estas características permiten que S-LoRA sirva miles de adaptadores LoRA en una sola GPU o en varias GPU con una pequeña sobrecarga. En comparación con bibliotecas de última generación como HuggingFace PEFT y vLLM (con soporte básico para serving de LoRA), S-LoRA puede mejorar el throughput hasta 4 veces y aumentar en varios órdenes de magnitud la cantidad de adaptadores servidos. Como resultado, S-LoRA hace posible el serving escalable de muchos modelos afinados para tareas específicas y ofrece el potencial para servicios de fine-tuning personalizados a gran escala. El código está disponible en https://github.com/S-LoRA/S-LoRA

The "pretrain-then-finetune" paradigm is commonly adopted in the deployment of large language models. Low-Rank Adaptation (LoRA), a parameter-efficient fine-tuning method, is often employed to adapt a base model to a multitude of tasks, resulting in a substantial collection of LoRA adapters derived from one base model. We observe that this paradigm presents significant opportunities for batched inference during serving. To capitalize on these opportunities, we present S-LoRA, a system designed for the scalable serving of many LoRA adapters. S-LoRA stores all adapters in the main memory and fetches the adapters used by the currently running queries to the GPU memory. To efficiently use the GPU memory and reduce fragmentation, S-LoRA proposes Unified Paging. Unified Paging uses a unified memory pool to manage dynamic adapter weights with different ranks and KV cache tensors with varying sequence lengths. Additionally, S-LoRA employs a novel tensor parallelism strategy and highly optimized custom CUDA kernels for heterogeneous batching of LoRA computation. Collectively, these features enable S-LoRA to serve thousands of LoRA adapters on a single GPU or across multiple GPUs with a small overhead. Compared to state-of-the-art libraries such as HuggingFace PEFT and vLLM (with naive support of LoRA serving), S-LoRA can improve the throughput by up to 4 times and increase the number of served adapters by several orders of magnitude. As a result, S-LoRA enables scalable serving of many task-specific fine-tuned models and offers the potential for large-scale customized fine-tuning services. The code is available at https://github.com/S-LoRA/S-LoRA

Enlace del paper

https://arxiv.org/abs/2311.03285v2

Leer más

https://x.com/ai_database/status/1722190708797592013

FreshLLM: actualización de grandes modelos de lenguaje mediante aumento con motores de búsqueda / FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation

Presentación del paper

Propone FreshQA, un benchmark dinámico de QA para probar la factualidad del texto generado por LLM; propone FreshPrompt, un método simple de prompting few-shot que mejora sustancialmente el desempeño de un LLM en FreshQA al incorporar en el prompt información relevante y actualizada recuperada de un motor de búsqueda; y encuentra que indicar al LLM que genere respuestas concisas y directas ayuda a reducir las alucinaciones en comparación con fomentar respuestas más extensas.

Proposes a dynamic qa benchmark (freshqa) to test the factuality of llm-generated text; proposes freshprompt, a simple few-shot prompting method that substantially boosts the performance of an llm on freshqa by incorporating relevant and up-to-date information retrieved from a search engine into the prompt; finds that instructing the llm to generate concise and direct answers helps reduce hallucination compared to encouraging more verbose answers.

Resumen del paper

La mayoría de los modelos de lenguaje grandes (LLM) se entrenan una sola vez y no se actualizan, por lo que carecen de la capacidad de adaptarse dinámicamente a un mundo en constante cambio. Este estudio realiza un análisis detallado sobre la factualidad del texto generado por LLM en el contexto de responder preguntas que ponen a prueba el conocimiento actual del mundo. En particular, presenta FreshQA, un nuevo benchmark dinámico de QA que abarca una amplia variedad de tipos de preguntas y respuestas, incluidas preguntas que requieren conocimiento del mundo que cambia rápidamente, así como preguntas con premisas falsas que deben ser refutadas. Se evalúa una amplia gama de LLM tanto cerrados como de código abierto bajo un procedimiento de evaluación de dos modos que permite medir tanto la precisión como las alucinaciones. A través de evaluaciones humanas que incluyen más de 50 mil juicios, se ponen en evidencia las limitaciones de estos modelos y se demuestra que existe un amplio margen de mejora. Por ejemplo, se encontró que todos los modelos, independientemente de su escala, tienen dificultades con preguntas que involucran conocimiento que cambia rápidamente y premisas falsas. A partir de estos resultados, se presenta FreshPrompt, un método simple de prompting few-shot que mejora sustancialmente el rendimiento de un LLM en FreshQA al integrar en el prompt información relevante y actualizada recuperada desde un motor de búsqueda. Los experimentos muestran que FreshPrompt supera tanto a métodos competidores de prompting aumentado con motores de búsqueda, como Self-Ask (Press et al., 2022), como a sistemas comerciales como Perplexity.AI. Un análisis adicional de FreshPrompt revela que tanto la cantidad de evidencias recuperadas como su orden desempeñan un papel clave a la hora de influir en la corrección de las respuestas generadas por el LLM. Además, se observó que indicar al LLM que genere respuestas concisas y directas ayuda a reducir las alucinaciones en comparación con inducir respuestas más verbosas. Para facilitar trabajos futuros, se libera FreshQA en github.com/freshllms/freshqa y se comprometen a actualizarlo periódicamente.

Most large language models (LLMs) are trained once and never updated; thus, they lack the ability to dynamically adapt to our ever-changing world. In this work, we perform a detailed study of the factuality of LLM-generated text in the context of answering questions that test current world knowledge. Specifically, we introduce FreshQA, a novel dynamic QA benchmark encompassing a diverse range of question and answer types, including questions that require fast-changing world knowledge as well as questions with false premises that need to be debunked. We benchmark a diverse array of both closed and open-source LLMs under a two-mode evaluation procedure that allows us to measure both correctness and hallucination. Through human evaluations involving more than 50K judgments, we shed light on limitations of these models and demonstrate significant room for improvement: for instance, all models (regardless of model size) struggle on questions that involve fast-changing knowledge and false premises. Motivated by these results, we present FreshPrompt, a simple few-shot prompting method that substantially boosts the performance of an LLM on FreshQA by incorporating relevant and up-to-date information retrieved from a search engine into the prompt. Our experiments show that FreshPrompt outperforms both competing search engine-augmented prompting methods such as Self-Ask (Press et al., 2022) as well as commercial systems such as Perplexity.AI. Further analysis of FreshPrompt reveals that both the number of retrieved evidences and their order play a key role in influencing the correctness of LLM-generated answers. Additionally, instructing the LLM to generate concise and direct answers helps reduce hallucination compared to encouraging more verbose answers. To facilitate future work, we release FreshQA at github.com/freshllms/freshqa and commit to updating it at regular intervals.

[2023/11/06 ~ 11/12] Los principales papers de ML de esta semana (Top ML Papers of the Week)

Resumen

Encuesta sobre las alucinaciones en grandes modelos de lenguaje: principios, taxonomía, desafíos y preguntas abiertas / A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions

Introducción del paper

Resumen del paper

Enlace del paper

Leer más

Simplificación de bloques Transformer / Simplifying Transformer Blocks

Introducción del paper

Resumen del paper

Enlace al paper

Leer más

Las mezclas de datos de preentrenamiento permiten capacidades más acotadas de selección de modelos en modelos Transformer / Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in Transformer Models

Presentación del paper

Resumen del paper

Enlace al paper

Leer más

Generación musical simple y controlable / Simple and Controllable Music Generation

Introducción al paper

Resumen del paper

Enlace al paper

Leer más

Actualizaciones alternadas para transformadores eficientes / Alternating Updates for Efficient Transformers

Introducción al paper

Resumen del paper

Enlace al paper

Leer más

Reformular y responder: dejar que los modelos de lenguaje grandes se hagan mejores preguntas a sí mismos / Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves

Presentación del paper

Resumen del paper

Enlace al paper

Leer más

Recorriendo la carretera con GPT-4V(ision): primeras exploraciones de un modelo visual-lingüístico en conducción autónoma / On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving

Introducción al paper

Resumen del paper

Enlace al paper

Leer más

GPT4All: ecosistema open source de modelos de lenguaje comprimidos / GPT4All: An Ecosystem of Open Source Compressed Language Models

Introducción al paper

Resumen del paper

Enlace al paper

Leer más

S-LoRA: servicio para miles de adaptadores LoRA concurrentes / S-LoRA: Serving Thousands of Concurrent LoRA Adapters

Presentación del paper

Resumen del paper

Enlace del paper

Leer más

FreshLLM: actualización de grandes modelos de lenguaje mediante aumento con motores de búsqueda / FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation

Presentación del paper

Resumen del paper

Enlace al paper

Leer más

Texto original

Lecturas relacionadas

Aún no hay comentarios.