[2023/10/02 ~ 10/08] Principales artículos de ML de esta semana (Top ML Papers of the Week)
(discuss.pytorch.kr)Resumen
-
Se hizo una traducción automática de los artículos sobre papers de ML que DAIR.AI publica cada semana.
-
Al revisar los papers presentados esta semana, hubo muchos estudios sobre modelos de lenguaje (Language Models, LLM) que manejan contexto de largo plazo (Long Context). En particular, papers como 'LLMs Represent Space and Time', 'Retrieval meets Long Context LLMs', 'StreamingLLM', 'The Dawn of LLMs' y 'Training LLMs with Pause Tokens' iluminan distintos aspectos de los LLM.
-
Esta tendencia es un ejemplo claro de que la importancia de los modelos de lenguaje en machine learning y deep learning sigue creciendo. Los LLM son una tecnología que aprende grandes volúmenes de datos lingüísticos y permite mejorar el rendimiento general en diversas tareas de comprensión del lenguaje, como generación de texto, traducción automática y corrección ortográfica. Sin embargo, todavía existen muchas dificultades para procesar contexto de largo plazo. Parece que se están proponiendo distintos enfoques para resolver este problema.
-
Además, papers como 'Neural Developmental Programs', 'Recursively Self-Improving Code Generation' y 'Retrieval-Augmented Dual Instruction Tuning' exploran temas como el autoaprendizaje de la IA, la generación de código y el instruction tuning. Esto muestra que están surgiendo metodologías cada vez más nuevas en IA, y se espera que estas investigaciones desempeñen un papel muy importante para mejorar la capacidad de autoaprendizaje y adaptación de esta tecnología.
-
Por lo tanto, puede decirse que la tendencia de los papers de esta semana muestra nuevas direcciones de investigación en el procesamiento de contexto largo de los modelos de lenguaje, así como en el autoaprendizaje y la generación de código en IA.
Modelos de lenguaje que representan espacio y tiempo / Language Models Represent Space and Time
Introducción del paper
- Se descubrió que los modelos de lenguaje aprenden representaciones lineales de espacio y tiempo a múltiples escalas, que estas representaciones son sólidas ante variaciones de transformación y están unificadas entre distintos tipos de entidades, y se demuestra que adquieren conocimiento estructurado fundamental como espacio y tiempo, argumentando que los modelos de lenguaje aprenden no estadísticas superficiales sino modelos literales del mundo. #llm #llama2
> Discovers that llms learn linear representations of space and time across multiple scales; the representations are robust to prompt variations and unified across different entity types; demonstrate that llms acquire fundamental structured knowledge such as space and time, claiming that language models learn beyond superficial statistics, but literal world models.
Resumen del paper
- Las capacidades de los modelos de lenguaje de gran escala (LLM) han abierto el debate sobre si estos sistemas solo aprenden una enorme colección de estadísticas superficiales o un modelo coherente del proceso generador de datos, es decir, un modelo del mundo. Encontramos evidencia a favor de lo segundo al analizar las representaciones aprendidas en la familia de modelos Llama-2 para tres conjuntos de datos espaciales (mundo, EE. UU. y lugares de Nueva York) y tres conjuntos de datos temporales (figuras históricas, obras de arte y titulares de noticias). Como resultado, descubrimos que los LLM aprenden representaciones lineales de espacio y tiempo a múltiples escalas. Estas representaciones son robustas ante variaciones en los prompts y están unificadas entre distintos tipos de entidades (por ejemplo, ciudades y monumentos). Además, identificamos "neuronas de espacio" y "neuronas de tiempo" individuales que codifican de forma confiable coordenadas espaciales y temporales. Nuestro análisis respalda la visión de que los LLM modernos adquieren conocimiento estructurado sobre dimensiones fundamentales como el espacio y el tiempo, y que no aprenden simplemente estadísticas superficiales, sino modelos literales del mundo.
> The capabilities of large language models (LLMs) have sparked debate over whether such systems just learn an enormous collection of superficial statistics or a coherent model of the data generating process -- a world model. We find evidence for the latter by analyzing the learned representations of three spatial datasets (world, US, NYC places) and three temporal datasets (historical figures, artworks, news headlines) in the Llama-2 family of models. We discover that LLMs learn linear representations of space and time across multiple scales. These representations are robust to prompting variations and unified across different entity types (e.g. cities and landmarks). In addition, we identify individualspace neurons'' andtime neurons'' that reliably encode spatial and temporal coordinates. Our analysis demonstrates that modern LLMs acquire structured knowledge about fundamental dimensions such as space and time, supporting the view that they learn not merely superficial statistics, but literal world models.
Enlace al paper
https://arxiv.org/abs/2310.02207
Leer más
https://x.com/wesg52/status/1709551516577902782
Encuentro entre recuperación y modelos de lenguaje de gran escala con contexto largo / Retrieval meets Long Context Large Language Models
Introducción del paper
- Compara la recuperación aumentada y las ventanas de contexto largas en tareas downstream para investigar si ambos métodos pueden combinarse y así obtener lo mejor de los dos mundos. Un llm con una ventana de contexto de 4K usando RAG simple puede lograr un rendimiento comparable al de un llm ajustado finamente con 16K de contexto; la recuperación puede mejorar significativamente el rendimiento de los llm sin importar el tamaño ampliado de sus ventanas de contexto; y un llama2-70b con recuperación aumentada y una ventana de contexto de 32K supera a gpt-3.5-turbo-16k en siete tareas de contexto largo, incluyendo respuesta a preguntas y resumen basado en consultas. #llama #llama2-7b-32k-context #llama2-long #100k-context-window #streamingllm
> Compares retrieval augmentation and long-context windows for downstream tasks to investigate if the methods can be combined to get the best of both worlds; an llm with a 4k context window using simple rag can achieve comparable performance to a fine-tuned llm with 16k context; retrieval can significantly improve the performance of llms regardless of their extended context window sizes; a retrieval-augmented llama2-70b with a 32k context window outperforms gpt-3.5-turbo-16k on seven long context tasks including question answering and query-based summarization.
Resumen del paper
- Aunque recientemente se ha vuelto popular ampliar la ventana de contexto de los modelos de lenguaje grandes (LLM), las soluciones para reforzar los LLM con recuperación existen desde hace años. Las preguntas naturales son: i) entre la ampliación por recuperación y una ventana de contexto larga, ¿cuál es mejor para las tareas downstream? ii) ¿Se pueden combinar ambos métodos para obtener lo mejor de los dos mundos? Este estudio responde a estas preguntas analizando ambas soluciones con dos LLM preentrenados de última generación: un GPT propietario de 43B y LLaMA2-70B. Sorprendentemente, se descubrió que un LLM con una ventana de contexto de 4K que usa una ampliación por recuperación simple durante la generación puede lograr un rendimiento comparable al de un LLM ajustado finamente con una ventana de contexto de 16K mediante interpolación posicional en tareas de contexto largo, y con mucho menos cómputo. Más importante aún, se demostró que la recuperación puede mejorar de forma significativa el rendimiento de los LLM sin importar el tamaño de su ventana de contexto extendida. LLaMA2-70B reforzado con recuperación y una ventana de contexto de 32K supera a GPT-3.5-turbo-16k y Davinci003 en puntaje promedio en siete tareas de contexto largo, incluidas respuesta a preguntas y resumen basado en consultas. También supera por un margen amplio a la línea base sin recuperación LLaMA2-70B-32k, y además genera mucho más rápido. Este estudio ofrece ideas generales para ayudar a los profesionales a decidir entre la ampliación por recuperación y la extensión de contexto largo en los LLM.
> Extending the context window of large language models (LLMs) is getting popular recently, while the solution of augmenting LLMs with retrieval has existed for years. The natural questions are: i) Retrieval-augmentation versus long context window, which one is better for downstream tasks? ii) Can both methods be combined to get the best of both worlds? In this work, we answer these questions by studying both solutions using two state-of-the-art pretrained LLMs, i.e., a proprietary 43B GPT and LLaMA2-70B. Perhaps surprisingly, we find that LLM with 4K context window using simple retrieval-augmentation at generation can achieve comparable performance to finetuned LLM with 16K context window via positional interpolation on long context tasks, while taking much less computation. More importantly, we demonstrate that retrieval can significantly improve the performance of LLMs regardless of their extended context window sizes. Our best model, retrieval-augmented LLaMA2-70B with 32K context window, outperforms GPT-3.5-turbo-16k and Davinci003 in terms of average score on seven long context tasks including question answering and query-based summarization. It also outperforms its non-retrieval LLaMA2-70B-32k baseline by a margin, while being much faster at generation. Our study provides general insights on the choice of retrieval-augmentation versus long context extension of LLM for practitioners.
Enlace del artículo
https://arxiv.org/abs/2310.03025
Leer más
https://x.com/omarsar0/status/1709749178199318545
Modelos de lenguaje de streaming eficientes con attention sinks / Efficient Streaming Language Models with Attention Sinks
Introducción al artículo
- Un marco que permite LLM de streaming eficientes con attention sinks, un fenómeno en el que los estados KV de los tokens iniciales recuperan en gran medida el rendimiento de la atención por ventana; la aparición de los attention sinks se debe a puntajes de atención fuertes hacia los tokens iniciales; este enfoque permite que los LLM entrenados con ventanas de atención de longitud finita se generalicen a longitudes de secuencia infinitas sin ajuste fino adicional. #streamingllm
> A framework that enables efficient streaming llms with attention sinks, a phenomenon where the kv states of initial tokens will largely recover the performance of window attention; the emergence of the attention sink is due to strong attention scores towards the initial tokens; this approach enables llms trained with finite length attention windows to generalize to infinite sequence length without any additional fine-tuning.
Resumen del artículo
- Implementar modelos de lenguaje grandes (LLM) en aplicaciones de streaming, como diálogos de múltiples rondas donde se esperan interacciones largas, es una necesidad urgente, pero plantea dos desafíos principales. Primero, durante la etapa de decodificación, almacenar en caché los estados Key y Value (KV) de los tokens anteriores consume mucha memoria. Segundo, los LLM de uso común no pueden generalizar a textos más largos que la longitud de secuencia de entrenamiento. La atención por ventana, donde solo se almacenan en caché los KV más recientes, es un enfoque natural, pero se ha demostrado que falla cuando la longitud del texto supera el tamaño de la caché. Se ha observado un fenómeno interesante, llamado attention sink, en el que conservar el KV de los tokens iniciales recupera en gran medida el rendimiento de la atención por ventana. En este artículo, primero se demuestra que la aparición del attention sink se debe a las altas puntuaciones de atención hacia los tokens iniciales como un "sumidero", incluso cuando no son semánticamente importantes. Con base en este análisis, se presenta StreamingLLM, un framework eficiente que permite que los LLM entrenados con una ventana de atención de longitud finita generalicen a longitudes de secuencia infinitas sin ningún ajuste fino. Se muestra que StreamingLLM permite a Llama-2, MPT, Falcon y Pythia realizar modelado de lenguaje estable y eficiente con hasta 4 millones de tokens o más. Además, se descubrió que agregar un token placeholder como attention sink dedicado durante el preentrenamiento puede mejorar aún más la implementación en streaming. En entornos de streaming, StreamingLLM supera a la línea base de recomputación con ventana deslizante con una aceleración de hasta 22.2x. El código y los datasets están disponibles en https://github.com/mit-han-lab/streaming-llm.
> Deploying Large Language Models (LLMs) in streaming applications such as multi-round dialogue, where long interactions are expected, is urgently needed but poses two major challenges. Firstly, during the decoding stage, caching previous tokens' Key and Value states (KV) consumes extensive memory. Secondly, popular LLMs cannot generalize to longer texts than the training sequence length. Window attention, where only the most recent KVs are cached, is a natural approach -- but we show that it fails when the text length surpasses the cache size. We observe an interesting phenomenon, namely attention sink, that keeping the KV of initial tokens will largely recover the performance of window attention. In this paper, we first demonstrate that the emergence of attention sink is due to the strong attention scores towards initial tokens as a ``sink'' even if they are not semantically important. Based on the above analysis, we introduce StreamingLLM, an efficient framework that enables LLMs trained with a finite length attention window to generalize to infinite sequence lengths without any fine-tuning. We show that StreamingLLM can enable Llama-2, MPT, Falcon, and Pythia to perform stable and efficient language modeling with up to 4 million tokens and more. In addition, we discover that adding a placeholder token as a dedicated attention sink during pre-training can further improve streaming deployment. In streaming settings, StreamingLLM outperforms the sliding window recomputation baseline by up to 22.2x speedup. Code and datasets are provided at https://github.com/mit-han-lab/streaming-llm.
Enlace al artículo
https://arxiv.org/abs/2309.17453
Leer más
https://x.com/Guangxuan_Xiao/status/1708943505731801325
https://discuss.pytorch.kr/t/…
Hacia redes neuronales artificiales autoensamblables mediante programas de desarrollo neuronal / Towards Self-Assembling Artificial Neural Networks through Neural Developmental Programs
Introducción al artículo
- Se propone usar redes neuronales que se autoensamblan mediante un proceso de desarrollo que refleja propiedades del desarrollo embrionario en organismos biológicos (denominado programas de desarrollo neuronal), y se muestra la viabilidad de este enfoque en problemas de control continuo y topologías en crecimiento.
> Proposes to use neural networks that self-assemble through a developmental process that mirrors properties of embryonic development in biological organisms (referred to as neural developmental programs); shows the feasibility of the approach in continuous control problems and growing topologies.
Resumen del artículo
- Los sistemas nerviosos biológicos se crean de una manera fundamentalmente distinta a las redes neuronales artificiales actuales. Aunque el deep learning ha mostrado resultados impresionantes en una gran variedad de áreas, a menudo requiere un esfuerzo de ingeniería considerable para diseñar arquitecturas neuronales de alto rendimiento. En contraste, los sistemas nerviosos biológicos crecen mediante un proceso dinámico de autoorganización. En este artículo, se dan pasos iniciales hacia redes neuronales que crecen a través de un proceso de desarrollo que refleja propiedades clave del desarrollo embrionario en organismos biológicos. El proceso de crecimiento está guiado por otra red neuronal, a la que llaman Neural Developmental Program (NDP), y que opera únicamente mediante comunicación local. Se investiga el papel del crecimiento neuronal en distintos benchmarks de machine learning y diferentes métodos de optimización (entrenamiento evolutivo, RL online, RL offline y aprendizaje supervisado). Además, también se destacan futuras direcciones de investigación y oportunidades que surgen al hacer que la autoorganización impulse el crecimiento de las redes neuronales.
> Biological nervous systems are created in a fundamentally different way than current artificial neural networks. Despite its impressive results in a variety of different domains, deep learning often requires considerable engineering effort to design high-performing neural architectures. By contrast, biological nervous systems are grown through a dynamic self-organizing process. In this paper, we take initial steps toward neural networks that grow through a developmental process that mirrors key properties of embryonic development in biological organisms. The growth process is guided by another neural network, which we call a Neural Developmental Program (NDP) and which operates through local communication alone. We investigate the role of neural growth on different machine learning benchmarks and different optimization methods (evolutionary training, online RL, offline RL, and supervised learning). Additionally, we highlight future research directions and opportunities enabled by having self-organization driving the growth of neural networks.
Enlace al artículo
https://arxiv.org/abs/2307.08197
Leer más
https://x.com/risi1979/status/1708888992224362742
El amanecer de los LMM: exploraciones preliminares con GPT-4V(ision) / The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)
Introducción del artículo
- Para profundizar la comprensión de los modelos multimodales grandes (LMM), se analiza de forma integral gpt-4v, con enfoque en sondear gpt-4v en diversos escenarios de aplicación, y se ofrecen distintos ejemplos que van desde capacidades de código con visión hasta LMM con retrieval augmentation. #multimodal #gpt-4v
> A comprehensive analysis of gpt-4v to deepen the understanding of large multimodal models (lmms); it focuses on probing gpt-4v across various application scenarios; provides examples ranging from code capabilities with vision to retrieval-augmented lmms.
Resumen del artículo
- Los modelos multimodales grandes (LMM) amplían los modelos de lenguaje grandes (LLM) con capacidades multisensoriales, como la comprensión visual, para lograr una inteligencia general más sólida. En este artículo, se analiza el modelo más reciente, GPT-4V(ision), para profundizar la comprensión de los LMM. El análisis se centra en las tareas interesantes que GPT-4V puede realizar, e incluye muestras de prueba para evaluar la calidad y la generalidad de las capacidades de GPT-4V, sus entradas y modos de trabajo compatibles, y las formas efectivas de hacer prompting al modelo. En el enfoque para explorar GPT-4V, se selecciona y organiza una colección de muestras cualitativas cuidadosamente diseñadas que abarcan una variedad de dominios y tareas. Las observaciones obtenidas a partir de estas muestras demuestran que la capacidad sin precedentes de GPT-4V para procesar entradas multimodales intercaladas arbitrariamente, junto con la generalidad de sus capacidades, hacen de GPT-4V un poderoso sistema multimodal generalista. Además, la capacidad única de GPT-4V para comprender marcadores visuales dibujados sobre las imágenes de entrada puede dar lugar a nuevos métodos de interacción humano-computadora, como el prompting por referencia visual. Este informe concluye con discusiones en profundidad sobre los escenarios emergentes de aplicación y las futuras direcciones de investigación para sistemas basados en GPT-4V. Se espera que esta exploración preliminar inspire futuras investigaciones sobre la formulación de tareas multimodales de próxima generación, nuevas formas de aprovechar y mejorar los LMM para resolver problemas del mundo real, y una mejor comprensión de los modelos fundacionales multimodales.
> Large multimodal models (LMMs) extend large language models (LLMs) with multi-sensory skills, such as visual understanding, to achieve stronger generic intelligence. In this paper, we analyze the latest model, GPT-4V(ision), to deepen the understanding of LMMs. The analysis focuses on the intriguing tasks that GPT-4V can perform, containing test samples to probe the quality and genericity of GPT-4V's capabilities, its supported inputs and working modes, and the effective ways to prompt the model. In our approach to exploring GPT-4V, we curate and organize a collection of carefully designed qualitative samples spanning a variety of domains and tasks. Observations from these samples demonstrate that GPT-4V's unprecedented ability in processing arbitrarily interleaved multimodal inputs and the genericity of its capabilities together make GPT-4V a powerful multimodal generalist system. Furthermore, GPT-4V's unique capability of understanding visual markers drawn on input images can give rise to new human-computer interaction methods such as visual referring prompting. We conclude the report with in-depth discussions on the emerging application scenarios and the future research directions for GPT-4V-based systems. We hope that this preliminary exploration will inspire future research on the next-generation multimodal task formulation, new ways to exploit and enhance LMMs to solve real-world problems, and gaining better understanding of multimodal foundation models.
Enlace al artículo
https://arxiv.org/abs/2309.17421
Leer más
https://x.com/omarsar0/status/1708860551110041871
https://discuss.pytorch.kr/t/gn-chatgpt/2543
Piensa antes de hablar: entrenando modelos de lenguaje con tokens de pausa / Think before you speak: Training Language Models With Pause Tokens
Introducción al artículo
- Usa un token
<pause>entrenable para realizar entrenamiento e inferencia en LLMs, lo que ayuda a retrasar la generación de respuestas del modelo y a lograr mejoras de rendimiento en tareas generales de comprensión, como preguntas y respuestas de sentido común y resolución de problemas matemáticos en lenguaje natural. Los experimentos muestran que esto solo es beneficioso cuando el retraso se introduce tanto en el preentrenamiento relacionado como en el ajuste fino downstream. #pause-for-thought
> Performs training and inference on llms with a learnable <pause> token which helps to delay the model's answer generation and attain performance gains on general understanding tasks of commonsense qa and math word problem-solving; experiments show that this is only beneficial provided that the delay is introduced in both pertaining and downstream fine-tuning.
Resumen del artículo
- Los modelos de lenguaje generan respuestas produciendo una serie de tokens en sucesión inmediata: el token $(K+1)^{th}$ es el resultado de manipular $K$ vectores ocultos por capa, un vector por cada token previo. ¿Qué pasaría si, en cambio, dejáramos que el modelo manipule, digamos, $K+10$ vectores ocultos antes de emitir el token $(K+1)^{th}$? Llevamos esta idea a la práctica realizando entrenamiento e inferencia en modelos de lenguaje con un token $\textit{pause}$ (entrenable), cuya secuencia se agrega al prefijo de entrada. Luego retrasamos la extracción de las salidas del modelo hasta que aparece el último token de pausa, permitiendo así que el modelo procese cómputo adicional antes de comprometerse con una respuesta. Evaluamos empíricamente $\textit{pause-training}$ en modelos decoder-only de 1B y 130M parámetros con preentrenamiento causal en C4, y en tareas downstream que cubren razonamiento, question-answering, comprensión general y recuperación de hechos. Nuestro hallazgo principal es que los retrasos en tiempo de inferencia muestran mejoras cuando el modelo es tanto preentrenado como ajustado con retrasos. Para el modelo de 1B, observamos mejoras en 8 de 9 tareas; de forma más destacada, una mejora de $18%$ en la puntuación EM en la tarea de QA de SQuAD, $8%$ en CommonSenseQA y $1%$ de accuracy en la tarea de razonamiento de GSM8k. Nuestro trabajo plantea una variedad de preguntas futuras, tanto conceptuales como prácticas, sobre cómo convertir la predicción retrasada del siguiente token en un nuevo paradigma ampliamente aplicable.
> Language models generate responses by producing a series of tokens in immediate succession: the $(K+1)^{th}$ token is an outcome of manipulating $K$ hidden vectors per layer, one vector per preceding token. What if instead we were to let the model manipulate say, $K+10$ hidden vectors, before it outputs the $(K+1)^{th}$ token? We operationalize this idea by performing training and inference on language models with a (learnable) $\textit{pause}$ token, a sequence of which is appended to the input prefix. We then delay extracting the model's outputs until the last pause token is seen, thereby allowing the model to process extra computation before committing to an answer. We empirically evaluate $\textit{pause-training}$ on decoder-only models of 1B and 130M parameters with causal pretraining on C4, and on downstream tasks covering reasoning, question-answering, general understanding and fact recall. Our main finding is that inference-time delays show gains when the model is both pre-trained and finetuned with delays. For the 1B model, we witness gains on 8 of 9 tasks, most prominently, a gain of $18%$ EM score on the QA task of SQuAD, $8%$ on CommonSenseQA and $1%$ accuracy on the reasoning task of GSM8k. Our work raises a range of conceptual and practical future research questions on making delayed next-token prediction a widely applicable new paradigm.
Enlace al artículo
https://arxiv.org/abs/2310.02226
Leer más
https://x.com/omarsar0/status/1709573238123122959
Self-Taught Optimizer (STOP): generación de código que se mejora recursivamente a sí misma / Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation
Introducción al artículo
- Propone el uso de un programa de andamiaje potenciado con un modelo de lenguaje para mejorarse recursivamente a sí mismo; un mejorador inicial primero mejora un programa de entrada que devuelve la mejor solución y luego recibe tareas adicionales para mejorarse a sí mismo; muestra que los modelos GPT-4 pueden escribir código que puede llamarse a sí mismo para mejorarse. #self-training-survey-paper
> Proposes the use of a language model-infused scaffolding program to recursively improve itself; a seed improver first improves an input program that returns the best solution which is then further tasked to improve itself; shows that the gpt-4 models can write code that can call itself to improve itself.
Resumen del artículo
- Algunos avances recientes en sistemas de IA (por ejemplo, Tree-of-Thoughts y Program-Aided Language Models) resuelven problemas al proporcionar un programa de "andamiaje" que estructura múltiples llamadas a modelos de lenguaje para generar mejores resultados. Un programa de andamiaje se escribe en un lenguaje de programación como Python. En este trabajo, usan un programa de andamiaje impulsado por un modelo de lenguaje para mejorarse a sí mismo. Comienzan con un "mejorador" inicial que mejora un programa de entrada según una función de utilidad dada, consultando varias veces a un modelo de lenguaje y devolviendo la mejor solución. Luego ejecutan este mejorador inicial para mejorarse a sí mismo. En un pequeño conjunto de tareas downstream, el mejorador mejorado resultante genera programas con un rendimiento significativamente mejor que el del mejorador inicial. Después, analizan la variedad de estrategias de auto-mejora propuestas por el modelo de lenguaje, incluidas beam search, algoritmos genéticos y simulated annealing. Como los propios modelos de lenguaje no se modifican, esto no es una auto-mejora recursiva completa. Aun así, demuestra que un modelo de lenguaje moderno, GPT-4 en sus experimentos de prueba de concepto, es capaz de escribir código que puede llamarse a sí mismo para mejorarse. También consideran críticamente las preocupaciones en torno al desarrollo de tecnologías de auto-mejora y evalúan la frecuencia con la que el código generado evade un sandbox.
> Several recent advances in AI systems (e.g., Tree-of-Thoughts and Program-Aided Language Models) solve problems by providing a "scaffolding" program that structures multiple calls to language models to generate better outputs. A scaffolding program is written in a programming language such as Python. In this work, we use a language-model-infused scaffolding program to improve itself. We start with a seed "improver" that improves an input program according to a given utility function by querying a language model several times and returning the best solution. We then run this seed improver to improve itself. Across a small set of downstream tasks, the resulting improved improver generates programs with significantly better performance than its seed improver. Afterward, we analyze the variety of self-improvement strategies proposed by the language model, including beam search, genetic algorithms, and simulated annealing. Since the language models themselves are not altered, this is not full recursive self-improvement. Nonetheless, it demonstrates that a modern language model, GPT-4 in our proof-of-concept experiments, is capable of writing code that can call itself to improve itself. We critically consider concerns around the development of self-improving technologies and evaluate the frequency with which the generated code bypasses a sandbox.
Enlace al artículo
https://arxiv.org/abs/2310.02304
Leer más
https://x.com/ericzelikman/status/1709721771937587541
RA-DIT: ajuste dual de instrucciones con aumento por recuperación / RA-DIT: Retrieval-Augmented Dual Instruction Tuning
Introducción del artículo
- Propone un método ligero de ajuste fino para dotar a redes neuronales artificiales con capacidades de búsqueda. Incluye un enfoque de dos etapas: 1) actualizar una red neuronal artificial preentrenada para aprovechar mejor la información recuperada y 2) actualizar el recuperador para que devuelva resultados más relevantes. Los resultados muestran que, en tareas que requieren tanto uso de conocimiento como conciencia contextual, el ajuste fino aporta ganancias adicionales en cada etapa. El modelo de 65b logra resultados de vanguardia en varios benchmarks intensivos en conocimiento de aprendizaje zero-shot y few-shot, y supera a los enfoques existentes de lenguaje aumentado por recuperación por hasta +8 %; 9% en zero-shot y +1.4% en 5-shot. #rag #instruct-tuning
> Proposes a lightweight fine-tuning method to retrofit llms with retrieval capabilities; it involves a 2-step approach: 1) updates a pretrained lm to better use the retrieved information 2) updates the retriever to return more relevant results, as preferred by the lm results show that fine-tuning over tasks that require both knowledge utilization and contextual awareness, each stage leads to additional gains; a 65b model achieves state-of-the-art results on a range of knowledge-intensive zero- and few-shot learning benchmarks; it outperforms existing retrieval-augmented language approaches by up to +8.9% in zero-shot and +1.4% in 5-shot.
Resumen del artículo
- Los modelos de lenguaje aumentados con recuperación (RALM) mejoran el rendimiento al acceder a conocimiento de cola larga y actualizado desde almacenes de datos externos, pero son difíciles de construir. Los enfoques existentes requieren modificaciones específicas de recuperación, costosas, en el preentrenamiento del LM, o usan una integración posterior del almacén de datos que lleva a un rendimiento subóptimo. Presentamos Retrieval-Augmented Dual Instruction Tuning (RA-DIT), una metodología ligera de ajuste fino que ofrece una tercera opción al adaptar cualquier LLM con capacidades de recuperación. El enfoque de Unity funciona en dos etapas distintas de ajuste fino: (1) una actualiza un LM preentrenado para aprovechar mejor la información recuperada, y (2) la otra actualiza el recuperador para devolver resultados más relevantes, según las preferencias del LM. Mediante ajuste fino sobre tareas que requieren tanto uso de conocimiento como conciencia contextual, demostramos que cada etapa aporta mejoras significativas de rendimiento, y que usar ambas genera ganancias adicionales. Nuestro mejor modelo, RA-DIT 65B, logra rendimiento de vanguardia en una variedad de benchmarks de aprendizaje zero-shot y few-shot intensivos en conocimiento, superando significativamente a los enfoques RALM existentes en contexto por hasta +8.9% en configuración 0-shot y +1.4% en configuración 5-shot en promedio.
> Retrieval-augmented language models (RALMs) improve performance by accessing long-tail and up-to-date knowledge from external data stores, but are challenging to build. Existing approaches require either expensive retrieval-specific modifications to LM pre-training or use post-hoc integration of the data store that leads to suboptimal performance. We introduce Retrieval-Augmented Dual Instruction Tuning (RA-DIT), a lightweight fine-tuning methodology that provides a third option by retrofitting any LLM with retrieval capabilities. Our approach operates in two distinct fine-tuning steps: (1) one updates a pre-trained LM to better use retrieved information, while (2) the other updates the retriever to return more relevant results, as preferred by the LM. By fine-tuning over tasks that require both knowledge utilization and contextual awareness, we demonstrate that each stage yields significant performance improvements, and using both leads to additional gains. Our best model, RA-DIT 65B, achieves state-of-the-art performance across a range of knowledge-intensive zero- and few-shot learning benchmarks, significantly outperforming existing in-context RALM approaches by up to +8.9% in 0-shot setting and +1.4% in 5-shot setting on average.
Enlace del artículo
https://arxiv.org/abs/2310.01352
Leer más
https://x.com/omarsar0/status/1709204756013490494
Kosmos-G: Generación de imágenes en contexto con modelos multimodales de lenguaje a gran escala / Kosmos-G: Generating Images in Context with Multimodal Large Language Models
Introducción del artículo
- Es un modelo que realiza generación de imágenes zero-shot de alta fidelidad a partir de entradas generalizadas de visión-lenguaje que abarcan múltiples imágenes; extiende la generación de imágenes zero-shot centrada en sujetos a escenarios con múltiples entidades; y permite reemplazar CLIP, desbloqueando nuevas aplicaciones con otras técnicas de U-Net como ControlNet y LoRA. #multimodal
> A model that performs high-fidelity zero-shot image generation from generalized vision-language input that spans multiple images; extends zero-shot subject-driven image generation to multi-entity scenarios; allows the replacement of clip, unlocking new applications with other u-net techniques such as controlnet and lora.
Resumen del artículo
- Los avances recientes en generación de texto a imagen (T2I) y de visión-lenguaje a imagen (VL2I) han dado pasos importantes. Sin embargo, la generación a partir de entradas generalizadas de visión-lenguaje, especialmente cuando involucran múltiples imágenes, sigue siendo un área poco explorada. Este artículo presenta Kosmos-G, un modelo que aprovecha las avanzadas capacidades de percepción de los modelos multimodales de lenguaje a gran escala (MLLM) para abordar el desafío mencionado. Nuestro enfoque alinea el espacio de salida del MLLM con CLIP usando la modalidad textual como ancla y realiza instruction tuning composicional sobre datos curados. Kosmos-G demuestra una capacidad única de generación zero-shot centrada en sujetos con múltiples entidades. En particular, el ajuste por instrucciones con destilación de puntaje no requiere modificaciones en el decodificador de imágenes. Esto permite sustituir CLIP sin fricción e integrarlo fácilmente con una gran variedad de técnicas de U-Net, desde controles de grano fino hasta variantes personalizadas del decodificador de imágenes. Consideramos a Kosmos-G como un intento inicial hacia el objetivo de “la imagen como idioma extranjero en la generación de imágenes”.
> Recent advancements in text-to-image (T2I) and vision-language-to-image (VL2I) generation have made significant strides. However, the generation from generalized vision-language inputs, especially involving multiple images, remains under-explored. This paper presents Kosmos-G, a model that leverages the advanced perception capabilities of Multimodal Large Language Models (MLLMs) to tackle the aforementioned challenge. Our approach aligns the output space of MLLM with CLIP using the textual modality as an anchor and performs compositional instruction tuning on curated data. Kosmos-G demonstrates a unique capability of zero-shot multi-entity subject-driven generation. Notably, the score distillation instruction tuning requires no modifications to the image decoder. This allows for a seamless substitution of CLIP and effortless integration with a myriad of U-Net techniques ranging from fine-grained controls to personalized image decoder variants. We posit Kosmos-G as an initial attempt towards the goal of "image as a foreign language in image generation."
Enlace del artículo
https://arxiv.org/abs/2310.02992
Leer más
https://x.com/omarsar0/status/1709934741158510625
Modelos de lenguaje a gran escala como razonadores analógicos / Large Language Models as Analogical Reasoners
Introducción del artículo
- Este enfoque difiere de chain-of-thought en que no requiere ejemplos etiquetados del proceso de razonamiento, y es un nuevo enfoque de prompting inspirado en el razonamiento analógico que induce a generar por sí mismo ejemplos o conocimiento relevantes dentro del contexto. #llm-reasoning #chain-of-thought
> A new prompting approach to automatically guide the reasoning process of llms; the approach is different from chain-of-thought in that it doesn’t require labeled exemplars of the reasoning process; the approach is inspired by analogical reasoning and prompts lms to self-generate relevant exemplars or knowledge in the context.
Resumen del artículo
- El prompting chain-of-thought (CoT) para modelos de lenguaje muestra un rendimiento impresionante en tareas de razonamiento, pero por lo general necesita ejemplos etiquetados del proceso de razonamiento. En este trabajo, presentamos un nuevo enfoque de prompting, Analogical Prompting, diseñado para guiar automáticamente el proceso de razonamiento de modelos de lenguaje grandes. Inspirado en el razonamiento analógico, un proceso cognitivo en el que los humanos recurren a experiencias pasadas relevantes para abordar problemas nuevos, nuestro enfoque hace que los modelos de lenguaje generen por sí mismos ejemplos o conocimiento relevantes dentro del contexto antes de proceder a resolver el problema dado. Este método presenta varias ventajas: elimina la necesidad de etiquetar o recuperar ejemplos, lo que ofrece generalidad y conveniencia; además, puede adaptar los ejemplos y el conocimiento generados a cada problema, lo que ofrece adaptabilidad. Los resultados experimentales muestran que nuestro enfoque supera a 0-shot CoT y a few-shot CoT manual en una variedad de tareas de razonamiento, incluyendo resolución de problemas matemáticos en GSM8K y MATH, generación de código en Codeforces y otras tareas de razonamiento en BIG-Bench.
> Chain-of-thought (CoT) prompting for language models demonstrates impressive performance across reasoning tasks, but typically needs labeled exemplars of the reasoning process. In this work, we introduce a new prompting approach, Analogical Prompting, designed to automatically guide the reasoning process of large language models. Inspired by analogical reasoning, a cognitive process in which humans draw from relevant past experiences to tackle new problems, our approach prompts language models to self-generate relevant exemplars or knowledge in the context, before proceeding to solve the given problem. This method presents several advantages: it obviates the need for labeling or retrieving exemplars, offering generality and convenience; it can also tailor the generated exemplars and knowledge to each problem, offering adaptability. Experimental results show that our approach outperforms 0-shot CoT and manual few-shot CoT in a variety of reasoning tasks, including math problem solving in GSM8K and MATH, code generation in Codeforces, and other reasoning tasks in BIG-Bench.
Enlace al artículo
https://arxiv.org/abs/2310.01714
Leer más
https://x.com/michiyasunaga/status/1709582150025240854
Texto original
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-9d9
Aún no hay comentarios.