17] Los principales papers de ML de esta semana (Top ML Papers of the Week)

(discuss.pytorch.kr)

4 puntos por ninebow 2024-03-19 | 6 comentarios | Compartir por WhatsApp

[2024/03/11 ~ 03/17] Los principales papers de ML de esta semana (Top ML Papers of the Week)

Hemos traducido automáticamente el artículo semanal de DAIR.AI sobre papers de ML.
Esta semana, los papers sobre modelos de lenguaje a gran escala (Large Language Models, LLMs) aparecieron como la tendencia principal. Se puede ver esa inclinación en que varios trabajos se enfocan en los LLMs para resolver o comprender distintos problemas. Por ejemplo, papers como "SIMA", "Retrieval Augmented Thoughts", "LMs Can Teach Themselves to Think Before Speaking", "Knowledge Conflicts for LLMs" y "LLMs Predict Neuroscience Results" usan modelos de lenguaje a gran escala o tratan cuestiones relacionadas con su rendimiento. Además, un paper como "Stealing Part of a Production Language Model" muestra que también se está investigando a los modelos de lenguaje desde una perspectiva de seguridad.
Esta tendencia parece reflejar los cambios revolucionarios que los modelos de lenguaje a gran escala han traído en los últimos años a la comunidad de investigación en inteligencia artificial, así como su influencia. Los modelos de lenguaje a gran escala no solo se están consolidando como modelos fundacionales eficaces en el procesamiento de lenguaje natural (Natural Language Processing, NLP), sino también en diversos dominios. Así, los LLMs muestran un alto rendimiento en distintas tareas de comprensión y generación del lenguaje, y además están siendo ampliamente explorados en investigación aplicada. Adicionalmente, papers como "Multimodal LLM Pre-training" muestran una tendencia reciente en la que los LLMs fortalecen sus capacidades de aprendizaje multimodal al combinarse con otros tipos de datos, como imágenes y voz.
Con base en este análisis, puede anticiparse que la investigación sobre LLMs seguirá mejorando la comprensión del lenguaje natural, expandiéndose hacia diversas nuevas áreas de aplicación y desempeñando un papel importante en el avance de la tecnología de inteligencia artificial. Parece que se explorará una amplia gama de temas que abarcan no solo la mejora del rendimiento de los LLMs, sino también la investigación aplicada, la seguridad y los problemas éticos.

SIMA / SIMA

Introducción al paper

Un agente de IA generalista para entornos virtuales 3D que sigue instrucciones en lenguaje natural en una amplia gama de entornos virtuales 3D y videojuegos; se evalúa en 600 habilidades básicas, que abarcan navegación, interacción con objetos y uso de menús. El lenguaje parece ser un factor muy importante en el rendimiento.

A generalist ai agent for 3d virtual environments that follows natural-language instructions in a broad range of 3d virtual environments and video games; sima is evaluated across 600 basic skills, spanning navigation, object interaction, and menu use. language seems to be a huge factor in performance.

Resumen del paper (Abstract)

Construir sistemas de IA incorporada que puedan seguir instrucciones arbitrarias en lenguaje en cualquier entorno 3D es un desafío clave para crear una IA general. Lograr este objetivo requiere aprender a vincular el lenguaje con la percepción y las acciones incorporadas para poder realizar tareas complejas. El proyecto SIMA (Scalable, Instructable, Multiworld Agent) aborda este problema entrenando agentes para seguir instrucciones de formato libre en una amplia variedad de entornos virtuales 3D, incluidos entornos de investigación curados y videojuegos comerciales de mundo abierto. Su objetivo es desarrollar un agente instruible capaz de realizar cualquier cosa que un ser humano pueda hacer en cualquier entorno 3D simulado. Su enfoque se centra en la generalidad impulsada por el lenguaje, imponiendo supuestos mínimos. Sus agentes interactúan con los entornos en tiempo real usando una interfaz genérica similar a la humana: las entradas son observaciones de imágenes e instrucciones en lenguaje, y las salidas son acciones de teclado y mouse. Este enfoque general es desafiante, pero permite que los agentes conecten el lenguaje con muchos entornos visualmente complejos y semánticamente ricos, al mismo tiempo que facilita ejecutar agentes en entornos nuevos. En este paper describen su motivación y objetivo, el progreso inicial que han logrado y resultados preliminares prometedores en varios entornos de investigación diversos y en una variedad de videojuegos comerciales.

Building embodied AI systems that can follow arbitrary language instructions in any 3D environment is a key challenge for creating general AI. Accomplishing this goal requires learning to ground language in perception and embodied actions, in order to accomplish complex tasks. The Scalable, Instructable, Multiworld Agent (SIMA) project tackles this by training agents to follow free-form instructions across a diverse range of virtual 3D environments, including curated research environments as well as openended, commercial video games. Our goal is to develop an instructable agent that can accomplish anything a human can do in any simulated 3D environment. Our approach focuses on language-driven generality while imposing minimal assumptions. Our agents interact with environments in real-time using a generic, human-like interface: the inputs are image observations and language instructions and the outputs are keyboard-and-mouse actions. This general approach is challenging, but it allows agents to ground language across many visually complex and semantically rich environments while also allowing us to readily run agents in new environments. In this paper we describe our motivation and goal, the initial progress we have made, and promising preliminary results on several diverse research environments and a variety of commercial video games.

Enlace del paper

https://storage.googleapis.com/deepmind-media/DeepMind.com/…

Leer más

https://discuss.pytorch.kr/t/gn-google-sima-3d-ai/3764

https://x.com/GoogleDeepMind/status/1767918515585994818

RAT: Pensamientos aumentados por recuperación para inducir razonamiento consciente del contexto en generación de horizonte largo / RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation

Introducción al paper

Muestra que revisar iterativamente una cadena de pensamiento mediante recuperación de información puede mejorar de forma significativa el razonamiento y la generación de los LLM en tareas de generación de largo horizonte. La idea central es que cada paso de pensamiento se revisa con información recuperada relevante para la consulta de la tarea y para los pasos de pensamiento actuales y pasados. Los pensamientos aumentados con recuperación (RAT) pueden aplicarse a distintos modelos como GPT-4 y CodeLLaMA-7b para mejorar tareas de generación de largo alcance (por ejemplo, escritura creativa y planificación de tareas encarnadas); RAT es un enfoque de prompting zero-shot y mejora de forma notable líneas base que incluyen zero-shot CoT prompting, vanilla RAG y otras referencias.

Shows that iteratively revising a chain of thoughts with information retrieval can significantly improve llm reasoning and generation in long-horizon generation tasks; the key idea is that each thought step is revised with relevant retrieved information to the task query, the current and past thought steps; retrieval augmented thoughts (rat) can be applied to different models like gpt-4 and codellama-7b to improve long-horizon generation tasks (e.g., creative writing and embodied task planning); rat is a zero-shot prompting approach and provides significant improvements to baselines that include zero-shot cot prompting, vanilla rag, and other baselines.

Resumen del paper (Abstract)

Exploramos cómo revisar iterativamente una cadena de pensamiento con ayuda de recuperación de información mejora significativamente la capacidad de razonamiento y generación de los modelos de lenguaje grandes en tareas de generación de largo horizonte, al mismo tiempo que mitiga en gran medida las alucinaciones. En particular, el método propuesto, retrieval-augmented thoughts (RAT), revisa cada paso de pensamiento uno por uno con información recuperada relevante para la consulta de la tarea y para los pasos de pensamiento actuales y pasados, después de generar el CoT zero-shot inicial. Al aplicar RAT a GPT-3.5, GPT-4 y CodeLLaMA-7b, se mejora sustancialmente su desempeño en varias tareas de generación de largo horizonte, con aumentos relativos promedio en las puntuaciones de evaluación de 13.63% en generación de código, 16.96% en razonamiento matemático, 19.2% en escritura creativa y 42.78% en planificación de tareas encarnadas. La página de demostración puede consultarse en https://craftjarvis.github.io/RAT

We explore how iterative revising a chain of thoughts with the help of information retrieval significantly improves large language models' reasoning and generation ability in long-horizon generation tasks, while hugely mitigating hallucination. In particular, the proposed method -- retrieval-augmented thoughts (RAT) -- revises each thought step one by one with retrieved information relevant to the task query, the current and the past thought steps, after the initial zero-shot CoT is generated. Applying RAT to GPT-3.5, GPT-4, and CodeLLaMA-7b substantially improves their performances on various long-horizon generation tasks; on average of relatively increasing rating scores by 13.63% on code generation, 16.96% on mathematical reasoning, 19.2% on creative writing, and 42.78% on embodied task planning. The demo page can be found at https://craftjarvis.github.io/RAT

Enlace al paper

https://arxiv.org/abs/2403.05313

Leer más

https://x.com/omarsar0/status/1767251740443746435

Quiet-STaR: Los modelos de lenguaje pueden aprender a pensar por sí mismos antes de hablar / Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking

Introducción al paper

Presenta una generalización de STaR, llamada Quiet-STaR, para permitir que los modelos de lenguaje (LMs) aprendan a razonar de maneras más generales y escalables; Quiet-STaR permite que los LMs generen racionales en cada token para explicar el texto futuro, propone un algoritmo de muestreo paralelo por token que ayuda a mejorar las predicciones del LM al generar pensamientos internos de forma eficiente, y la generación de racionales se mejora usando REINFORCE.

Presents a generalization of star, called quiet-star, to enable language models (lms) to learn to reason in more general and scalable ways; quiet-star enables lms to generate rationales at each token to explain future text; it proposes a token-wise parallel sampling algorithm that helps improve lm predictions by efficiently generating internal thoughts; the rationale generation is improved using reinforce.

Resumen del paper (Abstract)

Al escribir o hablar, las personas a veces hacen una pausa para pensar. En los trabajos centrados en el razonamiento, a menudo se describe el razonamiento como una forma de responder preguntas o completar tareas agénticas, pero en realidad está implícito en casi todo texto escrito. Por ejemplo, esto aplica a los pasos no expresados entre líneas en una demostración o a la teoría de la mente que subyace a una conversación. En Self-Taught Reasoner (STaR, Zelikman et al. 2022), se aprenden patrones de pensamiento útiles al inferir justificaciones a partir de unos pocos ejemplos en tareas de preguntas y respuestas, y aprendiendo de aquellos que conducen a una respuesta correcta. Idealmente, un modelo de lenguaje debería poder aprender a inferir justificaciones no expresadas en texto arbitrario, pero este es un entorno muy restringido. Presentamos Quiet-STaR, una versión generalizada de STaR en la que los modelos de lenguaje aprenden a generar justificaciones en cada token para explicar el texto futuro, mejorando así sus predicciones. Abordamos desafíos clave, entre ellos: 1) el costo computacional de generar continuaciones, 2) el hecho de que el LM inicialmente no sabe cómo generar ni usar pensamientos internos, y 3) la necesidad de predecir más allá del siguiente token individual. Para resolver esto, proponemos un algoritmo de muestreo paralelo por token que usa tokens entrenables para indicar el inicio y el final de un pensamiento, junto con una técnica extendida de teacher forcing. De manera alentadora, las justificaciones generadas ayudan de forma desproporcionada a modelar tokens difíciles de predecir y mejoran la capacidad del LM para responder directamente preguntas difíciles. En particular, después de continuar el preentrenamiento de un LM sobre un corpus de texto de internet con Quiet-STaR, encontramos mejoras zero-shot en GSM8K (5.9% $\rightarrow$ 10.9%) y CommonsenseQA (36.3% $\rightarrow$ 47.2%), y observamos una mejora en la perplejidad sobre tokens difíciles en texto natural. De manera crucial, estas mejoras no requieren fine-tuning para estas tareas. Quiet-STaR marca un paso hacia modelos de lenguaje que pueden aprender a razonar de una manera más general y escalable.

When writing and talking, people sometimes pause to think. Although reasoning-focused works have often framed reasoning as a method of answering questions or completing agentic tasks, reasoning is implicit in almost all written text. For example, this applies to the steps not stated between the lines of a proof or to the theory of mind underlying a conversation. In the Self-Taught Reasoner (STaR, Zelikman et al. 2022), useful thinking is learned by inferring rationales from few-shot examples in question-answering and learning from those that lead to a correct answer. This is a highly constrained setting -- ideally, a language model could instead learn to infer unstated rationales in arbitrary text. We present Quiet-STaR, a generalization of STaR in which LMs learn to generate rationales at each token to explain future text, improving their predictions. We address key challenges, including 1) the computational cost of generating continuations, 2) the fact that the LM does not initially know how to generate or use internal thoughts, and 3) the need to predict beyond individual next tokens. To resolve these, we propose a tokenwise parallel sampling algorithm, using learnable tokens indicating a thought's start and end, and an extended teacher-forcing technique. Encouragingly, generated rationales disproportionately help model difficult-to-predict tokens and improve the LM's ability to directly answer difficult questions. In particular, after continued pretraining of an LM on a corpus of internet text with Quiet-STaR, we find zero-shot improvements on GSM8K (5.9%$\rightarrow$10.9%) and CommonsenseQA (36.3%$\rightarrow$47.2%) and observe a perplexity improvement of difficult tokens in natural text. Crucially, these improvements require no fine-tuning on these tasks. Quiet-STaR marks a step towards LMs that can learn to reason in a more general and scalable way.

Enlace al paper

https://arxiv.org/abs/2403.09629

Leer más

https://x.com/omarsar0/status/1768681638009975088

Conflictos de conocimiento para LLMs: una encuesta / Knowledge Conflicts for LLMs: A Survey

Introducción del paper

Este paper de encuesta clasifica el problema común de los conflictos de conocimiento al trabajar con LLMs en conflictos de contexto-memoria, entre contextos y dentro de la memoria, y ofrece insights sobre sus causas y posibles métodos para mitigar estos problemas de conflicto de conocimiento.

An overview of the common issue of knowledge conflict when working with llms; the survey paper categorizes these conflicts into context-memory, inter-context, and intra-memory conflict; it also provides insights into causes and potential ways to mitigate these knowledge conflict issues.

Resumen del paper (Abstract)

Esta encuesta ofrece un análisis en profundidad de los conflictos de conocimiento en los modelos de lenguaje grandes (LLM), destacando los complejos desafíos que enfrentan al combinar conocimiento contextual y paramétrico. Aquí se enfoca en tres categorías de conflictos de conocimiento de atención amplia: contexto-memoria, entre contextos y dentro de la memoria. Estos conflictos pueden afectar significativamente la confiabilidad y el rendimiento de los LLM, especialmente en aplicaciones del mundo real donde el ruido y la desinformación son comunes. Al clasificar estos conflictos, explorar sus causas, examinar el comportamiento de los LLM bajo estas condiciones y revisar las soluciones disponibles, esta encuesta busca arrojar luz sobre estrategias para mejorar la robustez de los LLM, y así servir como un recurso valioso para impulsar la investigación en esta área en evolución.

This survey provides an in-depth analysis of knowledge conflicts for large language models (LLMs), highlighting the complex challenges they encounter when blending contextual and parametric knowledge. Our focus is on three categories of knowledge conflicts: context-memory, inter-context, and intra-memory conflict. These conflicts can significantly impact the trustworthiness and performance of LLMs, especially in real-world applications where noise and misinformation are common. By categorizing these conflicts, exploring the causes, examining the behaviors of LLMs under such conflicts, and reviewing available solutions, this survey aims to shed light on strategies for improving the robustness of LLMs, thereby serving as a valuable resource for advancing research in this evolving area.

Enlace al paper

https://arxiv.org/abs/2403.08319

Leer más

https://x.com/omarsar0/status/1768288774532858003

Robar parte de un modelo de lenguaje en producción / Stealing Part of a Production Language Model

Presentación del paper

Presenta el primer ataque de robo de modelos que extrae información de modelos de lenguaje en producción como ChatGPT o PaLM-2, y muestra que es posible recuperar la capa de proyección de embeddings de un modelo basado en transformers mediante acceso típico por API, ilustrándolo con un ejemplo en el que se extrajo la matriz de proyección completa de los modelos ada y babbage de OpenAI por menos de 20 dólares.

Presents the first model-stealing attack that extracts information from production language models like chatgpt or palm-2; shows that it's possible to recover the embedding projection layer of a transformer-based model through typical api access; as an example, the entire projection matrix was extracted from the openai ada and babbage models for under $20.

Resumen del paper (Abstract)

Presenta el primer ataque de robo de modelos que extrae información precisa y no trivial de modelos de lenguaje de producción de caja negra como ChatGPT de OpenAI o PaLM-2 de Google. En particular, este ataque recupera la capa de proyección de embeddings (hasta simetrías) de un modelo transformer, dado un acceso típico por API. Por menos de 20 dólares, se puede extraer la matriz de proyección completa de los modelos de lenguaje Ada y Babbage de OpenAI. Con ello, se confirmó por primera vez que estos modelos de caja negra tienen una dimensión oculta de 1024 y 2048, respectivamente. Además, se recuperó el tamaño exacto de la dimensión oculta del modelo gpt-3.5-turbo, y se estimó que recuperar la matriz de proyección completa costaría menos de 2,000 dólares en consultas. Por último, presenta posibles defensas y medidas de mitigación, y discute las implicaciones de futuros trabajos que podrían ampliar este ataque.

We introduce the first model-stealing attack that extracts precise, nontrivial information from black-box production language models like OpenAI's ChatGPT or Google's PaLM-2. Specifically, our attack recovers the embedding projection layer (up to symmetries) of a transformer model, given typical API access. For under $20 USD, our attack extracts the entire projection matrix of OpenAI's Ada and Babbage language models. We thereby confirm, for the first time, that these black-box models have a hidden dimension of 1024 and 2048, respectively. We also recover the exact hidden dimension size of the gpt-3.5-turbo model, and estimate it would cost under $2,000 in queries to recover the entire projection matrix. We conclude with potential defenses and mitigations, and discuss the implications of possible future work that could extend our attack.

Enlace al paper

https://arxiv.org/abs/2403.06634

Leer más

https://x.com/omarsar0/status/1767641831079067694

Branch-Train-MiX: mezclar LLM expertos en un LLM de mezcla de expertos / Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM

Presentación del paper

Propone mezclar entrenamiento experto en un entrenamiento de mezcla de expertos como un enfoque más eficiente en cómputo para entrenar LLM. Se muestra que este enfoque es más eficiente que entrenar un LLM generalista más grande o varios LLM especializados por separado; el método primero entrena en paralelo múltiples copias de un modelo semilla especializadas en distintos dominios (es decir, LLM expertos), las fusiona en un solo LLM usando capas feed-forward de MoE y luego realiza un ajuste fino del modelo unificado completo.

Proposes mixing expert llms into a mixture-of-experts llm as a more compute-efficient approach for training llms; it's shown to be more efficient than training a larger generalist llm or several separate specialized llms; the approach, btx, first trains (in parallel) multiple copies of a seed llm specialized in different domains (i.e., expert llms) and merges them into a single llm using moe feed-forward layers, followed by fine-tuning of the overall unified model.

Resumen del paper (Abstract)

Investigamos métodos eficientes para entrenar Large Language Models (LLMs) con capacidades en múltiples dominios especializados, como programación, razonamiento matemático y conocimiento del mundo. Nuestro método, llamado Branch-Train-MiX (BTX), parte de un modelo semilla que se ramifica para entrenar expertos de forma altamente paralela, con alto rendimiento y menor costo de comunicación. Después de que los expertos individuales se entrenan de forma asíncrona, BTX reúne sus parámetros feedforward como expertos en capas Mixture-of-Expert (MoE) y promedia los parámetros restantes, seguido de una etapa de ajuste fino de MoE para aprender el enrutamiento a nivel de token. BTX generaliza dos casos especiales: el método Branch-Train-Merge, que no tiene la etapa de ajuste fino de MoE para aprender el enrutamiento, y sparse upcycling, que omite la etapa de entrenamiento asíncrono de expertos. En comparación con otros enfoques, BTX logra el mejor equilibrio entre precisión y eficiencia.

We investigate efficient methods for training Large Language Models (LLMs) to possess capabilities in multiple specialized domains, such as coding, math reasoning and world knowledge. Our method, named Branch-Train-MiX (BTX), starts from a seed model, which is branched to train experts in embarrassingly parallel fashion with high throughput and reduced communication cost. After individual experts are asynchronously trained, BTX brings together their feedforward parameters as experts in Mixture-of-Expert (MoE) layers and averages the remaining parameters, followed by an MoE-finetuning stage to learn token-level routing. BTX generalizes two special cases, the Branch-Train-Merge method, which does not have the MoE finetuning stage to learn routing, and sparse upcycling, which omits the stage of training experts asynchronously. Compared to alternative approaches, BTX achieves the best accuracy-efficiency tradeoff.

Enlace al paper

https://arxiv.org/abs/2403.07816

Leer más

https://x.com/jaseweston/status/1767727740952682667

Los grandes modelos de lenguaje superan a los expertos humanos al predecir resultados en neurociencia / Large language models surpass human experts in predicting neuroscience results

Introducción al paper

Propone BrainBench, un benchmark para evaluar la capacidad de los LLM de predecir resultados en neurociencia; encuentra que los LLM superan a los expertos al predecir resultados experimentales; y muestra que un LLM ajustado con literatura de neurociencia rinde todavía mejor.

Proposes a benchmark, brainbench, for evaluating the ability of llms to predict neuroscience results; finds that llms surpass experts in predicting experimental outcomes; an llm tuned on neuroscience literature was shown to perform even better.

Resumen (Abstract)

Los descubrimientos científicos a menudo dependen de sintetizar décadas de investigación, una tarea que potencialmente supera la capacidad humana de procesamiento de información. Los Large Language Models (LLMs) ofrecen una solución. Los LLM entrenados con la vasta literatura científica podrían integrar hallazgos ruidosos pero interrelacionados para predecir resultados novedosos mejor que los expertos humanos. Para evaluar esta posibilidad, creamos BrainBench, un benchmark prospectivo para predecir resultados en neurociencia. Encontramos que los LLM superan a los expertos al predecir resultados experimentales. BrainGPT, un LLM que ajustamos con literatura de neurociencia, tuvo un rendimiento aún mejor. Al igual que los expertos humanos, cuando los LLM tenían confianza en sus predicciones, era más probable que acertaran, lo que anticipa un futuro en el que humanos y LLM colaboren para hacer descubrimientos. Nuestro enfoque no se limita a la neurociencia y puede transferirse a otras áreas intensivas en conocimiento.

Scientific discoveries often hinge on synthesizing decades of research, a task that potentially outstrips human information processing capacities. Large language models (LLMs) offer a solution. LLMs trained on the vast scientific literature could potentially integrate noisy yet interrelated findings to forecast novel results better than human experts. To evaluate this possibility, we created BrainBench, a forward-looking benchmark for predicting neuroscience results. We find that LLMs surpass experts in predicting experimental outcomes. BrainGPT, an LLM we tuned on the neuroscience literature, performed better yet. Like human experts, when LLMs were confident in their predictions, they were more likely to be correct, which presages a future where humans and LLMs team together to make discoveries. Our approach is not neuroscience-specific and is transferable to other knowledge-intensive endeavors.

Enlace al paper

https://arxiv.org/abs/2403.03230

Leer más

https://x.com/ProfData/status/1765689739682754824

C4AI Command-R

Introducción al paper

command-r, un modelo de 35b parámetros con longitud de contexto de 128k, optimizado para casos de uso como razonamiento, resumen y preguntas y respuestas, con capacidad de generación multilingüe evaluada en 10 idiomas y uso de herramientas y capacidades RAG de alto rendimiento, fue lanzado con fines de investigación.

A 35b parameter model, with a context length of 128k, optimized for use cases that include reasoning, summarization, and question answering; command-r has the capability for multilingual generation evaluated in 10 languages and performant tool use and rag capabilities; it has been released for research purposes.

Enlace al paper

https://huggingface.co/CohereForAI/c4ai-command-r-v01

Leer más

https://x.com/CohereForAI/status/1767275927505977455

¿La similitud coseno de los embeddings realmente trata sobre similitud? / Is Cosine-Similarity of Embeddings Really About Similarity?

Introducción al paper

Estudia embeddings derivados de modelos lineales regularizados y deriva analíticamente cómo la similitud coseno puede producir similitudes arbitrarias y sin sentido; además, encuentra que para algunos modelos lineales las similitudes ni siquiera son únicas y, en otros, están controladas por la regularización; los autores advierten contra el uso ciego de la similitud coseno y presentan consideraciones y alternativas.

Studies embeddings derived from regularized linear models and derive analytically how cosine-similarity can yield arbitrary and meaningless similarities; also finds that for some linear models, the similarities are not even unique and others are controlled by regularization; the authors caution against blindly using cosine similarity and presents considerations and alternatives.

Resumen del paper (Abstract)

La similitud coseno es el coseno del ángulo entre dos vectores, o de forma equivalente, el producto punto entre sus normalizaciones. Una aplicación popular es cuantificar la similitud semántica entre objetos de alta dimensión aplicando similitud coseno a un embedding de características de baja dimensión aprendido. En la práctica, esto puede funcionar mejor, pero a veces también peor, que el producto punto no normalizado entre vectores embebidos. Para obtener una mejor comprensión de esta observación empírica, estudiamos embeddings derivados de modelos lineales regularizados, donde las soluciones en forma cerrada facilitan el análisis. Derivamos analíticamente cómo la similitud coseno puede producir “similitudes” arbitrarias y, por lo tanto, sin sentido. En algunos modelos lineales las similitudes ni siquiera son únicas, mientras que en otros están controladas implícitamente por la regularización. También discutimos implicaciones más allá de los modelos lineales: al entrenar modelos profundos se emplean combinaciones de distintas regularizaciones, y estas tienen efectos implícitos y no intencionales al tomar las similitudes coseno de los embeddings resultantes, lo que vuelve los resultados opacos y posiblemente arbitrarios. Con base en estos hallazgos, advertimos contra el uso ciego de la similitud coseno y planteamos alternativas.

Cosine-similarity is the cosine of the angle between two vectors, or equivalently the dot product between their normalizations. A popular application is to quantify semantic similarity between high-dimensional objects by applying cosine-similarity to a learned low-dimensional feature embedding. This can work better but sometimes also worse than the unnormalized dot-product between embedded vectors in practice. To gain insight into this empirical observation, we study embeddings derived from regularized linear models, where closed-form solutions facilitate analytical insights. We derive analytically how cosine-similarity can yield arbitrary and therefore meaningless `similarities.' For some linear models the similarities are not even unique, while for others they are implicitly controlled by the regularization. We discuss implications beyond linear models: a combination of different regularizations are employed when learning deep models; these have implicit and unintended effects when taking cosine-similarities of the resulting embeddings, rendering results opaque and possibly arbitrary. Based on these insights, we caution against blindly using cosine-similarity and outline alternatives.

Enlace al paper

https://arxiv.org/abs/2403.05440

Leer más

https://x.com/_reachsumit/status/1767045820384477575

MM1: métodos, análisis e insights del preentrenamiento de LLM multimodales / MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

Introducción del paper

Ofrece una visión integral de los métodos, análisis e insights sobre el preentrenamiento de LLM multimodales; estudia distintos componentes de arquitectura y encuentra que mezclar cuidadosamente datos de image-caption, imagen-texto intercalados y solo texto es clave para lograr rendimiento de vanguardia; además, propone una familia de modelos multimodales de hasta 30b parámetros que alcanza sota en métricas de preentrenamiento e incluye propiedades como mejor aprendizaje en contexto, razonamiento con múltiples imágenes y la posibilidad de usar prompting de cadena de pensamiento con pocos ejemplos.

Provides a comprehensive overview of methods, analysis, and insights into multimodal llm pre-training; studies different architecture components and finds that carefully mixing image-caption, interleaved image-text, and text-only data is key for state-of-the-art performance; it also proposes a family of multimodal models up to 30b parameters that achieve sota in pre-training metrics and include properties such as enhanced in-context learning, multi-image reasoning, enabling few-shot chain-of-thought prompting.

Resumen del paper (Abstract)

Este trabajo explica cómo construir modelos de lenguaje grandes multimodales (MLLM) de alto rendimiento. En particular, estudia la importancia de distintos componentes de la arquitectura y de la selección de datos. Mediante ablaciones cuidadosas y exhaustivas del codificador de imágenes, el conector visión-lenguaje y varias opciones de datos de preentrenamiento, se identificaron varias lecciones de diseño clave. Por ejemplo, se demostró que, para el preentrenamiento multimodal a gran escala, combinar cuidadosamente datos de imagen-descripción, imagen-texto intercalados y solo texto es crucial para lograr resultados few-shot de última generación (SOTA) en múltiples benchmarks, en comparación con otros resultados de preentrenamiento publicados. Además, se muestra que el codificador de imágenes, junto con la resolución de la imagen y la cantidad de tokens de imagen, tiene un impacto considerable, mientras que el diseño del conector visión-lenguaje es comparativamente poco importante. Al escalar la receta presentada, se construyó MM1, una familia de modelos multimodales de hasta 30B parámetros, compuesta tanto por modelos densos como por variantes de mixture-of-experts (MoE), que alcanza SOTA en métricas de preentrenamiento y logra un rendimiento competitivo tras ajuste fino supervisado en una variedad de benchmarks multimodales establecidos. Gracias al preentrenamiento a gran escala, MM1 cuenta con propiedades atractivas como aprendizaje en contexto mejorado y razonamiento con múltiples imágenes, lo que permite prompting de chain-of-thought con pocos ejemplos.

In this work, we discuss building performant Multimodal Large Language Models (MLLMs). In particular, we study the importance of various architecture components and data choices. Through careful and comprehensive ablations of the image encoder, the vision language connector, and various pre-training data choices, we identified several crucial design lessons. For example, we demonstrate that for large-scale multimodal pre-training using a careful mix of image-caption, interleaved image-text, and text-only data is crucial for achieving state-of-the-art (SOTA) few-shot results across multiple benchmarks, compared to other published pre-training results. Further, we show that the image encoder together with image resolution and the image token count has substantial impact, while the vision-language connector design is of comparatively negligible importance. By scaling up the presented recipe, we build MM1, a family of multimodal models up to 30B parameters, consisting of both dense models and mixture-of-experts (MoE) variants, that are SOTA in pre-training metrics and achieve competitive performance after supervised fine-tuning on a range of established multimodal benchmarks. Thanks to large-scale pre-training, MM1 enjoys appealing properties such as enhanced in-context learning, and multi-image reasoning, enabling few-shot chain-of-thought prompting.

Este texto fue resumido con un modelo GPT, por lo que puede contener errores; por favor, consulta también el texto original al final del artículo. Si encuentras alguna parte extraña o incorrecta mientras lees, te agradeceríamos que nos lo avisaras en los comentarios.

⚠️Publicidad⚠️: ¿Te resultó útil este artículo recopilado por la comunidad de usuarios de PyTorch en Corea? Si te unes como miembro, te enviaremos los artículos principales por correo electrónico. (La opción predeterminada es Weekly, pero también puedes cambiarla a Daily).

6 comentarios

prelude9903 2024-03-19

Por favor, díganme qué herramienta de traducción automática usaron.

ninebow 2024-03-19

Sí, estoy usando DeepL jaja
Recientemente también permitieron crear un glosario de traducción para coreano, así que lo probé, pero hubo problemas orz...

libner 2024-03-19

Parece que en la introducción del artículo de la parte de RAT, rat y rag se tradujeron como rata y trapo, respectivamente. Probablemente el modelo leyó las minúsculas tal cual.

ninebow 2024-03-20

Lo he corregido de la siguiente manera. ¡Gracias! :D

Muestra que revisar de forma iterativa la cadena de pensamiento (CoT) mediante recuperación de información puede mejorar significativamente el razonamiento y la generación de los LLM en tareas de generación de largo alcance. La idea clave es que cada paso del pensamiento se revisa con información recuperada relevante para la consulta de la tarea y para los pasos de pensamiento actuales y anteriores. Retrieval-Augmented Thoughts (RAT) puede aplicarse a otros modelos como GPT-4 y CodeLlama-7b en tareas de generación de largo alcance (por ejemplo, escritura creativa y planificación detallada de tareas); RAT es un método de prompting zero-shot y mejora de forma significativa las líneas base, incluyendo bed prompts zero-shot, RAG básico y otros baselines.

ninebow 2024-03-19

Ah, cierto; corregiré el original jaja.
¡Gracias!

ninebow 2024-03-19

Ah, el título... por favor cámbienlo a "Principales artículos de ML de esta semana";;

[2024/03/11 ~ 03/17] Los principales papers de ML de esta semana (Top ML Papers of the Week)