[2024/05/13 ~ 05/19] Los principales papers de ML de esta semana (Top ML Papers of the Week)

Tradujimos automáticamente un artículo sobre papers de ML publicados semanalmente por DAIR.AI.
Una tendencia clave que se puede observar en los papers presentados esta semana es que incluyen muchos estudios enfocados en procesamiento de lenguaje natural (NLP) y aprendizaje por refuerzo (RL). Por ejemplo, "GPT-4o", "Fine-tuning and Hallucinations" y "Zero-shot Tokenizer Transfer" abordan tecnologías y metodologías recientes relacionadas con el procesamiento de lenguaje natural y, en particular, exploran avances en áreas como los modelos generativos y el aprendizaje por transferencia de tokenizers. Además, "RLHF Workflow" presenta una investigación sobre el diseño de procesos de aprendizaje eficientes utilizando aprendizaje por refuerzo, lo que puede verse como un intento de ampliar las posibilidades de aplicación práctica en el campo de RL.
Esta tendencia refleja la creciente importancia del procesamiento de lenguaje natural y del aprendizaje por refuerzo, que desempeñan un papel fundamental en el desarrollo de las tecnologías de inteligencia artificial, en particular del aprendizaje automático y el aprendizaje profundo. En los últimos años, junto con el crecimiento explosivo de modelos de generación de lenguaje como GPT, el alcance de sus aplicaciones ha seguido expandiéndose, lo que también ha llevado a los investigadores a prestar gran atención a estudios orientados a ajustar estos modelos con mayor sofisticación y a complementar las debilidades de los modelos existentes. Asimismo, el aprendizaje por refuerzo se ha consolidado como una técnica importante para optimizar la toma de decisiones y mejorar la capacidad de aprendizaje en entornos complejos, en sintonía con la tendencia actual de investigación que busca maximizar la eficiencia del aprendizaje.
Por lo tanto, los papers presentados esta semana muestran claramente hacia dónde se dirigen los esfuerzos de investigación y desarrollo tanto en el ámbito académico como en la industria. El procesamiento de lenguaje natural es un eje central de las tecnologías que buscan hacer más natural y eficiente la interacción entre humanos y máquinas, y el aprendizaje por refuerzo cumple un papel importante en la optimización de los procesos de toma de decisiones basados en esa interacción. Estas tendencias de investigación serán un indicador importante de la dirección futura de las tecnologías de inteligencia artificial, que seguirán evolucionando.

GPT-4o

Introducción

Un nuevo modelo con capacidades de razonamiento multimodal y soporte en tiempo real para audio, visión y texto; puede aceptar como entrada cualquier combinación de texto, audio, imagen y video para generar combinaciones de salidas de texto, audio e imagen; se informa que iguala el rendimiento de GPT-4 Turbo siendo además 50% más rápido y más barato a través de APIs.

A new model with multimodal reasoning capabilities with real-time support across audio, vision, and text; it can accept as input any combination of text, audio, image, and video to generate combinations of text, audio, and image outputs; it’s reported to match GPT-4 Turbo performance while being 50% much faster and cheaper via APIs.

Enlaces relacionados

https://openai.com/index/hello-gpt-4o/

Leer más

https://discuss.pytorch.kr/t/openai-gpt-4o-gpt-4o/4362

https://x.com/OpenAI/status/1790072174117613963

Gemini 1.5 Flash / Gemini 1.5 Flash

Introducción del paper

Un modelo decodificador transformer liviano con una ventana de contexto de 2M y capacidades multimodales; está diseñado para la eficiencia y ofrece la generación de salida más rápida entre todos los modelos en varios idiomas evaluados; en general, Gemini 1.5 Flash muestra un rendimiento uniformemente superior en comparación con Gemini 1.0 Pro e incluso alcanza un nivel similar a 1.0 Ultra en varios benchmarks.

A lightweight transformer decoder model with a 2M context window with multimodal capabilities; it is designed for efficiency and yields the fastest output generation of all models on several evaluated languages; overall, Gemini 1.5 Flash performs uniformly better compared to Gemini 1.0 Pro and even performs at a similar level to 1.0 Ultra on several benchmarks.

Resumen del paper (Abstract)

En este informe presentamos la familia de modelos Gemini 1.5, que representa la nueva generación de modelos multimodales altamente eficientes en cómputo, capaces de recordar y razonar sobre información detallada a partir de millones de tokens de contexto, incluidos varios documentos largos y horas de video y audio. Esta familia incluye dos nuevos modelos: (1) una versión actualizada de Gemini 1.5 Pro, que supera a la versión de febrero en la gran mayoría de capacidades y benchmarks; y (2) Gemini 1.5 Flash, una variante más ligera diseñada para la eficiencia con una degradación mínima en la calidad. Los modelos Gemini 1.5 logran un recall casi perfecto en tareas de recuperación de contexto largo a través de múltiples modalidades, mejoran el estado del arte en QA de documentos largos, QA de videos largos y ASR de contexto largo, y igualan o superan el rendimiento de estado del arte de Gemini 1.0 Ultra en un amplio conjunto de benchmarks. Al estudiar los límites de la capacidad de contexto largo de Gemini 1.5, se observa una mejora continua en la predicción del siguiente token y una recuperación casi perfecta (>99%) hasta al menos 10M tokens, un salto generacional por encima de modelos existentes como Claude 3.0 (200万) y GPT-4 Turbo (128万). Por último, se destacan casos de uso reales, como la colaboración de Gemini 1.5 con profesionales para completar sus tareas, logrando ahorros de tiempo de entre 26 y 75% en 10 categorías laborales distintas, así como sorprendentes nuevas capacidades en modelos de lenguaje de gran escala de frontera; al recibir un manual de gramática de Kalamang, una lengua con menos de 200 hablantes en todo el mundo, el modelo aprende a traducir del inglés al kalamang a un nivel similar al de una persona que aprendió con el mismo contenido.

In this report, we introduce the Gemini 1.5 family of models, representing the next generation of highly compute-efficient multimodal models capable of recalling and reasoning over fine-grained information from millions of tokens of context, including multiple long documents and hours of video and audio. The family includes two new models: (1) an updated Gemini 1.5 Pro, which exceeds the February version on the great majority of capabilities and benchmarks; (2) Gemini 1.5 Flash, a more lightweight variant designed for efficiency with minimal regression in quality. Gemini 1.5 models achieve near-perfect recall on long-context retrieval tasks across modalities, improve the state-of-the-art in long-document QA, long-video QA and long-context ASR, and match or surpass Gemini 1.0 Ultra’s state-of-the-art performance across a broad set of benchmarks. Studying the limits of Gemini 1.5’s long-context ability, we find continued improvement in next-token prediction and near-perfect retrieval (>99%) up to at least 10M tokens, a generational leap over existing models such as Claude 3.0 (200k) and GPT-4 Turbo (128k). Finally, we highlight real-world use cases, such as Gemini 1.5 collaborating with professions on their completing their tasks achieving 26 to 75% time savings across 10 different job categories, as well as surprising new capabilities of large language models at the frontier; when given a grammar manual for Kalamang, a language with fewer than 200 speakers worldwide, the model learns to translate English to Kalamang at a similar level to a person who learned from the same content.

Enlace al paper

https://storage.googleapis.com/deepmind-media/gemini/…

Leer más

https://discuss.pytorch.kr/t/gn-google-i-o-2024/4371

https://x.com/OriolVinyalsML/status/1791521517211107515

Veo

Introducción

El modelo de generación de video más avanzado de Google DeepMind puede generar videos de alta calidad en resolución 1080p de más de 1 minuto, admite edición con máscaras en videos, también puede generar videos a partir de una imagen de entrada junto con texto, y puede extender clips de video a más de 60 segundos manteniendo la coherencia mediante su transformer de difusión latente.

Google Deepmind’s most capable video generation model generates high-quality, 1080p resolution videos beyond 1 minute; it supports masked editing on videos and can also generate videos with an input image along with text; the model can extend video clips to 60 seconds and more while keeping consistency with its latent diffusion transformer.

Enlaces relacionados

https://deepmind.google/technologies/veo/

Leer más

https://discuss.pytorch.kr/t/veo-google-deepmind/4385

https://x.com/GoogleDeepMind/status/1790435824598716704

Chameleon: modelos fundacionales de fusión temprana multimodal mixta / Chameleon: Mixed-Modal Early-Fusion Foundation Models

Introducción al paper

Una familia de modelos multimodales mixtos basados en tokens para generar imágenes y texto en cualquier secuencia arbitraria; reporta rendimiento de estado del arte en captioning de imágenes, supera a Llama 2 en tareas solo de texto y también compite con Mixtral 8x7B y Gemini-Pro; supera el rendimiento de Gemini Pro y GPT-4V en una nueva evaluación de generación multimodal mixta de formato largo.

A family of token-based mixed-modal models for generating images and text in any arbitrary sequence; reports state-of-the-art performance in image captioning and outperforms Llama 2 in text-only tasks and is also competitive with Mixtral 8x7B and Gemini-Pro; exceeds the performance of Gemini Pro and GPT-4V on a new long-form mixed-modal generation evaluation.

Resumen del paper (Abstract)

Presentamos Chameleon, una familia de modelos multimodales mixtos basados en tokens con fusión temprana, capaces de comprender y generar imágenes y texto en cualquier secuencia arbitraria. Se describe un enfoque de entrenamiento estable desde el inicio, una receta de alineación y una parametrización arquitectónica adaptada a la configuración multimodal mixta basada en tokens con fusión temprana. Los modelos se evalúan en una gama integral de tareas, incluyendo preguntas y respuestas visuales, subtitulado de imágenes, generación de texto, generación de imágenes y generación multimodal mixta de formato largo. Chameleon demuestra capacidades amplias y generales, incluyendo rendimiento de vanguardia en tareas de subtitulado de imágenes; supera a Llama-2 en tareas solo de texto mientras compite con modelos como Mixtral 8x7B y Gemini-Pro, y también realiza generación de imágenes no trivial, todo en un solo modelo. Además, iguala o supera el rendimiento de modelos mucho más grandes, incluidos Gemini Pro y GPT-4V, según evaluaciones humanas en una nueva prueba de generación multimodal mixta de formato largo, donde ya sea el prompt o las salidas contienen secuencias mixtas de imágenes y texto. Chameleon marca un avance significativo hacia un modelado unificado de documentos multimodales completos.

We present Chameleon, a family of early-fusion token-based mixed-modal models capable of understanding and generating images and text in any arbitrary sequence. We outline a stable training approach from inception, an alignment recipe, and an architectural parameterization tailored for the early-fusion, token-based, mixed-modal setting. The models are evaluated on a comprehensive range of tasks, including visual question answering, image captioning, text generation, image generation, and long-form mixed modal generation. Chameleon demonstrates broad and general capabilities, including state-of-the-art performance in image captioning tasks, outperforms Llama-2 in text-only tasks while being competitive with models such as Mixtral 8x7B and Gemini-Pro, and performs non-trivial image generation, all in a single model. It also matches or exceeds the performance of much larger models, including Gemini Pro and GPT-4V, according to human judgments on a new long-form mixed-modal generation evaluation, where either the prompt or outputs contain mixed sequences of both images and text. Chameleon marks a significant step forward in a unified modeling of full multimodal documents.

Enlace al paper

https://arxiv.org/abs/2405.09818

Leer más

https://x.com/AIatMeta/status/1791263344714014733

¿Ajustar finamente a los LLM con nuevo conocimiento fomenta las alucinaciones? / Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?

Presentación del paper

Se estudia el impacto del ajuste fino con nuevo conocimiento sobre la tendencia a alucinar de los LLM; se configura un conjunto de ejemplos de ajuste fino que incluye nuevo conocimiento; se muestra que los LLM tienen dificultades para adquirir nuevo conocimiento factual mediante ajuste fino, y se descubre que, a medida que aprenden nuevo conocimiento, aumenta la tendencia del modelo a alucinar.

Studies the impact of fine-tuning on new knowledge on the hallucination tendencies of LLMs; the setup includes fine-tuning examples that include new knowledge; shows that LLMs struggle to acquire new factual knowledge via fine-tuning; also finds that as new knowledge is learned it increases the model’s tendency to hallucinate.

Resumen del paper (Abstract)

Cuando los modelos de lenguaje grandes se alinean mediante ajuste fino supervisado, pueden encontrarse con nueva información factual que no fue adquirida durante el preentrenamiento. A menudo se conjetura que esto puede enseñarle al modelo el comportamiento de alucinar respuestas factualmente incorrectas, ya que se lo entrena para generar hechos que no están fundamentados en su conocimiento preexistente. En este trabajo, estudiamos el impacto de esa exposición a nuevo conocimiento sobre la capacidad del modelo ajustado finamente para utilizar su conocimiento preexistente. Para ello, diseñamos una configuración controlada, centrada en QA de libro cerrado, en la que variamos la proporción de ejemplos de ajuste fino que introducen nuevo conocimiento. Demostramos que los modelos de lenguaje grandes tienen dificultades para adquirir nuevo conocimiento factual mediante ajuste fino, ya que los ejemplos de ajuste fino que introducen nuevo conocimiento se aprenden significativamente más lento que aquellos consistentes con el conocimiento del modelo. Sin embargo, también encontramos que, a medida que los ejemplos con nuevo conocimiento finalmente se aprenden, aumentan linealmente la tendencia del modelo a alucinar. En conjunto, nuestros resultados destacan el riesgo de introducir nuevo conocimiento factual mediante ajuste fino y respaldan la visión de que los modelos de lenguaje grandes adquieren el conocimiento factual principalmente durante el preentrenamiento, mientras que el ajuste fino les enseña a usarlo de manera más eficiente.

When large language models are aligned via supervised fine-tuning, they may encounter new factual information that was not acquired through pre-training. It is often conjectured that this can teach the model the behavior of hallucinating factually incorrect responses, as the model is trained to generate facts that are not grounded in its pre-existing knowledge. In this work, we study the impact of such exposure to new knowledge on the capability of the fine-tuned model to utilize its pre-existing knowledge. To this end, we design a controlled setup, focused on closed-book QA, where we vary the proportion of the fine-tuning examples that introduce new knowledge. We demonstrate that large language models struggle to acquire new factual knowledge through fine-tuning, as fine-tuning examples that introduce new knowledge are learned significantly slower than those consistent with the model's knowledge. However, we also find that as the examples with new knowledge are eventually learned, they linearly increase the model's tendency to hallucinate. Taken together, our results highlight the risk in introducing new factual knowledge through fine-tuning, and support the view that large language models mostly acquire factual knowledge through pre-training, whereas fine-tuning teaches them to use it more efficiently.

Enlace al paper

https://arxiv.org/abs/2405.05904

Lectura adicional

https://x.com/arankomatsuzaki/status/1788859706187882960

Transferencia zero-shot de tokenizadores / Zero-Shot Tokenizer Transfer

Presentación del paper

Se entrena una hiperrred que toma un tokenizador como entrada y predice sus embeddings correspondientes, demuestra generalización a nuevos tokenizadores tanto con LLM encoder como decoder, y reporta que este método logra un rendimiento cercano al del modelo original en tareas multilingües y de código mientras reduce la longitud de las secuencias tokenizadas.

Trains a hypernetwork taking a tokenizer as input and predicting the corresponding embeddings; it demonstrates generalization to new tokenizers both with encoder and decoder LLMs; reports that the method achieves performance close to the original models' performance in cross-lingual and coding tasks while reducing the length of the tokenized sequence.

Resumen del paper (Abstract)

Los modelos de lenguaje (LM) están ligados a su tokenizador, que mapea texto sin procesar a una secuencia de elementos del vocabulario (tokens). Esto restringe su flexibilidad: por ejemplo, los LM entrenados principalmente en inglés todavía pueden rendir bien en otros lenguajes naturales y de programación, pero con una eficiencia mucho menor debido a su tokenizador centrado en el inglés. Para mitigar esto, deberíamos poder reemplazar sobre la marcha el tokenizador original del LM por uno arbitrario, sin degradar el rendimiento. Por eso, en este trabajo definimos un nuevo problema: Zero-Shot Tokenizer Transfer (ZeTT). El desafío central de ZeTT es encontrar embeddings para los tokens en el vocabulario del nuevo tokenizador. Dado que las heurísticas previas para inicializar embeddings suelen rendir a nivel de azar en un entorno ZeTT, proponemos una nueva solución: entrenamos una hiperrred que toma un tokenizador como entrada y predice los embeddings correspondientes. Demostramos empíricamente que esta hiperrred generaliza a nuevos tokenizadores tanto con LLM encoder (p. ej., XLM-R) como decoder (p. ej., Mistral-7B). Nuestro método se acerca al rendimiento de los modelos originales en tareas multilingües y de código, al mismo tiempo que reduce de forma marcada la longitud de la secuencia tokenizada. También encontramos que la brecha restante puede cerrarse rápidamente con entrenamiento continuo sobre menos de 1B tokens. Por último, mostramos que una hiperrred ZeTT entrenada para un (L)LM base también puede aplicarse a variantes ajustadas finamente sin entrenamiento adicional. En conjunto, nuestros resultados representan avances sustanciales hacia desacoplar los LM de su tokenizador.

Language models (LMs) are bound to their tokenizer, which maps raw text to a sequence of vocabulary items (tokens). This restricts their flexibility: for example, LMs trained primarily on English may still perform well in other natural and programming languages, but have vastly decreased efficiency due to their English-centric tokenizer. To mitigate this, we should be able to swap the original LM tokenizer with an arbitrary one, on the fly, without degrading performance. Hence, in this work we define a new problem: Zero-Shot Tokenizer Transfer (ZeTT). The challenge at the core of ZeTT is finding embeddings for the tokens in the vocabulary of the new tokenizer. Since prior heuristics for initializing embeddings often perform at chance level in a ZeTT setting, we propose a new solution: we train a hypernetwork taking a tokenizer as input and predicting the corresponding embeddings. We empirically demonstrate that the hypernetwork generalizes to new tokenizers both with encoder (e.g., XLM-R) and decoder LLMs (e.g., Mistral-7B). Our method comes close to the original models' performance in cross-lingual and coding tasks while markedly reducing the length of the tokenized sequence. We also find that the remaining gap can be quickly closed by continued training on less than 1B tokens. Finally, we show that a ZeTT hypernetwork trained for a base (L)LM can also be applied to fine-tuned variants without extra training. Overall, our results make substantial strides toward detaching LMs from their tokenizer.

Enlace del paper

https://arxiv.org/abs/2405.07883

Lectura adicional

https://x.com/bminixhofer/status/1790267652587258343

WavCraft: edición y generación de audio con modelos de lenguaje grandes / WavCraft: Audio Editing and Generation with Large Language Models

Presentación del paper

Aprovecha LLM para conectar modelos específicos por tarea para la creación y edición de contenido de audio; descompone las instrucciones de los usuarios en varias tareas y aborda cada una de manera colaborativa con el módulo correspondiente; puede permitir que los usuarios interactúen y produzcan contenido de audio sin comandos explícitos.

Leverages LLMs to connect task-specific models for audio content creation and editing; decomposes users' instructions into several tasks and tackles each task collaboratively with the particular module; it can enable users to interact and produce audio content without explicit commands

Resumen del paper (Abstract)

Presentamos WavCraft, un sistema integral que aprovecha los modelos de lenguaje grandes (LLM) para conectar diversos modelos específicos de tareas para la creación y edición de contenido de audio. En concreto, WavCraft describe en lenguaje natural el contenido de materiales de audio en bruto y ajusta el LLM en función de las descripciones del audio y las solicitudes del usuario. WavCraft aprovecha la capacidad de aprendizaje en contexto del LLM para descomponer las instrucciones de los usuarios en varias tareas y abordar cada una de ellas de forma colaborativa con el módulo correspondiente. Mediante la descomposición de tareas junto con una serie de modelos específicos, WavCraft sigue la instrucción de entrada para crear o editar contenido de audio con más detalle y fundamentos, facilitando el control por parte del usuario. Además, WavCraft puede colaborar con los usuarios mediante interacción conversacional e incluso producir contenido de audio sin comandos explícitos del usuario. Los resultados experimentales muestran que WavCraft ofrece un mejor rendimiento que los métodos existentes, especialmente al ajustar regiones locales de clips de audio. Además, WavCraft puede editar y crear contenido de audio sobre grabaciones de entrada siguiendo instrucciones complejas, por lo que puede ayudar a productores de audio en una amplia gama de aplicaciones. La implementación y los demos están disponibles aquí (https://github.com/JinhuaLiang/WavCraft).

We introduce WavCraft, a collective system that leverages large language models (LLMs) to connect diverse task-specific models for audio content creation and editing. Specifically, WavCraft describes the content of raw audio materials in natural language and prompts the LLM conditioned on audio descriptions and user requests. WavCraft leverages the in-context learning ability of the LLM to decomposes users' instructions into several tasks and tackle each task collaboratively with the particular module. Through task decomposition along with a set of task-specific models, WavCraft follows the input instruction to create or edit audio content with more details and rationales, facilitating user control. In addition, WavCraft is able to cooperate with users via dialogue interaction and even produce the audio content without explicit user commands. Experiments demonstrate that WavCraft yields a better performance than existing methods, especially when adjusting the local regions of audio clips. Moreover, WavCraft can follow complex instructions to edit and create audio content on the top of input recordings, facilitating audio producers in a broader range of applications. Our implementation and demos are available at this https://github.com/JinhuaLiang/WavCraft.

Enlace al paper

https://arxiv.org/abs/2403.09527v3

Leer más

https://github.com/JinhuaLiang/WavCraft

Flujo de trabajo de RLHF: del modelado de recompensas al RLHF en línea / RLHF Workflow: From Reward Modeling to Online RLHF

Introducción al paper

Proporciona una receta fácil de reproducir para el RLHF iterativo en línea y explica las ideas teóricas, los principios algorítmicos y la implementación práctica del RLHF iterativo en línea.

Provides an easily reproducible recipe for online iterative RLHF; discusses theoretical insights and algorithmic principles of online iterative RLHF and practical implementation.

Resumen del paper (Abstract)

Este informe técnico presenta el flujo de trabajo del aprendizaje por refuerzo iterativo en línea a partir de retroalimentación humana (RLHF), que en la literatura reciente sobre modelos de lenguaje grandes (LLM) ha sido ampliamente reportado como muy superior a su contraparte offline. Sin embargo, los proyectos existentes de RLHF de código abierto todavía se limitan en gran medida al entorno de aprendizaje offline. En este informe técnico, nuestro objetivo es cerrar esa brecha y ofrecer una receta detallada, fácil de reproducir, para RLHF iterativo en línea. En particular, como la retroalimentación humana en línea suele ser inviable para las comunidades open source con recursos limitados, comenzamos construyendo modelos de preferencias a partir de diversos conjuntos de datos open source y usamos el modelo proxy de preferencias resultante para aproximar la retroalimentación humana. Después, analizamos los fundamentos teóricos y los principios algorítmicos detrás del RLHF iterativo en línea, seguidos de una implementación práctica detallada. Nuestro LLM entrenado, SFR-Iterative-DPO-LLaMA-3-8B-R, logró un rendimiento impresionante en benchmarks de chatbots LLM, incluidos AlpacaEval-2, Arena-Hard y MT-Bench, así como en otros benchmarks académicos como HumanEval y TruthfulQA. Mostramos que el ajuste fino supervisado (SFT) y el RLHF iterativo pueden alcanzar un rendimiento de vanguardia con conjuntos de datos totalmente open source. Además, pusimos a disposición pública los modelos, los conjuntos de datos curados y una guía de código completa paso a paso. Para más información, consulta https://github.com/RLHFlow/RLHF-Reward-Modeling y https://github.com/RLHFlow/Online-RLHF.

We present the workflow of Online Iterative Reinforcement Learning from Human Feedback (RLHF) in this technical report, which is widely reported to outperform its offline counterpart by a large margin in the recent large language model (LLM) literature. However, existing open-source RLHF projects are still largely confined to the offline learning setting. In this technical report, we aim to fill in this gap and provide a detailed recipe that is easy to reproduce for online iterative RLHF. In particular, since online human feedback is usually infeasible for open-source communities with limited resources, we start by constructing preference models using a diverse set of open-source datasets and use the constructed proxy preference model to approximate human feedback. Then, we discuss the theoretical insights and algorithmic principles behind online iterative RLHF, followed by a detailed practical implementation. Our trained LLM, SFR-Iterative-DPO-LLaMA-3-8B-R, achieves impressive performance on LLM chatbot benchmarks, including AlpacaEval-2, Arena-Hard, and MT-Bench, as well as other academic benchmarks such as HumanEval and TruthfulQA. We have shown that supervised fine-tuning (SFT) and iterative RLHF can obtain state-of-the-art performance with fully open-source datasets. Further, we have made our models, curated datasets, and comprehensive step-by-step code guidebooks publicly available. Please refer to https://github.com/RLHFlow/RLHF-Reward-Modeling and https://github.com/RLHFlow/Online-RLHF for more detailed information.

Enlace al paper

https://arxiv.org/abs/2405.07863v1

Leer más

https://github.com/RLHFlow/RLHF-Reward-Modeling y https://github.com/RLHFlow/Online-RLHF

https://x.com/CaimingXiong/status/1790379121719361776

Solo se cachea una vez: arquitecturas decoder-decoder para modelos de lenguaje / You Only Cache Once: Decoder-Decoder Architectures for Language Models

Introducción al paper

La arquitectura decoder-decoder de LLM, que solo cachea una vez los pares clave-valor, apila un cross-decoder sobre un self-decoder que codifica de forma eficiente los cachés globales de clave-valor, y el cross-encoder reutiliza el caché mediante cross-attention; esto reduce de forma significativa el uso de memoria GPU sin sacrificar capacidades, y logra un rendimiento comparable al de Transformer en diversas configuraciones al escalar el tamaño del modelo y la cantidad de tokens de entrenamiento.

A decoder-decoder LLM architecture that only caches key-value pairs once; it involves a cross-decoder stacked upon a self-decoder which efficiently encodes global key-value caches and the cross-encoder reuses the cache via cross-attention; this leads to a significant reduction in GPU memory use without sacrificing capabilities; achieves comparable performance to Transformer in various settings of scaling up model size and number of training token.

Resumen del paper (Abstract)

Presentamos YOCO, una arquitectura decoder-decoder para modelos de lenguaje grandes que solo almacena en caché los pares clave-valor una sola vez. Esta arquitectura consta de dos componentes: un cross-decoder apilado sobre un self-decoder. El self-decoder codifica de forma eficiente cachés globales de clave-valor (KV) que el cross-decoder reutiliza mediante cross-attention. El modelo completo se comporta como un Transformer solo de decoder, pero YOCO usa la caché una sola vez. Este diseño reduce de forma considerable la demanda de memoria GPU mientras mantiene la capacidad de atención global. Además, el flujo de cómputo permite terminar anticipadamente desde el prefilling sin cambiar la salida final, lo que acelera mucho la etapa de prefill. Según los resultados experimentales, YOCO logró un rendimiento favorable frente a Transformer en varias configuraciones al escalar el tamaño del modelo y la cantidad de tokens de entrenamiento. Además, YOCO se extendió hasta una longitud de contexto de 1M con una precisión de recuperación de aguja casi perfecta. Los resultados del profiling muestran que YOCO mejora de forma drástica la memoria de inferencia, la latencia de prefill y el throughput según la longitud de contexto y el tamaño del modelo. El código está disponible en https://aka.ms/YOCO.

We introduce a decoder-decoder architecture, YOCO, for large language models, which only caches key-value pairs once. It consists of two components, i.e., a cross-decoder stacked upon a self-decoder. The self-decoder efficiently encodes global key-value (KV) caches that are reused by the cross-decoder via cross-attention. The overall model behaves like a decoder-only Transformer, although YOCO only caches once. The design substantially reduces GPU memory demands, yet retains global attention capability. Additionally, the computation flow enables prefilling to early exit without changing the final output, thereby significantly speeding up the prefill stage. Experimental results demonstrate that YOCO achieves favorable performance compared to Transformer in various settings of scaling up model size and number of training tokens. We also extend YOCO to 1M context length with near-perfect needle retrieval accuracy. The profiling results show that YOCO improves inference memory, prefill latency, and throughput by orders of magnitude across context lengths and model sizes. Code is available at https://aka.ms/YOCO.

Enlace al paper

https://arxiv.org/abs/2405.05254

Leer más

https://github.com/microsoft/unilm/tree/master/YOCO

https://x.com/arankomatsuzaki/status/1788435838474355098

CAT3D: crear cualquier cosa en 3D con modelos de difusión multivista / CAT3D: Create Anything in 3D with Multi-View Diffusion Models

Presentación del paper

Se presenta un método para crear cualquier cosa en 3D simulando el proceso de captura del mundo real mediante un modelo de difusión multivista; puede generar nuevas vistas consistentes de una escena que pueden usarse como entrada para técnicas de reconstrucción 3D y producir una representación 3D renderizada en tiempo real; la escena de CAT3D puede generarse en menos de un minuto y se reporta que supera a los métodos existentes en tareas de creación de escenas 3D a partir de una sola imagen y de pocas vistas.

Presents a method for creating anything in 3D by simulating the real-world capture process using a multi-view diffusion model; it can generate consistent novel views of a scene which can be used as input to 3D reconstruction techniques to produce 3D representation rendered in real-time; the scene from CAT3D can be generated in less than one minute and is reported to outperform existing methods on single image and few-view 3D scene creation tasks.

Resumen del paper (Abstract)

Los avances en reconstrucción 3D han permitido una captura 3D de alta calidad, pero crear una escena 3D requiere recopilar de cientos a miles de imágenes. Unity presenta CAT3D, un método para crear cualquier cosa en 3D simulando este proceso de captura del mundo real con un modelo de difusión multivista. Dado cualquier número de imágenes de entrada y un conjunto de nuevos puntos de vista objetivo, el modelo de Unity genera nuevas vistas de la escena altamente consistentes. Estas vistas generadas pueden usarse como entrada para técnicas robustas de reconstrucción 3D y producir representaciones 3D que pueden renderizarse desde cualquier punto de vista en tiempo real. CAT3D puede crear escenas 3D completas en apenas un minuto y supera a los métodos existentes en la creación de escenas 3D a partir de una sola imagen y de pocas vistas. Consulta los resultados y las demos interactivas en la página del proyecto (https://cat3d.github.io).

Advances in 3D reconstruction have enabled high-quality 3D capture, but require a user to collect hundreds to thousands of images to create a 3D scene. We present CAT3D, a method for creating anything in 3D by simulating this real-world capture process with a multi-view diffusion model. Given any number of input images and a set of target novel viewpoints, our model generates highly consistent novel views of a scene. These generated views can be used as input to robust 3D reconstruction techniques to produce 3D representations that can be rendered from any viewpoint in real-time. CAT3D can create entire 3D scenes in as little as one minute, and outperforms existing methods for single image and few-view 3D scene creation. See our project page for results and interactive demos at https://cat3d.github.io .

Este artículo fue resumido con un modelo GPT, por lo que puede contener errores; por favor consulta también el texto original al final. Si al leer encuentras contenido extraño o incorrecto, te agradeceríamos que nos lo hicieras saber en los comentarios. 🤗

⚠️Publicidad⚠️: ¿Te resultó útil este artículo recopilado por 🔥la comunidad de usuarios de PyTorch en Corea🇰🇷? Si te unes como miembro, te enviaremos por correo electrónico💌 los artículos principales. (Por defecto es Weekly, pero también puedes cambiarlo a Daily.)

[2024/05/13 ~ 05/19] Los principales papers de ML de esta semana (Top ML Papers of the Week)

GPT-4o

Introducción

Enlaces relacionados

Leer más

Gemini 1.5 Flash / Gemini 1.5 Flash

Introducción del paper

Resumen del paper (Abstract)

Enlace al paper

Leer más

Veo

Introducción

Enlaces relacionados

Leer más

Chameleon: modelos fundacionales de fusión temprana multimodal mixta / Chameleon: Mixed-Modal Early-Fusion Foundation Models

Introducción al paper

Resumen del paper (Abstract)

Enlace al paper

Leer más

¿Ajustar finamente a los LLM con nuevo conocimiento fomenta las alucinaciones? / Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?

Presentación del paper

Resumen del paper (Abstract)

Enlace al paper

Lectura adicional

Transferencia zero-shot de tokenizadores / Zero-Shot Tokenizer Transfer

Presentación del paper

Resumen del paper (Abstract)

Enlace del paper

Lectura adicional

WavCraft: edición y generación de audio con modelos de lenguaje grandes / WavCraft: Audio Editing and Generation with Large Language Models

Presentación del paper

Resumen del paper (Abstract)

Enlace al paper

Leer más

Flujo de trabajo de RLHF: del modelado de recompensas al RLHF en línea / RLHF Workflow: From Reward Modeling to Online RLHF

Introducción al paper

Resumen del paper (Abstract)

Enlace al paper

Leer más

Solo se cachea una vez: arquitecturas decoder-decoder para modelos de lenguaje / You Only Cache Once: Decoder-Decoder Architectures for Language Models

Introducción al paper

Resumen del paper (Abstract)

Enlace al paper

Leer más

CAT3D: crear cualquier cosa en 3D con modelos de difusión multivista / CAT3D: Create Anything in 3D with Multi-View Diffusion Models

Presentación del paper

Resumen del paper (Abstract)

Enlace al paper

Leer más

Texto original

Lecturas relacionadas

Aún no hay comentarios.