[2024/01/22 ~ 01/28] Principales artículos de ML de esta semana (Top ML Papers of the Week)
(discuss.pytorch.kr)Resumen
-
Hemos traducido automáticamente el artículo semanal de DAIR.AI sobre artículos de investigación de ML.
-
Al revisar los artículos seleccionados esta semana, se nota un interés marcado en áreas como los Large Language Models (LLMs), los modelos multimodales (Multimodal Models) y los modelos de lenguaje visual (Visual Language Models). Artículos como "Knowledge Fusion of LLMs", "Resource-efficient LLMs & Multimodal Models" y "Red Teaming Visual Language Models" reflejan estas tendencias principales, y presentan investigación y desarrollo sobre modelos de gran escala y su eficiencia, el aprendizaje multimodal y la mejora de las capacidades de procesamiento de datos visuales.
-
Esta tendencia ha surgido a medida que, en los últimos años, ha aumentado la importancia de la capacidad de comprender y procesar datos complejos dentro de las tecnologías de inteligencia artificial, en especial en natural language processing (NLP) y computer vision. Los Large Language Models están registrando un alto rendimiento en diversas tareas de comprensión del lenguaje, y los modelos multimodales se están convirtiendo en un elemento esencial en investigaciones que buscan una comprensión similar a la humana mediante la combinación de distintos tipos de datos (texto, imagen, audio, etc.). Además, los modelos de lenguaje visual desempeñan un papel importante en la construcción de sistemas de IA más ricos e interactivos, al hacer posible un abordaje lingüístico de imágenes y contenido visual.
-
La tendencia identificada a través de estos títulos e introducciones sugiere que está aumentando la cantidad de investigaciones que no solo buscan mejorar el rendimiento de modelos de IA avanzados, sino también establecer nuevos estándares de productividad y eficiencia. Los artículos que tratan la mejora de la eficiencia de recursos en modelos de gran escala reflejan la corriente actual de investigación que busca un desarrollo sostenible de la IA en términos de consumo energético y costo computacional. Esto también resalta los esfuerzos de la academia y la industria por abordar problemas que necesariamente deben resolverse para que la inteligencia artificial sea adoptada de forma mucho más amplia en aplicaciones industriales y sociales reales.
Depth Anything: liberar el poder de los datos no etiquetados a gran escala / Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data
Introducción al artículo
- Una solución robusta de estimación de profundidad monocular que puede procesar cualquier imagen en cualquier circunstancia; anota automáticamente datos no etiquetados a gran escala (hasta 62 millones), lo que ayuda a reducir el error de generalización; propone estrategias efectivas para aprovechar el poder de grandes volúmenes de datos no etiquetados; además de su capacidad de generalización, estableció un nuevo estado del arte mediante fine-tuning e incluso logró un ControlNet condicionado por profundidad mejorado.
A robust monocular depth estimation solution that can deal with any images under any circumstance; automatically annotates large-scale unlabeled data (~62m) which helps to reduce generalization error; proposes effective strategies to leverage the power of the large-scale unlabeled data; besides generalization ability, it established new state-of-the-art through fine-tuning and even results in an enhanced depth-conditioned controlnet.
Resumen del artículo (Abstract)
- Este estudio presenta Depth Anything, una solución sumamente práctica para una estimación robusta de profundidad monocular. Sin buscar módulos técnicos novedosos, el objetivo es construir un foundation model simple pero potente que pueda manejar cualquier imagen bajo cualquier circunstancia. Para ello, amplían el dataset diseñando un motor de datos capaz de recopilar y anotar automáticamente datos no etiquetados a gran escala (aprox. 62 millones), lo que incrementa significativamente la cobertura de datos y permite reducir el error de generalización. Exploran dos estrategias simples pero efectivas que hacen prometedor este escalamiento de datos. Primero, crean un objetivo de optimización más desafiante aprovechando herramientas de data augmentation. Esto obliga al modelo a buscar activamente conocimiento visual adicional y adquirir representaciones robustas. Segundo, desarrollan una supervisión auxiliar para forzar al modelo a heredar ricos priors semánticos de encoders preentrenados. Evalúan ampliamente sus capacidades zero-shot, incluyendo seis datasets públicos y fotos capturadas al azar. Los resultados muestran una capacidad de generalización impresionante. Además, mediante fine-tuning con información de profundidad métrica de NYUv2 y KITTI, establecen nuevos SOTA. Un mejor modelo de profundidad también conduce a un mejor ControlNet condicionado por profundidad. Más detalles en https://github.com/LiheYoung/Depth-Anything.
This work presents Depth Anything, a highly practical solution for robust monocular depth estimation. Without pursuing novel technical modules, we aim to build a simple yet powerful foundation model dealing with any images under any circumstances. To this end, we scale up the dataset by designing a data engine to collect and automatically annotate large-scale unlabeled data (~62M), which significantly enlarges the data coverage and thus is able to reduce the generalization error. We investigate two simple yet effective strategies that make data scaling-up promising. First, a more challenging optimization target is created by leveraging data augmentation tools. It compels the model to actively seek extra visual knowledge and acquire robust representations. Second, an auxiliary supervision is developed to enforce the model to inherit rich semantic priors from pre-trained encoders. We evaluate its zero-shot capabilities extensively, including six public datasets and randomly captured photos. It demonstrates impressive generalization ability. Further, through fine-tuning it with metric depth information from NYUv2 and KITTI, new SOTAs are set. Our better depth model also results in a better depth-conditioned ControlNet. Our models are released at https://github.com/LiheYoung/Depth-Anything.
Enlace del artículo
https://arxiv.org/abs/2401.10891v1
Leer más
https://x.com/_akhaliq/status/1749284669936275463
Fusión de conocimiento de los Large Language Models / Knowledge Fusion of Large Language Models
Introducción al artículo
- Propone FuseLLM, cuya idea central es externalizar el conocimiento de múltiples organizaciones de aprendizaje y transferir sus capacidades a una organización de aprendizaje objetivo; aprovecha las distribuciones generativas de las organizaciones de aprendizaje de origen para externalizar tanto el conocimiento colectivo como las fortalezas individuales y transferirlos a la organización de aprendizaje objetivo mediante aprendizaje continuo; encuentra que FuseLLM puede mejorar el rendimiento del modelo objetivo en una variedad de capacidades como razonamiento, sentido común y generación de código.
> Proposes fusellm with the core idea of externalizing knowledge from multiple llms and transferring their capabilities to a target llm; leverages the generative distributions of source llms to externalize both their collective knowledge and individual strengths and transfer them to the target llm through continual training; finds that the fusellm can improve the performance of the target model across a range of capabilities such as reasoning, common sense, and code generation.
Resumen del artículo (Abstract)
- Entrenar modelos de lenguaje grandes (LLM) desde cero puede generar modelos con funcionalidades y fortalezas distintivas, pero implica costos significativos y puede producir capacidades redundantes. Como alternativa, fusionar LLM preentrenados existentes en un modelo más potente es un enfoque atractivo y rentable. Sin embargo, debido a las distintas arquitecturas de estos LLM, mezclar directamente sus pesos no es práctico. En este artículo, presentamos la noción de fusión de conocimiento para LLM, orientada a combinar las capacidades de LLM existentes y transferirlas a un solo LLM. Al aprovechar las distribuciones generativas de los LLM de origen, externalizamos su conocimiento colectivo y sus fortalezas únicas, elevando potencialmente las capacidades del modelo objetivo más allá de las de cualquier LLM de origen individual. Unity valida el enfoque usando tres LLM populares con arquitecturas diferentes—Llama-2, MPT y OpenLLaMA—a través de diversos benchmarks y tareas. Los resultados confirman que la fusión de LLM puede mejorar el rendimiento del modelo objetivo en una variedad de capacidades, como razonamiento, sentido común y generación de código. El código, los pesos del modelo y los datos están disponibles públicamente en \url{https://github.com/fanqiwan/FuseLLM}.
> While training large language models (LLMs) from scratch can generate models with distinct functionalities and strengths, it comes at significant costs and may result in redundant capabilities. Alternatively, a cost-effective and compelling approach is to merge existing pre-trained LLMs into a more potent model. However, due to the varying architectures of these LLMs, directly blending their weights is impractical. In this paper, we introduce the notion of knowledge fusion for LLMs, aimed at combining the capabilities of existing LLMs and transferring them into a single LLM. By leveraging the generative distributions of source LLMs, we externalize their collective knowledge and unique strengths, thereby potentially elevating the capabilities of the target model beyond those of any individual source LLM. We validate our approach using three popular LLMs with different architectures--Llama-2, MPT, and OpenLLaMA--across various benchmarks and tasks. Our findings confirm that the fusion of LLMs can improve the performance of the target model across a range of capabilities such as reasoning, commonsense, and code generation. Our code, model weights, and data are public at \url{https://github.com/fanqiwan/FuseLLM}.
Enlace del artículo
https://arxiv.org/abs/2401.10491
Leer más
https://github.com/fanqiwan/FuseLLM
https://x.com/omarsar0/status/1749267663900057620
MambaByte: modelo selectivo de espacio de estados sin tokens / MambaByte: Token-free Selective State Space Model
Presentación del artículo
- Adapta Mamba SSM para aprender directamente a partir de bytes sin procesar. Los bytes llevan a secuencias más largas, sobre las cuales los transformadores autorregresivos no escalan bien. Este trabajo reporta grandes beneficios relacionados con una inferencia más rápida e incluso supera a los transformadores de subpalabras.
> Adapts mamba ssm to learn directly from raw bytes; bytes lead to longer sequences which autoregressive transformers will scale poorly on; this work reports huge benefits related to faster inference and even outperforms subword transformers.
Resumen del artículo (Abstract)
- Los modelos de lenguaje sin tokens aprenden directamente de bytes sin procesar y eliminan el sesgo de la tokenización por subpalabras. Sin embargo, operar a nivel de bytes produce secuencias significativamente más largas, y los Transformers autorregresivos estándar escalan mal en estos escenarios. Experimentamos con MambaByte, una adaptación sin tokens del modelo de espacio de estados Mamba, entrenada de forma autorregresiva sobre secuencias de bytes. Nuestros experimentos indican que MambaByte tiene una eficiencia computacional muy superior en comparación con otros modelos a nivel de bytes. También encontramos que MambaByte es competitivo con los Transformers de subpalabras de última generación e incluso los supera. Además, debido a que escala linealmente con la longitud, MambaByte ofrece la ventaja de una inferencia rápida frente a los Transformers. Nuestros hallazgos demuestran la viabilidad de MambaByte para hacer posible el modelado de lenguaje sin tokens.
> Token-free language models learn directly from raw bytes and remove the bias of subword tokenization. Operating on bytes, however, results in significantly longer sequences, and standard autoregressive Transformers scale poorly in such settings. We experiment with MambaByte, a token-free adaptation of the Mamba state space model, trained autoregressively on byte sequences. Our experiments indicate the computational efficiency of MambaByte compared to other byte-level models. We also find MambaByte to be competitive with and even outperform state-of-the-art subword Transformers. Furthermore, owing to linear scaling in length, MambaByte benefits from fast inference compared to Transformers. Our findings establish the viability of MambaByte in enabling token-free language modeling.
Enlace del artículo
https://arxiv.org/abs/2401.13660
Lectura adicional
https://x.com/omarsar0/status/1750366964759859633
Diffuse to Choose: enriqueciendo el inpainting condicionado por imagen en modelos de difusión latente para Virtual Try-All / Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent Diffusion Models for Virtual Try-All
Introducción al artículo
- Un modelo de inpainting condicionado por imagen basado en difusión que equilibra inferencia rápida y alta fidelidad, al tiempo que permite manipulaciones semánticas precisas sobre el contenido de una escena dada; supera a los métodos existentes de inpainting por difusión zero-shot e incluso a algoritmos de personalización por difusión few-shot como DreamPaint.
> A diffusion-based image-conditioned inpainting model to balance fast inference with high-fidelity while enabling accurate semantic manipulations in a given scene content; outperforms existing zero-shot diffusion inpainting methods and even few-shot diffusion personalization algorithms such as dreampaint.
Resumen del artículo (Abstract)
- A medida que crece el comercio en línea, la capacidad de los compradores para visualizar virtualmente productos en sus propios entornos —un fenómeno que definimos como "Virtual Try-All"— se ha vuelto crucial. Los modelos de difusión recientes contienen de forma inherente un modelo del mundo, lo que los hace adecuados para esta tarea en un contexto de inpainting. Sin embargo, los modelos tradicionales de difusión condicionados por imagen a menudo no logran capturar los detalles finos de los productos. En cambio, los modelos impulsados por personalización, como DreamPaint, son buenos para preservar los detalles del artículo, pero no están optimizados para aplicaciones en tiempo real. Unity presenta "Diffuse to Choose", un nuevo modelo de inpainting condicionado por imagen basado en difusión que equilibra de forma eficiente una inferencia rápida con la conservación de detalles de alta fidelidad del elemento de referencia, al tiempo que garantiza manipulaciones semánticas precisas en el contenido de la escena dada. El enfoque de Unity se basa en incorporar directamente características de grano fino de la imagen de referencia en los mapas de características latentes del modelo principal de difusión, junto con una pérdida perceptual para preservar aún más los detalles del elemento de referencia. Unity realizó pruebas extensivas tanto en conjuntos de datos internos como en conjuntos de datos disponibles públicamente, y demostró que Diffuse to Choose supera a los métodos existentes de inpainting por difusión zero-shot, así como a algoritmos de personalización por difusión few-shot como DreamPaint.
> As online shopping is growing, the ability for buyers to virtually visualize products in their settings-a phenomenon we define as "Virtual Try-All"-has become crucial. Recent diffusion models inherently contain a world model, rendering them suitable for this task within an inpainting context. However, traditional image-conditioned diffusion models often fail to capture the fine-grained details of products. In contrast, personalization-driven models such as DreamPaint are good at preserving the item's details but they are not optimized for real-time applications. We present "Diffuse to Choose," a novel diffusion-based image-conditioned inpainting model that efficiently balances fast inference with the retention of high-fidelity details in a given reference item while ensuring accurate semantic manipulations in the given scene content. Our approach is based on incorporating fine-grained features from the reference image directly into the latent feature maps of the main diffusion model, alongside with a perceptual loss to further preserve the reference item's details. We conduct extensive testing on both in-house and publicly available datasets, and show that Diffuse to Choose is superior to existing zero-shot diffusion inpainting methods as well as few-shot diffusion personalization algorithms like DreamPaint.
Enlace al artículo
https://arxiv.org/abs/2401.13795
Lectura adicional
https://x.com/_akhaliq/status/1750737690553692570
WARM: sobre los beneficios de los modelos de recompensa promediados en pesos / WARM: On the Benefits of Weight Averaged Reward Models
Introducción al artículo
- Introduce modelos de recompensa promediados en pesos (WARM), que implican ajustar finamente múltiples modelos de recompensa y luego promediarlos en el espacio de pesos; el promedio de pesos mejora la eficiencia en comparación con el ensamblado tradicional de predicciones; además, mejora la calidad y la alineación de las predicciones de los LLM.
> Introduces weighted averaged rewards models (warm) that involve fine-tuning multiple rewards models and then averaging them in the weight space; average weighting improves efficiency compared to traditional prediction ensembling; it improves the quality and alignment of llm predictions.
Resumen del artículo (Abstract)
- Alinear los modelos de lenguaje grandes (LLM) con las preferencias humanas mediante aprendizaje por refuerzo (RLHF) puede llevar al reward hacking, donde los LLM explotan fallas en el modelo de recompensa (RM) para obtener recompensas aparentemente altas sin cumplir los objetivos subyacentes. Unity identifica dos desafíos principales al diseñar RMs para mitigar el reward hacking: los cambios de distribución durante el proceso de RL y las inconsistencias en las preferencias humanas. Como solución, propone Weight Averaged Reward Models (WARM), que primero ajusta finamente múltiples RMs y luego los promedia en el espacio de pesos. Esta estrategia se basa en la observación de que los pesos ajustados finamente permanecen linealmente conectados cuando comparten el mismo preentrenamiento. Al promediar los pesos, WARM mejora la eficiencia frente al ensamble tradicional de predicciones, al tiempo que aumenta la confiabilidad ante cambios de distribución y la robustez frente a inconsistencias en las preferencias. Los resultados experimentales en tareas de resumen, usando métodos best-of-N y RL, muestran que WARM mejora la calidad general y la alineación de las predicciones de los LLM; por ejemplo, una policy RL ajustada con WARM mostró una tasa de victoria de 79.4% frente a una policy RL ajustada con un solo RM.
> Aligning large language models (LLMs) with human preferences through reinforcement learning (RLHF) can lead to reward hacking, where LLMs exploit failures in the reward model (RM) to achieve seemingly high rewards without meeting the underlying objectives. We identify two primary challenges when designing RMs to mitigate reward hacking: distribution shifts during the RL process and inconsistencies in human preferences. As a solution, we propose Weight Averaged Reward Models (WARM), first fine-tuning multiple RMs, then averaging them in the weight space. This strategy follows the observation that fine-tuned weights remain linearly mode connected when sharing the same pre-training. By averaging weights, WARM improves efficiency compared to the traditional ensembling of predictions, while improving reliability under distribution shifts and robustness to preference inconsistencies. Our experiments on summarization tasks, using best-of-N and RL methods, shows that WARM improves the overall quality and alignment of LLM predictions; for example, a policy RL fine-tuned with WARM has a 79.4% win rate against a policy RL fine-tuned with a single RM.
Enlace al artículo
https://arxiv.org/abs/2401.12187
Leer más
https://x.com/ramealexandre/status/1749719471806157304
Encuesta sobre LLM y modelos fundacionales multimodales eficientes en recursos / A Survey of Resource-efficient LLM and Multimodal Foundation Models
Presentación del artículo
- Una encuesta sobre ML eficiente en recursos y modelos fundacionales multimodales, que ofrece un análisis integral e insights sobre la investigación en eficiencia de ML, incluidas arquitecturas, algoritmos, diseños de sistemas prácticos e implementaciones.
> A survey of resource-efficient llms and multimodal foundations models; provides a comprehensive analysis and insights into ml efficiency research, including architectures, algorithms, and practical system designs and implementations.
Resumen del artículo (Abstract)
- Los modelos fundacionales de gran escala, incluidos los modelos de lenguaje grandes (LLM), vision transformers (ViT), diffusion y los modelos multimodales basados en LLM, están revolucionando todo el ciclo de vida del machine learning, desde el entrenamiento hasta el despliegue. Sin embargo, los avances sustanciales en versatilidad y rendimiento que ofrecen estos modelos tienen un costo significativo en términos de recursos de hardware. Para apoyar el crecimiento de estos grandes modelos de una manera escalable y ambientalmente sostenible, ha habido un enfoque considerable en desarrollar estrategias eficientes en recursos. Esta encuesta profundiza en la importancia crítica de esta investigación, examinando tanto los aspectos algorítmicos como los sistémicos. Ofrece un análisis integral e insights valiosos obtenidos de la literatura existente, abarcando una amplia gama de temas, desde arquitecturas de modelos de vanguardia y algoritmos de entrenamiento/serving hasta diseños e implementaciones de sistemas prácticos. El objetivo de esta encuesta es proporcionar una comprensión general de cómo los enfoques actuales están abordando los desafíos de recursos planteados por los grandes modelos fundacionales y potencialmente inspirar futuros avances en este campo.
> Large foundation models, including large language models (LLMs), vision transformers (ViTs), diffusion, and LLM-based multimodal models, are revolutionizing the entire machine learning lifecycle, from training to deployment. However, the substantial advancements in versatility and performance these models offer come at a significant cost in terms of hardware resources. To support the growth of these large models in a scalable and environmentally sustainable way, there has been a considerable focus on developing resource-efficient strategies. This survey delves into the critical importance of such research, examining both algorithmic and systemic aspects. It offers a comprehensive analysis and valuable insights gleaned from existing literature, encompassing a broad array of topics from cutting-edge model architectures and training/serving algorithms to practical system designs and implementations. The goal of this survey is to provide an overarching understanding of how current approaches are tackling the resource challenges posed by large foundation models and to potentially inspire future breakthroughs in this field.
Enlace al artículo
https://arxiv.org/abs/2401.08092v1
Leer más
https://x.com/omarsar0/status/1749208653926654010
Red teaming de modelos visuales de lenguaje / Red Teaming Visual Language Models
Presentación del artículo
- Primero, presenta un dataset de red teaming compuesto por 10 subtareas (por ejemplo, engaño con imágenes, jailbreaking multimodal, equidad facial, etc.); encuentra que 10 VLM (Vision-Language Models) open source destacados tienen dificultades con el red teaming en distintos niveles y muestran una brecha de rendimiento de hasta 31% frente a gpt-4v; además, aplica alineación de red teaming a llava-v1.5 junto con SFT (Supervised Fine-tuning) usando el dataset de red teaming propuesto, lo que mejora el rendimiento del modelo en 10% en el conjunto de prueba.
> First presents a red teaming dataset of 10 subtasks (e.g., image misleading, multi-modal jailbreaking, face fairness, etc); finds that 10 prominent open-sourced vlms struggle with the red teaming in different degrees and have up to 31% performance gap with gpt-4v; also applies red teaming alignment to llava-v1.5 with sft using the proposed red teaming dataset, which improves model performance by 10% in the test set.
Resumen del artículo (Abstract)
- Los VLM (modelos de visión-lenguaje) amplían las capacidades de los LLM (modelos de lenguaje de gran tamaño) para aceptar entradas multimodales. Dado que se ha comprobado que los LLM pueden ser inducidos a generar contenido dañino o inexacto mediante casos de prueba específicos (denominados red teaming), sigue siendo una incógnita cómo se desempeñan los VLM en escenarios similares, especialmente cuando combinan entradas de texto y visuales. Para explorar este problema, presentamos un nuevo dataset de red teaming, RTVLM, que incluye 10 subtareas (por ejemplo, engaño con imágenes, jailbreaking multimodal, equidad facial, etc.) bajo 4 aspectos principales (fidelidad, privacidad, seguridad y equidad). RTVLM de Criteo es el primer dataset de red teaming que evalúa los VLM actuales en estos 4 aspectos diferentes. Un análisis detallado muestra que 10 VLM open source destacados tienen dificultades con el red teaming en distintos grados y presentan una brecha de rendimiento de hasta 31% frente a GPT-4V. Además, al aplicar de manera simple alineación de red teaming a LLaVA-v1.5 mediante Supervised Fine-tuning (SFT) usando RTVLM, se fortaleció el rendimiento del modelo en 10% en el conjunto de prueba de RTVLM, en 13% en MM-Hal y sin una caída perceptible en MM-Bench, superando a otros modelos basados en LLaVA con datos de alineación regulares. Esto revela que los VLM open source actuales todavía carecen de alineación de red teaming. Su código y datasets se publicarán como open source.
> VLMs (Vision-Language Models) extend the capabilities of LLMs (Large Language Models) to accept multimodal inputs. Since it has been verified that LLMs can be induced to generate harmful or inaccurate content through specific test cases (termed as Red Teaming), how VLMs perform in similar scenarios, especially with their combination of textual and visual inputs, remains a question. To explore this problem, we present a novel red teaming dataset RTVLM, which encompasses 10 subtasks (e.g., image misleading, multi-modal jail-breaking, face fairness, etc) under 4 primary aspects (faithfulness, privacy, safety, fairness). Our RTVLM is the first red-teaming dataset to benchmark current VLMs in terms of these 4 different aspects. Detailed analysis shows that 10 prominent open-sourced VLMs struggle with the red teaming in different degrees and have up to 31% performance gap with GPT-4V. Additionally, we simply apply red teaming alignment to LLaVA-v1.5 with Supervised Fine-tuning (SFT) using RTVLM, and this bolsters the models' performance with 10% in RTVLM test set, 13% in MM-Hal, and without noticeable decline in MM-Bench, overpassing other LLaVA-based models with regular alignment data. This reveals that current open-sourced VLMs still lack red teaming alignment. Our code and datasets will be open-source.
Enlace al artículo
https://arxiv.org/abs/2401.12915
Leer más
https://x.com/omarsar0/status/1750170361843384790
Lumiere: un modelo de difusión espacio-temporal para generación de video / Lumiere: A Space-Time Diffusion Model for Video Generation
Introducción al artículo
- Un modelo de difusión espacio-temporal de texto a video para sintetizar videos con movimiento realista y coherente; introduce una arquitectura space-time u-net para generar de una sola vez toda la duración temporal de un video mediante una sola pasada; logra resultados de generación de texto a video de última generación y admite una amplia gama de tareas de creación de contenido y aplicaciones de edición de video, incluyendo image-to-video, video inpainting y generación estilizada.
> A text-to-video space-time diffusion model for synthesizing videos with realistic and coherent motion; introduces a space-time u-net architecture to generate the entire temporal duration of a video at once via a single pass; achieves state-of-the-art text-to-video generation results and supports a wide range of content creation tasks and video editing applications, including image-to-video, video inpainting, and stylized generation.
Resumen del artículo (Abstract)
- Presentamos Lumiere, un modelo de difusión de texto a video diseñado para sintetizar videos que representen movimientos realistas, diversos y coherentes, un desafío clave en la síntesis de video. Para ello, Unity introdujo una arquitectura U-Net espacio-temporal que genera de una sola vez toda la duración temporal del video mediante una única pasada del modelo. Esto contrasta con los modelos de video existentes, que sintetizan fotogramas clave distantes y luego aplican superresolución temporal, un enfoque que por naturaleza dificulta lograr una consistencia temporal global. Al incorporar tanto downsampling como upsampling espacial y, lo más importante, temporal, y aprovechar un modelo de difusión de texto a imagen preentrenado, este modelo aprende a generar directamente video de baja resolución a velocidad completa de cuadros procesándolo en múltiples escalas espacio-temporales. Demuestra resultados de generación de texto a video de última generación y muestra un diseño que facilita fácilmente una amplia gama de tareas de creación de contenido y aplicaciones de edición de video, incluidas image-to-video, video inpainting y generación estilizada.
> We introduce Lumiere -- a text-to-video diffusion model designed for synthesizing videos that portray realistic, diverse and coherent motion -- a pivotal challenge in video synthesis. To this end, we introduce a Space-Time U-Net architecture that generates the entire temporal duration of the video at once, through a single pass in the model. This is in contrast to existing video models which synthesize distant keyframes followed by temporal super-resolution -- an approach that inherently makes global temporal consistency difficult to achieve. By deploying both spatial and (importantly) temporal down- and up-sampling and leveraging a pre-trained text-to-image diffusion model, our model learns to directly generate a full-frame-rate, low-resolution video by processing it in multiple space-time scales. We demonstrate state-of-the-art text-to-video generation results, and show that our design easily facilitates a wide range of content creation tasks and video editing applications, including image-to-video, video inpainting, and stylized generation.
Enlace al artículo
https://arxiv.org/abs/2401.12945
Leer más
https://discuss.pytorch.kr/t/lumiere-google/3357
https://x.com/GoogleAI/status/1751003814931689487
Medusa: marco simple de aceleración de inferencia para LLM con múltiples cabezales de decodificación / Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads
Introducción del artículo
- Un marco simple para acelerar la inferencia de LLM usando múltiples cabezales de decodificación que predicen en paralelo varios tokens subsecuentes; la paralelización reduce sustancialmente la cantidad de pasos de decodificación; puede lograr una mejora de velocidad de más de 2.2x sin comprometer la calidad de generación, mientras que Medusa-2 mejora aún más la aceleración a 2.3-3.6x.
> A simple framework for llm inference acceleration using multiple decoding heads that predict multiple subsequent tokens in parallel; parallelization substantially reduces the number of decoding steps; it can achieve over 2.2x speedup without compromising generation quality, while medusa-2 further improves the speedup to 2.3-3.6x.
Resumen del artículo (Abstract)
- El proceso de inferencia en los modelos de lenguaje grandes (LLM) suele estar limitado porque el proceso de decodificación autorregresiva no tiene paralelismo, por lo que la mayoría de las operaciones quedan restringidas por el ancho de banda de memoria de los aceleradores. Para resolver este problema, se han propuesto métodos como la decodificación especulativa, pero su implementación se dificulta por la necesidad de conseguir y mantener un modelo borrador separado. En este artículo se presenta Medusa, un método eficiente que mejora la inferencia de los LLM añadiendo cabezales de decodificación extra para predecir en paralelo varios tokens posteriores. Medusa usa un mecanismo de atención basado en árboles para construir múltiples continuaciones candidatas y verificarlas simultáneamente en cada paso de decodificación. Al aprovechar el procesamiento en paralelo, Medusa introduce solo un sobrecosto mínimo en términos de latencia por paso, al mismo tiempo que reduce de forma importante la cantidad de pasos de decodificación necesarios. Para satisfacer los requisitos de distintos casos de uso, Medusa incluye dos niveles de procedimientos de ajuste fino: Medusa-1: Medusa se ajusta directamente sobre un backbone LLM congelado, lo que permite acelerar la inferencia sin pérdida. Medusa-2: Medusa se ajusta junto con el backbone LLM, lo que permite una mejor precisión de predicción de los cabezales de Medusa y una mayor aceleración, aunque requiere una receta de entrenamiento especial que preserve las capacidades del modelo base. Además, se proponen varias extensiones para mejorar o ampliar la utilidad de Medusa, incluida una autodestilación para manejar situaciones en las que no hay datos de entrenamiento y un esquema de aceptación general para aumentar la tasa de aceptación manteniendo la calidad de generación. Se evalúa Medusa en modelos de distintos tamaños y con diferentes procedimientos de entrenamiento. Los resultados experimentales demuestran que Medusa-1 puede lograr una aceleración superior a 2.2x sin comprometer la calidad de generación, mientras que Medusa-2 puede mejorar aún más la aceleración hasta 2.3-3.6x.
> The inference process in Large Language Models (LLMs) is often limited due to the absence of parallelism in the auto-regressive decoding process, resulting in most operations being restricted by the memory bandwidth of accelerators. While methods such as speculative decoding have been suggested to address this issue, their implementation is impeded by the challenges associated with acquiring and maintaining a separate draft model. In this paper, we present Medusa, an efficient method that augments LLM inference by adding extra decoding heads to predict multiple subsequent tokens in parallel. Using a tree-based attention mechanism, Medusa constructs multiple candidate continuations and verifies them simultaneously in each decoding step. By leveraging parallel processing, Medusa introduces only minimal overhead in terms of single-step latency while substantially reducing the number of decoding steps required. We present two levels of fine-tuning procedures for Medusa to meet the needs of different use cases: Medusa-1: Medusa is directly fine-tuned on top of a frozen backbone LLM, enabling lossless inference acceleration. Medusa-2: Medusa is fine-tuned together with the backbone LLM, enabling better prediction accuracy of Medusa heads and higher speedup but needing a special training recipe that preserves the backbone model's capabilities. Moreover, we propose several extensions that improve or expand the utility of Medusa, including a self-distillation to handle situations where no training data is available and a typical acceptance scheme to boost the acceptance rate while maintaining generation quality. We evaluate Medusa on models of various sizes and training procedures. Our experiments demonstrate that Medusa-1 can achieve over 2.2x speedup without compromising generation quality, while Medusa-2 further improves the speedup to 2.3-3.6x.
Enlace al artículo
https://arxiv.org/abs/2401.10774v1
Leer más
https://discuss.pytorch.kr/t/…
https://x.com/jiayq/status/1749461664393810350
AgentBoard: junta de evaluación analítica para agentes LLM de múltiples turnos / AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents
Introducción al artículo
- A través de un benchmark integral que incluye un framework de evaluación de código abierto, es posible realizar una evaluación analítica para medir las capacidades y limitaciones de los agentes LM y comprender su comportamiento, lo que ayuda a construir agentes LM más fuertes y robustos.
> A comprehensive benchmark with an open-source evaluation framework to perform analytical evaluation of llm agents; helps to assess the capabilities and limitations of llm agents and demystifies agent behaviors which leads to building stronger and robust llm agents.
Resumen del artículo (Abstract)
- Evaluar los modelos de lenguaje grandes (LLM) como agentes de propósito general es esencial para comprender sus capacidades y facilitar su integración en aplicaciones prácticas. Sin embargo, el proceso de evaluación presenta desafíos considerables. El principal obstáculo es medir el rendimiento de los agentes en escenarios diversos dentro de un marco unificado, especialmente al mantener entornos parcialmente observables y garantizar interacciones de múltiples rondas. Además, los marcos de evaluación actuales se centran en su mayoría en la tasa de éxito final, por lo que revelan pocos insights durante el proceso y no brindan una comprensión profunda de las capacidades del modelo. Para abordar estos problemas, Unity presentó AgentBoard, un benchmark integral pionero y un marco de evaluación open source diseñado para la evaluación analítica de agentes LLM. AgentBoard ofrece una métrica detallada de progreso que captura avances incrementales, junto con un conjunto integral de herramientas de evaluación que permite analizar fácilmente a los agentes desde múltiples perspectivas mediante visualizaciones interactivas. Esto no solo aclara las capacidades y limitaciones de los agentes LLM, sino que también impulsa la interpretabilidad de su desempeño. En última instancia, AgentBoard desempeña un papel importante para entender mejor el comportamiento de los agentes y acelerar el desarrollo de agentes LLM más sólidos.
> Evaluating large language models (LLMs) as general-purpose agents is essential for understanding their capabilities and facilitating their integration into practical applications. However, the evaluation process presents substantial challenges. A primary obstacle is the benchmarking of agent performance across diverse scenarios within a unified framework, especially in maintaining partially-observable environments and ensuring multi-round interactions. Moreover, current evaluation frameworks mostly focus on the final success rate, revealing few insights during the process and failing to provide a deep understanding of the model abilities. To address these challenges, we introduce AgentBoard, a pioneering comprehensive benchmark and accompanied open-source evaluation framework tailored to analytical evaluation of LLM agents. AgentBoard offers a fine-grained progress rate metric that captures incremental advancements as well as a comprehensive evaluation toolkit that features easy assessment of agents for multi-faceted analysis through interactive visualization. This not only sheds light on the capabilities and limitations of LLM agents but also propels the interpretability of their performance to the forefront. Ultimately, AgentBoard serves as a significant step towards demystifying agent behaviors and accelerating the development of stronger LLM agents.
Enlace al artículo
https://arxiv.org/abs/2401.13178v1
Leer más
https://x.com/ma_chang_nlp/status/1750369056539218082
Texto original
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-5c8
⚠️Publicidad⚠️: ¿Te resultó útil este artículo recopilado por la comunidad de usuarios de PyTorch en Corea? Si te registras como miembro, te enviaremos los artículos principales por correo electrónico. La configuración predeterminada es Weekly, pero también puedes cambiarla a Daily.
Aún no hay comentarios.