1 puntos por ninebow 2024-02-05 | Aún no hay comentarios. | Compartir por WhatsApp

Resumen

  • Hemos traducido automáticamente un artículo sobre los papers de ML que DAIR.AI publica cada semana.

  • Si observamos las tendencias de los papers seleccionados esta semana, destacan las investigaciones sobre los modelos de lenguaje de gran escala (Large Language Models, LLMs) y sus variantes. A partir de títulos como "OLMo", "Advances in Multimodal LLMs", "Corrective RAG", "LLMs for Mathematical Reasoning", "Compression Algorithms for LLMs", "MoE-LLaVA", "Rephrasing the Web", "Redefining Retrieval in RAG", "Hallucination in LVLMs" y "SliceGPT", se puede ver que hay una actividad intensa en estudios enfocados en mejorar el rendimiento de los modelos de lenguaje, ampliar sus aplicaciones y aumentar su eficiencia.

  • Esta tendencia de investigación puede interpretarse como el reflejo de los esfuerzos continuos de la academia y la industria por superar los límites de la tecnología de procesamiento del lenguaje y resolver problemas cada vez más complejos. En los últimos tiempos, los LLMs han ampliado su campo de aplicación más allá del simple procesamiento de texto hacia áreas como el razonamiento matemático complejo, el procesamiento de datos multimodales y la búsqueda y reconstrucción de información más sofisticadas. Además, debido al gran tamaño y la complejidad de estos modelos, técnicas como la compresión de modelos se están convirtiendo en elementos clave para desplegarlos y utilizarlos de forma más eficiente en entornos reales. Esta clase de tecnologías está ganando importancia, especialmente cuando se necesita operar modelos de gran escala con recursos relativamente limitados.

  • Además, las investigaciones sobre 'Multimodal LLMs' y 'MoE-LLaVA' representan avances en formas de procesar de manera integrada distintos tipos de datos además del texto (por ejemplo, imágenes, sonido, etc.), lo que muestra el potencial de que los sistemas de inteligencia artificial comprendan y aprovechen con mayor riqueza la información del mundo real. Como técnicas para aumentar la interpretabilidad y la confiabilidad de los modelos, 'Corrective RAG' y 'Redefining Retrieval in RAG' pueden verse como intentos de mejorar el proceso de razonamiento del modelo y la precisión de sus resultados, mientras que 'Hallucination in LVLMs' y 'Rephrasing the Web' son representativos de la investigación orientada a elevar la calidad del contenido generado por los modelos. En conjunto, todas estas tendencias se evalúan como señales que anticipan la llegada de sistemas de inteligencia artificial más inteligentes y sofisticados en el futuro cercano.


OLMo: acelerando la ciencia de los modelos de lenguaje / OLMo: Accelerating the Science of Language Models

Introducción al paper

  • Se presenta el modelo de lenguaje abierto (OLMo), un modelo de 7b parámetros que incluye código de entrenamiento abierto, datos abiertos, pesos completos del modelo, código de evaluación y código de fine-tuning, y que muestra un sólido rendimiento en muchas tareas generativas; también existe una versión más pequeña, olmo 1b.

    Introduces open language model (olmo), a 7b parameter model; it includes open training code, open data, full model weights, evaluation code, and fine-tuning code; it shows strong performance on many generative tasks; there is also a smaller version of it, olmo 1b.

Resumen del paper (Abstract)

  • Los modelos de lenguaje (LMs) se han vuelto omnipresentes tanto en la investigación de NLP como en los productos comerciales. A medida que su importancia comercial se ha disparado, los modelos más potentes se han vuelto cerrados, ocultos detrás de interfaces propietarias, sin revelar detalles importantes sobre sus datos de entrenamiento, arquitecturas y desarrollo. Dada la importancia de estos detalles para estudiar científicamente estos modelos, incluidos sus sesgos y riesgos potenciales, creemos que es esencial que la comunidad de investigación tenga acceso a LMs potentes y verdaderamente abiertos. Con ese fin, este informe técnico describe en detalle la primera versión de OLMo, un modelo de lenguaje abierto de última generación y realmente abierto, junto con su framework para construir y estudiar la ciencia del modelado del lenguaje. A diferencia de la mayoría de los esfuerzos anteriores, que solo publicaron los pesos del modelo y el código de inferencia, nosotros publicamos OLMo y todo el framework, incluidos los datos de entrenamiento y el código de entrenamiento y evaluación. Esperamos que esta publicación empodere y fortalezca a la comunidad de investigación abierta e inspire una nueva ola de innovación.

    Language models (LMs) have become ubiquitous in both NLP research and in commercial product offerings. As their commercial importance has surged, the most powerful models have become closed off, gated behind proprietary interfaces, with important details of their training data, architectures, and development undisclosed. Given the importance of these details in scientifically studying these models, including their biases and potential risks, we believe it is essential for the research community to have access to powerful, truly open LMs. To this end, this technical report details the first release of OLMo, a state-of-the-art, truly Open Language Model and its framework to build and study the science of language modeling. Unlike most prior efforts that have only released model weights and inference code, we release OLMo and the whole framework, including training data and training and evaluation code. We hope this release will empower and strengthen the open research community and inspire a new wave of innovation.

Enlace del paper

https://arxiv.org/abs/2402.00838

Leer más

https://x.com/omarsar0/status/1753080417530318872


MM-LLM: avances recientes en los modelos de lenguaje multimodales de gran escala / MM-LLMs: Recent Advances in MultiModal Large Language Models

Introducción al paper

  • Es un paper de revisión integral que describe las formulaciones de diseño de la arquitectura del modelo y del pipeline de entrenamiento en torno a los modelos de lenguaje multimodales de gran escala.

    A comprehensive survey outlining design formulations for model architecture and training pipeline around multimodal large language models.

Resumen del paper (Abstract)

  • Durante el último año, los modelos de lenguaje grandes multimodales (MM-LLM) han experimentado avances sustanciales, reforzando LLM ya existentes para admitir entradas o salidas multimodales mediante estrategias de entrenamiento rentables. Como resultado, estos modelos no solo preservan las capacidades inherentes de razonamiento y toma de decisiones de los LLM, sino que también permiten una amplia variedad de tareas multimodales. En este artículo, presentamos una encuesta integral con el objetivo de impulsar más investigación sobre los MM-LLM. En concreto, primero describimos formulaciones generales de diseño para la arquitectura del modelo y el pipeline de entrenamiento. Después, presentamos brevemente $26$ MM-LLM existentes, cada uno caracterizado por sus formulaciones específicas. Además, revisamos el rendimiento de los MM-LLM en los principales benchmarks y resumimos recetas clave de entrenamiento para mejorar la eficacia de los MM-LLM. Por último, exploramos direcciones prometedoras para los MM-LLM y, al mismo tiempo, mantenemos un sitio web de seguimiento en tiempo real sobre los desarrollos más recientes en este campo. Esperamos que esta encuesta contribuya al avance continuo del área de los MM-LLM.
    > In the past year, MultiModal Large Language Models (MM-LLMs) have undergone substantial advancements, augmenting off-the-shelf LLMs to support MM inputs or outputs via cost-effective training strategies. The resulting models not only preserve the inherent reasoning and decision-making capabilities of LLMs but also empower a diverse range of MM tasks. In this paper, we provide a comprehensive survey aimed at facilitating further research of MM-LLMs. Specifically, we first outline general design formulations for model architecture and training pipeline. Subsequently, we provide brief introductions of $26$ existing MM-LLMs, each characterized by its specific formulations. Additionally, we review the performance of MM-LLMs on mainstream benchmarks and summarize key training recipes to enhance the potency of MM-LLMs. Lastly, we explore promising directions for MM-LLMs while concurrently maintaining a real-time tracking website for the latest developments in the field. We hope that this survey contributes to the ongoing advancement of the MM-LLMs domain.

Enlace al artículo

https://arxiv.org/abs/2401.13601

Leer más

https://x.com/omarsar0/status/1751705689964089616


CRAG: generación aumentada por recuperación correctiva / Corrective Retrieval Augmented Generation

Introducción al artículo

  • Para mejorar la robustez de la generación en sistemas RAG, se propone Corrective Retrieval Augmented Generation (CRAG). La idea central es implementar un componente de autocorrección para el recuperador y mejorar el aprovechamiento de los documentos recuperados para la generación aumentada. El evaluador de recuperación ayuda a evaluar la calidad general de los documentos recuperados dada una consulta, y el uso de búsqueda web junto con operaciones optimizadas de aprovechamiento del conocimiento puede mejorar la autocorrección automática y el uso eficiente de los documentos recuperados.
    > Proposes corrective retrieval augmented generation (CRAG) to improve the robustness of generation in a rag system; the core idea is to implement a self-correct component for the retriever and improve the utilization of retrieved documents for augmenting generation; the retrieval evaluator helps to assess the overall quality of retrieved documents given a query; using web search and optimized knowledge utilization operations can improve automatic self-correction and efficient utilization of retrieved documents.

Resumen del artículo (Abstract)

  • Los modelos de lenguaje grandes (LLM) inevitablemente presentan alucinaciones, ya que la precisión del texto generado no puede garantizarse únicamente con el conocimiento paramétrico que encapsulan. Aunque la generación aumentada por recuperación (RAG) es un complemento práctico para los LLM, depende en gran medida de la relevancia de los documentos recuperados, lo que genera preocupación sobre cómo se comporta el modelo si la recuperación falla. Para abordar esto, proponemos Corrective Retrieval Augmented Generation (CRAG) para mejorar la robustez de la generación. En particular, se diseñó un evaluador ligero de recuperación para evaluar la calidad general de los documentos recuperados para una consulta, devolviendo un grado de confianza con base en el cual se pueden activar distintas acciones de recuperación de conocimiento. Dado que la recuperación desde corpus estáticos y limitados solo puede devolver documentos subóptimos, las búsquedas web a gran escala se utilizan como una extensión para reforzar los resultados de recuperación. Además, se diseñó un algoritmo de descomponer y luego recomponer para los documentos recuperados, con el fin de enfocarse selectivamente en la información clave y filtrar la información irrelevante. CRAG es plug-and-play y puede integrarse sin problemas con varios enfoques basados en RAG. Los resultados experimentales en cuatro conjuntos de datos que cubren tareas de generación de formato corto y largo muestran que CRAG puede mejorar significativamente el rendimiento de los enfoques basados en RAG.
    > Large language models (LLMs) inevitably exhibit hallucinations since the accuracy of generated texts cannot be secured solely by the parametric knowledge they encapsulate. Although retrieval-augmented generation (RAG) is a practicable complement to LLMs, it relies heavily on the relevance of retrieved documents, raising concerns about how the model behaves if retrieval goes wrong. To this end, we propose the Corrective Retrieval Augmented Generation (CRAG) to improve the robustness of generation. Specifically, a lightweight retrieval evaluator is designed to assess the overall quality of retrieved documents for a query, returning a confidence degree based on which different knowledge retrieval actions can be triggered. Since retrieval from static and limited corpora can only return sub-optimal documents, large-scale web searches are utilized as an extension for augmenting the retrieval results. Besides, a decompose-then-recompose algorithm is designed for retrieved documents to selectively focus on key information and filter out irrelevant information in them. CRAG is plug-and-play and can be seamlessly coupled with various RAG-based approaches. Experiments on four datasets covering short- and long-form generation tasks show that CRAG can significantly improve the performance of RAG-based approaches.

Enlace al artículo

https://arxiv.org/abs/2401.15884

Leer más

https://x.com/omarsar0/status/1752173216942944556


Modelos de lenguaje grandes para el razonamiento matemático: avances y desafíos / Large Language Models for Mathematical Reasoning: Progresses and Challenges

Introducción del artículo

  • Presenta una visión general del desarrollo de la investigación en machine learning para el razonamiento matemático y analiza avances, capacidades, limitaciones y aplicaciones para inspirar la investigación continua sobre machine learning para razonamiento matemático.
    > Introduces an overview of research developments in llms for mathematical reasoning; discusses advancements, capabilities, limitations, and applications to inspire ongoing research on llms for mathematics.

Resumen (Abstract)

  • El razonamiento matemático sirve como piedra angular para evaluar las capacidades cognitivas fundamentales de la inteligencia humana. En tiempos recientes, ha habido un notable aumento en el desarrollo de modelos de lenguaje grandes (LLM) orientados a la resolución automatizada de problemas matemáticos. Sin embargo, el panorama de los tipos de problemas matemáticos es vasto y variado, y las técnicas orientadas a LLM se están evaluando en diversos conjuntos de datos y entornos. Esta diversidad dificulta distinguir los verdaderos avances y obstáculos dentro de este campo en rápido crecimiento. Esta encuesta busca abordar cuatro dimensiones clave: i) una exploración integral de los diversos problemas matemáticos y sus correspondientes conjuntos de datos que se han investigado; ii) un examen del espectro de técnicas orientadas a LLM que se han propuesto para la resolución de problemas matemáticos; iii) una visión general de los factores y preocupaciones que afectan a los LLM al resolver matemáticas; y iv) una aclaración de los desafíos persistentes dentro de este dominio. Hasta donde sabemos, esta encuesta se sitúa como uno de los primeros exámenes extensos del panorama de los LLM en el ámbito de las matemáticas, proporcionando una perspectiva holística sobre el estado actual, los logros y los desafíos futuros en este campo que evoluciona rápidamente.
    > Mathematical reasoning serves as a cornerstone for assessing the fundamental cognitive capabilities of human intelligence. In recent times, there has been a notable surge in the development of Large Language Models (LLMs) geared towards the automated resolution of mathematical problems. However, the landscape of mathematical problem types is vast and varied, with LLM-oriented techniques undergoing evaluation across diverse datasets and settings. This diversity makes it challenging to discern the true advancements and obstacles within this burgeoning field. This survey endeavors to address four pivotal dimensions: i) a comprehensive exploration of the various mathematical problems and their corresponding datasets that have been investigated; ii) an examination of the spectrum of LLM-oriented techniques that have been proposed for mathematical problem-solving; iii) an overview of factors and concerns affecting LLMs in solving math; and iv) an elucidation of the persisting challenges within this domain. To the best of our knowledge, this survey stands as one of the first extensive examinations of the landscape of LLMs in the realm of mathematics, providing a holistic perspective on the current state, accomplishments, and future challenges in this rapidly evolving field.

Enlace al artículo

https://arxiv.org/abs/2402.00157

Leer más

https://x.com/omarsar0/status/1753424518171738194


Encuesta integral sobre algoritmos de compresión para modelos de lenguaje / A Comprehensive Survey of Compression Algorithms for Language Models

Introducción del artículo

  • Aborda algoritmos de compresión como pruning, quantization, knowledge distillation, aproximación de bajo rango, parameter sharing y diseño eficiente de arquitecturas.
    > Covers compression algorithms like pruning, quantization, knowledge distillation, low-rank approximation, parameter sharing, and efficient architecture design.

Resumen del artículo (Abstract)

  • ¿Cómo podemos comprimir modelos de lenguaje sin sacrificar la precisión? La cantidad de algoritmos de compresión para modelos de lenguaje está creciendo rápidamente para aprovechar los notables avances recientes en estos modelos sin sufrir los efectos secundarios derivados de su enorme tamaño, como el aumento de las emisiones de carbono y los altos costos de mantenimiento. Aunque numerosos algoritmos de compresión han mostrado avances notables en la compresión de modelos de lenguaje, irónicamente se vuelve difícil captar las tendencias emergentes e identificar los conceptos fundamentales que las sustentan debido al exceso de algoritmos. En este artículo, se revisan y resumen diversos algoritmos de compresión, incluidos pruning, quantization, knowledge distillation, aproximación de bajo rango, parameter sharing y diseño eficiente de arquitecturas. No solo se resume la tendencia general de los diversos algoritmos de compresión, sino que también se seleccionan algoritmos representativos y se ofrece un análisis en profundidad de ellos. Se analiza el valor de cada categoría de algoritmos de compresión y las propiedades deseables de los algoritmos de compresión de bajo costo, cuyo impacto ha crecido significativamente con la aparición de los grandes modelos de lenguaje. Por último, se presentan temas de investigación prometedores para el futuro con base en los resultados de esta revisión.
    > How can we compress language models without sacrificing accuracy? The number of compression algorithms for language models is rapidly growing to benefit from remarkable advances of recent language models without side effects due to the gigantic size of language models, such as increased carbon emissions and expensive maintenance fees. While numerous compression algorithms have shown remarkable progress in compressing language models, it ironically becomes challenging to capture emerging trends and identify the fundamental concepts underlying them due to the excessive number of algorithms. In this paper, we survey and summarize diverse compression algorithms including pruning, quantization, knowledge distillation, low-rank approximation, parameter sharing, and efficient architecture design. We not only summarize the overall trend of diverse compression algorithms but also select representative algorithms and provide in-depth analyses of them. We discuss the value of each category of compression algorithms, and the desired properties of low-cost compression algorithms which have a significant impact due to the emergence of large language models. Finally, we introduce promising future research topics based on our survey results.

Enlace del artículo

https://arxiv.org/abs/2401.15347

Leer más

https://x.com/omarsar0/status/1752746770377974072


MoE-LLaVA: mezcla de expertos para grandes modelos de visión-lenguaje / MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

Introducción del artículo

  • Este enfoque emplea ajuste con mezcla de expertos para grandes modelos de visión-lenguaje, construyendo un modelo disperso con una reducción sustancial de parámetros y un costo computacional constante; además, ayuda a abordar la degradación del rendimiento asociada con el aprendizaje multimodal y la dispersión del modelo.
    > Employs mixture of experts tuning for large vision-language models which constructs a sparse model with a substantial reduction in parameters with a constant computational cost; this approach also helps to address performance degradation associated with multi-modal learning and model sparsity.

Resumen del artículo (Abstract)

  • En el caso de los modelos grandes de visión-lenguaje (LVLM), escalar el modelo puede mejorar el rendimiento de forma efectiva. Sin embargo, ampliar los parámetros del modelo incrementa considerablemente los costos de entrenamiento e inferencia, ya que todos los parámetros del modelo se activan para cada token durante el cómputo. En este estudio se propone MoE-tuning como una nueva estrategia de entrenamiento para LVLM, que permite construir un modelo disperso con una enorme cantidad de parámetros pero con un costo computacional constante, y que además resuelve eficazmente la degradación de rendimiento normalmente asociada con el aprendizaje multimodal y la dispersidad del modelo. Asimismo, se presenta el framework MoE-LLaVA, una arquitectura LVLM dispersa basada en MoE. Este framework activa únicamente a los expertos top-k a través de routers durante el despliegue, mientras que los expertos restantes permanecen inactivos. A través de amplios experimentos de Unity, se confirmó la excelente capacidad de MoE-LLaVA para la comprensión visual y su potencial para reducir las alucinaciones en la salida del modelo. Sorprendentemente, con solo 3 mil millones de parámetros activados de forma dispersa, MoE-LLaVA mostró un rendimiento comparable al de LLaVA-1.5-7B en diversos datasets de comprensión visual, e incluso superó a LLaVA-1.5-13B en benchmarks de alucinación de objetos. Con MoE-LLaVA, Unity busca establecer una línea base para los LVLM dispersos y ofrecer insights valiosos para futuras investigaciones orientadas al desarrollo de sistemas de aprendizaje multimodal más eficientes y efectivos. El código está disponible en \url{https://github.com/PKU-YuanGroup/MoE-LLaVA}.
    > For Large Vision-Language Models (LVLMs), scaling the model can effectively improve performance. However, expanding model parameters significantly increases the training and inferring costs, as all model parameters are activated for each token in the calculation. In this work, we propose a novel training strategy MoE-tuning for LVLMs, which can constructing a sparse model with an outrageous number of parameter but a constant computational cost, and effectively addresses the performance degradation typically associated with multi-modal learning and model sparsity. Furthermore, we present the MoE-LLaVA framework, a MoE-based sparse LVLM architecture. This framework uniquely activates only the top-k experts through routers during deployment, keeping the remaining experts inactive. Our extensive experiments highlight the excellent capabilities of MoE-LLaVA in visual understanding and its potential to reduce hallucinations in model outputs. Remarkably, with just 3 billion sparsely activated parameters, MoE-LLaVA demonstrates performance comparable to the LLaVA-1.5-7B on various visual understanding datasets and even surpasses the LLaVA-1.5-13B in object hallucination benchmarks. Through MoE-LLaVA, we aim to establish a baseline for sparse LVLMs and provide valuable insights for future research in developing more efficient and effective multi-modal learning systems. Code is released at \url{https://github.com/PKU-YuanGroup/MoE-LLaVA}.

Enlace al artículo

https://arxiv.org/abs/2401.15947

Leer más

https://github.com/PKU-YuanGroup/MoE-LLaVA

https://x.com/LinBin46984/status/1753403875531375003


Reescribiendo la web: una receta para el modelado de lenguaje eficiente en cómputo y datos / Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

Introducción al artículo

  • Al preentrenar conjuntamente IA sobre reformulaciones reales y sintéticas usando un modelo de ajuste por instrucciones ya existente al que se le indica parafrasear documentos web en estilos y formatos específicos, como “como Wikipedia” o “formato de preguntas y respuestas”, se puede acelerar el preentrenamiento hasta 3 veces, mejorar la perplejidad y aumentar la precisión de question answering zero-shot en muchas tareas.
    > Uses an off-the-shelf instruction-tuned model prompted to paraphrase web documents in specific styles and formats such as “like wikipedia” or “question-answer format” to jointly pre-train llms on real and synthetic rephrases; it speeds up pre-training by ~3x, improves perplexity, and improves zero-shot question answering accuracy on many tasks.

Resumen del artículo (Abstract)

  • Los modelos de lenguaje de gran escala suelen entrenarse a partir de enormes recopilaciones de la web, que por lo general son desestructuradas, ruidosas y están mal redactadas. Las leyes de escalado actuales muestran que aprender de esos datos requiere abundancia tanto de cómputo como de datos, y ambas crecen con el tamaño del modelo que se está entrenando. Esto no es viable debido tanto a los enormes costos y tiempos de cómputo asociados con el preentrenamiento como a la inminente escasez de datos de alta calidad en la web. En este trabajo, se propone Web Rephrase Augmented Pre-training ($\textbf{WRAP}$), que utiliza un modelo instruction-tuned ya disponible al que se le pide parafrasear documentos de la web en estilos específicos, como "al estilo Wikipedia" o en "formato de pregunta y respuesta", para preentrenar conjuntamente LLMs con reformulaciones reales y sintéticas. Primero, muestran que usar WRAP en el dataset C4, que es naturalmente ruidoso, acelera el preentrenamiento en $\sim3x$. Con el mismo presupuesto de cómputo para preentrenamiento, mejora la perplejidad en más de un 10% en promedio en distintos subconjuntos de The Pile, y mejora la exactitud en respuestas de preguntas zero-shot en 13 tareas en más de un 2%. Segundo, investigan el impacto del estilo de reformulación en el rendimiento del modelo, ofreciendo ideas sobre cómo la composición de los datos de entrenamiento puede afectar el desempeño de los LLMs en escenarios OOD. Las mejoras obtenidas se atribuyen a que los datos sintéticos reformulados tienen mayor utilidad que los datos reales por sí solos porque (i) incorporan diversidad de estilos que refleja de cerca el estilo de evaluación downstream y (ii) tienen una "calidad" mayor que los datos extraídos de la web.
    > Large language models are trained on massive scrapes of the web, which are often unstructured, noisy, and poorly phrased. Current scaling laws show that learning from such data requires an abundance of both compute and data, which grows with the size of the model being trained. This is infeasible both because of the large compute costs and duration associated with pre-training, and the impending scarcity of high-quality data on the web. In this work, we propose Web Rephrase Augmented Pre-training ($\textbf{WRAP}$) that uses an off-the-shelf instruction-tuned model prompted to paraphrase documents on the web in specific styles such as "like Wikipedia" or in "question-answer format" to jointly pre-train LLMs on real and synthetic rephrases. First, we show that using WRAP on the C4 dataset, which is naturally noisy, speeds up pre-training by $\sim3x$. At the same pre-training compute budget, it improves perplexity by more than 10% on average across different subsets of the Pile, and improves zero-shot question answer accuracy across 13 tasks by more than 2%. Second, we investigate the impact of the re-phrasing style on the performance of the model, offering insights into how the composition of the training data can impact the performance of LLMs in OOD settings. Our gains are attributed to the fact that re-phrased synthetic data has higher utility than just real data because it (i) incorporates style diversity that closely reflects downstream evaluation style, and (ii) has higher 'quality' than web-scraped data.

Enlace al artículo

https://arxiv.org/abs/2401.16380

Leer más

https://x.com/pratyushmaini/status/1752337225097076809


El poder del ruido: redefiniendo la recuperación para sistemas RAG / The Power of Noise: Redefining Retrieval for RAG Systems

Introducción del artículo

  • Un estudio centrado en los componentes necesarios para mejorar el componente de recuperación de un sistema RAG; confirma que la posición de la información relevante debe colocarse cerca de la consulta, y que de no ser así al modelo le costará prestar atención a esa información; sorprendentemente, encuentra que los documentos relacionados no necesariamente conducen a una mejora del rendimiento del sistema RAG; y, de forma aún más inesperada, los documentos irrelevantes y ruidosos también pueden ayudar a aumentar la precisión si se colocan correctamente.
    > a study that focuses on the components needed to improve the retrieval component of a rag system; confirms that the position of relevant information should be placed near the query, the model will struggle to attend to the information if this is not the case; surprisingly, it finds that related documents don't necessarily lead to improved performance for the rag system; even more unexpectedly, irrelevant and noisy documents can help drive up accuracy if placed correctly.

Resumen del artículo (Abstract)

  • Los sistemas de generación aumentada por recuperación (RAG) representan un avance significativo frente a los modelos de lenguaje grandes (LLM) tradicionales. Los sistemas RAG mejoran su capacidad de generación al incorporar datos externos recuperados mediante una fase de recuperación de información (IR), superando las limitaciones de los LLM estándar, que están restringidos a su conocimiento preentrenado y a una ventana de contexto limitada. La mayor parte de la investigación en esta área se ha concentrado principalmente en el aspecto generativo de los LLM dentro de los sistemas RAG. Este estudio llena ese vacío mediante un análisis exhaustivo y crítico de la influencia de los componentes de IR en los sistemas RAG. Este artículo analiza qué características debe tener un recuperador para formular prompts eficaces en RAG, centrándose en el tipo de documentos que deben recuperarse. Se evalúan diversos elementos, como la relevancia de los documentos con respecto al prompt, su posición y la cantidad incluida en el contexto. Los hallazgos revelan, entre otros insights, que incluir documentos irrelevantes puede mejorar inesperadamente el rendimiento en más de un 30% en precisión, contradiciendo la suposición inicial de una disminución en la calidad. Estos resultados subrayan la necesidad de desarrollar estrategias especializadas para integrar la recuperación con los modelos de generación de lenguaje, sentando así las bases para futuras investigaciones en este campo.
    > Retrieval-Augmented Generation (RAG) systems represent a significant advancement over traditional Large Language Models (LLMs). RAG systems enhance their generation ability by incorporating external data retrieved through an Information Retrieval (IR) phase, overcoming the limitations of standard LLMs, which are restricted to their pre-trained knowledge and limited context window. Most research in this area has predominantly concentrated on the generative aspect of LLMs within RAG systems. Our study fills this gap by thoroughly and critically analyzing the influence of IR components on RAG systems. This paper analyzes which characteristics a retriever should possess for an effective RAG's prompt formulation, focusing on the type of documents that should be retrieved. We evaluate various elements, such as the relevance of the documents to the prompt, their position, and the number included in the context. Our findings reveal, among other insights, that including irrelevant documents can unexpectedly enhance performance by more than 30% in accuracy, contradicting our initial assumption of diminished quality. These results underscore the need for developing specialized strategies to integrate retrieval with language generation models, thereby laying the groundwork for future research in this field.

Enlace al artículo

https://arxiv.org/abs/2401.14887

Lectura adicional

https://x.com/omarsar0/status/1751803310267314509


Artículo de encuesta sobre las alucinaciones en los grandes modelos visión-lenguaje / A Survey on Hallucination in Large Vision-Language Models

Introducción al artículo

  • Analiza el problema de las alucinaciones en los grandes modelos visión-lenguaje (LVLM; Large Vision-Language Model) y las técnicas para mitigarlas; presenta métodos de evaluación y benchmarks de alucinaciones en LVLM; y ofrece consejos y un buen análisis sobre las causas de las alucinaciones en LVLM y posibles formas de mitigarlas.
    > Discusses hallucination issues and techniques to mitigate hallucination in large vision-language models (lvlm); it introduces lvlm hallucination evaluation methods and benchmarks; provides tips and a good analysis of the causes of lvlm hallucinations and potential ways to mitigate them.

Resumen del artículo (Abstract)

  • El desarrollo reciente de los grandes modelos visión-lenguaje (LVLM) ha atraído cada vez más atención dentro del panorama de la IA por su potencial de implementación práctica. Sin embargo, las "alucinaciones", o más específicamente, la desalineación entre el contenido visual factual y la generación textual correspondiente, plantean un desafío significativo para el uso de los LVLM. En esta encuesta integral, analizamos las alucinaciones relacionadas con los LVLM con el objetivo de establecer una visión general y facilitar futuras estrategias de mitigación. Nuestro examen comienza con una aclaración del concepto de alucinaciones en los LVLM, presentando una variedad de síntomas de alucinación y destacando los desafíos únicos inherentes a las alucinaciones en LVLM. Posteriormente, describimos los benchmarks y las metodologías diseñados específicamente para evaluar las alucinaciones propias de los LVLM. Además, profundizamos en una investigación de las causas raíz de estas alucinaciones, incluyendo insights provenientes de los datos de entrenamiento y de los componentes del modelo. También revisamos críticamente los métodos existentes para mitigar las alucinaciones. Para concluir esta encuesta, se analizan las preguntas abiertas y las direcciones futuras relacionadas con las alucinaciones dentro de los LVLM.
    > Recent development of Large Vision-Language Models (LVLMs) has attracted growing attention within the AI landscape for its practical implementation potential. However, ``hallucination'', or more specifically, the misalignment between factual visual content and corresponding textual generation, poses a significant challenge of utilizing LVLMs. In this comprehensive survey, we dissect LVLM-related hallucinations in an attempt to establish an overview and facilitate future mitigation. Our scrutiny starts with a clarification of the concept of hallucinations in LVLMs, presenting a variety of hallucination symptoms and highlighting the unique challenges inherent in LVLM hallucinations. Subsequently, we outline the benchmarks and methodologies tailored specifically for evaluating hallucinations unique to LVLMs. Additionally, we delve into an investigation of the root causes of these hallucinations, encompassing insights from the training data and model components. We also critically review existing methods for mitigating hallucinations. The open questions and future directions pertaining to hallucinations within LVLMs are discussed to conclude this survey.

Enlace al artículo

https://arxiv.org/abs/2402.00253

Lectura adicional

https://x.com/omarsar0/status/1753449211931079101


SliceGPT: comprimir modelos de lenguaje grandes eliminando filas y columnas / SliceGPT: Compress Large Language Models by Deleting Rows and Columns

Introducción del artículo

  • Una nueva técnica de compresión de LLM que propone un esquema de dispersificación post-entrenamiento que reemplaza cada matriz de pesos por una matriz densa más pequeña; ayuda a reducir la dimensión de embedding de la red y puede eliminar hasta un 20% de los parámetros del modelo en los modelos Llama2-70B y Phi-2, conservando la mayor parte del rendimiento zero-shot de los modelos densos.
    > A new llm compression technique that proposes a post-training sparsification scheme that replaces each weight matrix with a smaller dense matrix; helps reduce the embedding dimension of the network and can remove up to 20% of model parameters for llama2-70b and phi-2 models while retaining most of the zero-shot performance of the dense models.

Resumen del artículo (Abstract)

  • Los modelos de lenguaje grandes se han convertido en la piedra angular del procesamiento de lenguaje natural, pero su uso conlleva costos sustanciales en términos de recursos de cómputo y memoria. La dispersificación ofrece una solución para aliviar estas restricciones de recursos, y trabajos recientes han demostrado que los modelos entrenados pueden dispersificarse a posteriori. Las técnicas de dispersificación existentes enfrentan desafíos porque requieren estructuras de datos adicionales y ofrecen una aceleración limitada con el hardware actual. En este artículo presentamos SliceGPT, un nuevo esquema de dispersificación post-entrenamiento que reemplaza cada matriz de pesos por una matriz más pequeña (densa), reduciendo la dimensión de embedding de la red. A través de una experimentación extensa, mostramos que SliceGPT puede eliminar hasta el 25% de los parámetros del modelo (incluidos los embeddings) en los modelos LLAMA2-70B, OPT 66B y Phi-2, mientras mantiene respectivamente el 99%, 99% y 90% del rendimiento en tareas zero-shot del modelo denso. Nuestros modelos recortados se ejecutan en menos GPUs y funcionan más rápido sin ninguna optimización adicional de código: en GPUs de consumo de 24GB reducimos el cómputo total para la inferencia en LLAMA2-70B al 64% del modelo denso; en GPUs A100 de 40GB lo reducimos al 66%. Ofrecemos una nueva perspectiva, la invariancia computacional en redes transformer, que hace posible SliceGPT y esperamos que inspire y habilite nuevas vías para reducir las demandas de memoria y cómputo de los modelos preentrenados. El código está disponible en: https://github.com/microsoft/TransformerCompression
    > Large language models have become the cornerstone of natural language processing, but their use comes with substantial costs in terms of compute and memory resources. Sparsification provides a solution to alleviate these resource constraints, and recent works have shown that trained models can be sparsified post-hoc. Existing sparsification techniques face challenges as they need additional data structures and offer constrained speedup with current hardware. In this paper we present SliceGPT, a new post-training sparsification scheme which replaces each weight matrix with a smaller (dense) matrix, reducing the embedding dimension of the network. Through extensive experimentation, we show that SliceGPT can remove up to 25% of the model parameters (including embeddings) for LLAMA2-70B, OPT 66B and Phi-2 models while maintaining 99%, 99% and 90% zero-shot task performance of the dense model respectively. Our sliced models run on fewer GPUs and run faster without any additional code optimization: on 24GB consumer GPUs we reduce the total compute for inference on LLAMA2-70B to 64% of that of the dense model; on 40GB A100 GPUs we reduce it to 66%. We offer a new insight, computational invariance in transformer networks, which enables SliceGPT and we hope it will inspire and enable future avenues to reduce memory and computation demands for pre-trained models. Code is available at: https://github.com/microsoft/TransformerCompression

Enlace al artículo

https://arxiv.org/abs/2401.15024v1

Leer más

https://github.com/microsoft/TransformerCompression

https://x.com/_akhaliq/status/1751796334531592496


Texto original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-c5e


⚠️Publicidad⚠️: ¿Te resultó útil este artículo recopilado por la comunidad de usuarios de PyTorch en Corea? Si te registras como miembro, te enviaremos los artículos principales por correo electrónico. (La configuración predeterminada es Weekly, pero también puedes cambiarla a Daily.)

Aún no hay comentarios.

Aún no hay comentarios.