7 puntos por ninebow 2024-01-01 | Aún no hay comentarios. | Compartir por WhatsApp

Resumen

  • Se ha traducido automáticamente un artículo sobre papers de ML publicados semanalmente por DAIR.AI.

  • Al revisar los papers seleccionados esta semana, en general parece haber una tendencia en la que predominan las investigaciones centradas en modelos de lenguaje de gran escala (Large Language Models, LLMs) como GPT-4. En particular, estos estudios se enfocan en aprovechar la nueva API de GPT-4, la capacidad de recuperación de hechos en los LLM y en cómo hacer que los LLM tengan mejores capacidades de búsqueda y mayor densidad de recuperación. También se incluyen temas sobre la resolución de problemas matemáticos basada en modelos de lenguaje y sobre cómo estos modelos pueden razonar.

  • Esta tendencia puede deberse a que los LLM siguen siendo un tema principal de investigación en el campo de la inteligencia artificial. Modelos como GPT-4 están ampliando sus posibilidades de uso en diversas aplicaciones gracias a sus sobresalientes capacidades de comprensión y generación de lenguaje, y continúan desarrollándose investigaciones para mejorar estas capacidades y aplicarlas de nuevas formas. El estudio de metodologías concretas para mejorar el rendimiento real y el análisis de casos de aplicación se están consolidando como áreas importantes de investigación, y los papers seleccionados esta semana parecen reflejar esta tendencia.

  • Por otro lado, también parece ser un tema popular la investigación orientada a evaluar y mejorar la comprensión y la capacidad de razonamiento de los LLM. Explorar, a partir de ello, cómo los agentes inteligentes pueden interactuar con los humanos de manera más natural y efectiva será una tarea muy importante en el campo de la inteligencia artificial. Se espera que investigar la mejora de la eficiencia y su aplicabilidad en la vida real ocupe un lugar importante en las tendencias futuras de investigación.


CogAgent: un modelo de lenguaje visual para agentes GUI / CogAgent: A Visual Language Model for GUI Agents

Introducción del paper

  • Presenta un modelo de lenguaje visual de 18 mil millones de parámetros especializado en comprensión y navegación de GUI, compatible con entradas de alta resolución (1120x1120), con capacidades en tareas como preguntas y respuestas visuales, grounding visual y agentes GUI, y que alcanzó el estado del arte en 5 benchmarks ricos en texto y 4 benchmarks generales de VQA.
    > Presents an 18 billion parameter visual language model specializing in gui understanding and navigation; supports high-resolution inputs (1120x1120) and shows abilities in tasks such as visual q&a, visual grounding, and gui agent; achieves state of the art on 5 text-rich and 4 general vqa benchmarks.

Resumen del paper (Abstract)

  • Las personas pasan una enorme cantidad de tiempo en dispositivos digitales a través de interfaces gráficas de usuario (GUI), como pantallas de computadoras o smartphones. Los modelos de lenguaje de gran escala (LLM) como ChatGPT pueden ayudar en tareas como redactar correos electrónicos, pero tienen dificultades para comprender e interactuar con las GUI, lo que limita su potencial para aumentar el nivel de automatización. En este paper, se presenta CogAgent, un modelo de lenguaje visual (VLM) de 18 mil millones de parámetros especializado en comprensión y navegación de GUI. Al utilizar tanto codificadores de imagen de baja como de alta resolución, CogAgent admite entradas con resolución de 11201120, lo que le permite reconocer elementos pequeños de la página y texto. Como modelo de lenguaje visual de propósito general, CogAgent alcanza rendimiento de nivel estado del arte en cinco benchmarks ricos en texto y cuatro benchmarks generales de VQA (VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, POPE). Usando únicamente capturas de pantalla como entrada, CogAgent supera a Mind2Web y AITW, enfoques basados en LLM que utilizan texto HTML extraído, tanto en tareas de navegación GUI en PC como en Android, llevando el estado del arte un paso más allá. El modelo y el código están disponibles en https://github.com/THUDM/CogVLM .
    > People are spending an enormous amount of time on digital devices through graphical user interfaces (GUIs), e.g., computer or smartphone screens. Large language models (LLMs) such as ChatGPT can assist people in tasks like writing emails, but struggle to understand and interact with GUIs, thus limiting their potential to increase automation levels. In this paper, we introduce CogAgent, an 18-billion-parameter visual language model (VLM) specializing in GUI understanding and navigation. By utilizing both low-resolution and high-resolution image encoders, CogAgent supports input at a resolution of 1120
    1120, enabling it to recognize tiny page elements and text. As a generalist visual language model, CogAgent achieves the state of the art on five text-rich and four general VQA benchmarks, including VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, and POPE. CogAgent, using only screenshots as input, outperforms LLM-based methods that consume extracted HTML text on both PC and Android GUI navigation tasks -- Mind2Web and AITW, advancing the state of the art. The model and codes are available at https://github.com/THUDM/CogVLM .

Enlace al paper

https://arxiv.org/abs/2312.08914

Leer más

https://x.com/cenyk1230/status/1739916469272789222


De Google Gemini a OpenAI Q* (Q-Star): una encuesta sobre la reconfiguración del panorama de investigación en inteligencia artificial (AI) generativa / From Google Gemini to OpenAI Q* (Q-Star): A Survey of Reshaping the Generative Artificial Intelligence (AI) Research Landscape

Introducción del paper

  • Este informe, que analiza más de 300 papers y resume los desarrollos de investigación que vale la pena seguir en el campo de la IA generativa, aborda los desafíos computacionales, la escalabilidad, las implicaciones en el mundo real y el potencial de la IA generativa para impulsar avances en áreas como salud, finanzas y educación.
    > Surveys 300+ papers and summarizes research developments to look at in the space of generative ai; it covers computational challenges, scalability, real-world implications, and the potential for gen ai to drive progress in fields like healthcare, finance, and education.

Resumen del paper (Abstract)

  • Esta encuesta integral exploró el panorama cambiante de la inteligencia artificial generativa (IA), con un enfoque específico en los impactos transformadores de la mezcla de expertos (MoE), el aprendizaje multimodal y los avances especulados hacia la inteligencia artificial general (AGI). El informe examinó críticamente el estado actual y la trayectoria futura de la inteligencia artificial generativa (IA), analizando cómo innovaciones como Gemini de Google y el esperado proyecto Q* de OpenAI están reconfigurando las prioridades de investigación y las aplicaciones en diversos ámbitos, incluido un análisis de su impacto en la taxonomía de la investigación en IA generativa. Evaluó los desafíos computacionales, la escalabilidad y las implicaciones en el mundo real de estas tecnologías, al tiempo que destacó su potencial para impulsar avances significativos en campos como la salud, las finanzas y la educación. También abordó los nuevos desafíos académicos planteados por la proliferación tanto de preprints sobre IA como de preprints generados por IA, examinando su impacto en el proceso de revisión por pares y en la comunicación académica. El estudio subrayó la importancia de incorporar métodos éticos y centrados en las personas en el desarrollo de IA, asegurando su alineación con las normas sociales y el bienestar, y trazó una estrategia para la investigación futura en IA enfocada en un uso equilibrado y consciente de MoE, la multimodalidad y la AGI en la IA generativa.
    > This comprehensive survey explored the evolving landscape of generative Artificial Intelligence (AI), with a specific focus on the transformative impacts of Mixture of Experts (MoE), multimodal learning, and the speculated advancements towards Artificial General Intelligence (AGI). It critically examined the current state and future trajectory of generative Artificial Intelligence (AI), exploring how innovations like Google's Gemini and the anticipated OpenAI Q* project are reshaping research priorities and applications across various domains, including an impact analysis on the generative AI research taxonomy. It assessed the computational challenges, scalability, and real-world implications of these technologies while highlighting their potential in driving significant progress in fields like healthcare, finance, and education. It also addressed the emerging academic challenges posed by the proliferation of both AI-themed and AI-generated preprints, examining their impact on the peer-review process and scholarly communication. The study highlighted the importance of incorporating ethical and human-centric methods in AI development, ensuring alignment with societal norms and welfare, and outlined a strategy for future AI research that focuses on a balanced and conscientious use of MoE, multimodality, and AGI in generative AI.

Enlace al paper

https://arxiv.org/abs/2312.10868

Leer más

https://x.com/omarsar0/status/1740119485011390558


PromptBench: biblioteca unificada para la evaluación de modelos de lenguaje a gran escala / PromptBench: A Unified Library for Evaluation of Large Language Models

Introducción al paper

  • Una biblioteca unificada compuesta por funciones de construcción de prompts, prompt engineering, carga de datasets y modelos, ataques adversariales mediante prompts, protocolos de evaluación dinámica y herramientas de análisis, que respalda la evaluación y el análisis integrales de los LLMs.
    > A unified library that supports comprehensive evaluation and analysis of llms; it consists of functionalities for prompt construction, prompt engineering, dataset and model loading, adversarial prompt attack, dynamic evaluation protocols, and analysis tools.

Resumen del paper (Abstract)

  • La evaluación de los modelos de lenguaje a gran escala (LLM) es crucial para medir su desempeño y mitigar posibles riesgos de seguridad. En este artículo, presentamos PromptBench, una biblioteca unificada para evaluar LLMs. Está compuesta por varios componentes clave que los investigadores pueden usar y extender fácilmente: construcción de prompts, prompt engineering, carga de datasets y modelos, ataques adversariales mediante prompts, protocolos de evaluación dinámica y herramientas de análisis. PromptBench está diseñada como una base de código abierta, general y flexible para fines de investigación, que puede facilitar estudios originales para crear nuevos benchmarks, desplegar aplicaciones downstream y diseñar nuevos protocolos de evaluación. El código está disponible en: https://github.com/microsoft/promptbench y seguirá recibiendo soporte continuo.
    > The evaluation of large language models (LLMs) is crucial to assess their performance and mitigate potential security risks. In this paper, we introduce PromptBench, a unified library to evaluate LLMs. It consists of several key components that are easily used and extended by researchers: prompt construction, prompt engineering, dataset and model loading, adversarial prompt attack, dynamic evaluation protocols, and analysis tools. PromptBench is designed to be an open, general, and flexible codebase for research purposes that can facilitate original study in creating new benchmarks, deploying downstream applications, and designing new evaluation protocols. The code is available at: https://github.com/microsoft/promptbench and will be continuously supported.

Enlace al paper

https://arxiv.org/abs/2312.07910v1

Leer más

https://x.com/omarsar0/status/1739360426134028631


Aprovechando las nuevas APIs de GPT-4 / Exploiting Novel GPT-4 APIs

Introducción al paper

  • Se realizó red teaming sobre tres funcionalidades expuestas en las APIs de GPT-4: ajuste fino, function calling y recuperación de conocimiento, y se obtuvieron estos hallazgos principales: 1) con ajuste fino usando apenas 15 ejemplos dañinos o 100 ejemplos benignos se pueden eliminar las salvaguardas centrales de GPT-4, 2) se puede hacer que los asistentes de GPT-4 revelen el esquema de function calling y ejecuten llamadas arbitrarias a funciones, y 3) la recuperación de conocimiento puede ser secuestrada inyectando instrucciones en los documentos de recuperación.
    > Performs red-teaming on three functionalities exposed in the gpt-4 apis: fine-tuning, function calling, and knowledge retrieval; main findings: 1) fine-tuning on as few as 15 harmful examples or 100 benign examples can remove core safeguards from gpt-4, 2) gpt-4 assistants divulge the function call schema and can be made to execute arbitrary function calls, and 3) knowledge retrieval can be hijacked by injecting instructions into retrieval documents.

Resumen del paper (Abstract)

  • Los ataques a modelos de lenguaje normalmente asumen uno de dos modelos de amenaza extremos: acceso white-box completo a los pesos del modelo, o acceso black-box limitado a una API de generación de texto. Sin embargo, las APIs del mundo real suelen ser más flexibles que solo la generación de texto: estas APIs exponen acceso de tipo "gray-box", lo que da lugar a nuevos vectores de amenaza. Para explorar esto, hicimos red teaming sobre tres nuevas funcionalidades expuestas en las APIs de GPT-4: ajuste fino, function calling y recuperación de conocimiento. Encontramos que ajustar finamente un modelo con apenas 15 ejemplos dañinos o 100 ejemplos benignos puede eliminar las salvaguardas centrales de GPT-4, permitiendo una variedad de salidas dañinas. Además, encontramos que los asistentes de GPT-4 revelan fácilmente el esquema de function calling y pueden ser inducidos a ejecutar llamadas arbitrarias a funciones. Por último, encontramos que la recuperación de conocimiento puede ser secuestrada insertando instrucciones en los documentos de recuperación. Estas vulnerabilidades destacan que cualquier incorporación a la funcionalidad expuesta por una API puede crear nuevas vulnerabilidades.
    > Language model attacks typically assume one of two extreme threat models: full white-box access to model weights, or black-box access limited to a text generation API. However, real-world APIs are often more flexible than just text generation: these APIs expose ``gray-box'' access leading to new threat vectors. To explore this, we red-team three new functionalities exposed in the GPT-4 APIs: fine-tuning, function calling and knowledge retrieval. We find that fine-tuning a model on as few as 15 harmful examples or 100 benign examples can remove core safeguards from GPT-4, enabling a range of harmful outputs. Furthermore, we find that GPT-4 Assistants readily divulge the function call schema and can be made to execute arbitrary function calls. Finally, we find that knowledge retrieval can be hijacked by injecting instructions into retrieval documents. These vulnerabilities highlight that any additions to the functionality exposed by an API can create new vulnerabilities.

Enlace al paper

https://arxiv.org/abs/2312.14302

Leer más

https://x.com/omarsar0/status/1739677995747450964


Recuperación de hechos en LLMs / Fact Recalling in LLMs

Introducción al paper

  • Investiga cómo las capas MLP implementan una tabla de búsqueda para la recuperación factual; amplía el alcance del estudio sobre cómo las MLP tempranas en Pythia 2.8b consultan cuál de 3 deportes distintos practica cada atleta; sugiere que las capas MLP tempranas actúan como una tabla de búsqueda y recomienda pensar la recuperación de conocimiento factual en el modelo como embeddings de múltiples tokens.
    > Investigates how mlp layers implement a lookup table for factual recall; scopes the study on how early mlps in pythia 2.8b look up which of 3 different sports various athletes play; suggests that early mlp layers act as a lookup table and recommends thinking about the recall of factual knowledge in the model as multi-token embeddings.

Enlace al paper

https://www.alignmentforum.org/s/hpWHhjvjn67LJ4xXX/p/iGuwZTHWb6DFY3sKB

Leer más

https://x.com/NeelNanda5/status/1738559368361349122


IA generativa para matemáticas: Parte I -- MathPile: un corpus de preentrenamiento para matemáticas a escala de mil millones de tokens / Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale Pretraining Corpus for Math

Introducción al paper

  • Presenta un corpus diverso y de alta calidad centrado en matemáticas, compuesto por ~9.5 mil millones de tokens, para entrenar foundation models.
    > Presents a diverse and high-quality math-centric corpus comprising of ~9.5 billion tokens to train foundation models.

Resumen del paper (Abstract)

  • Los corpus de alta calidad y gran escala son la piedra angular para construir modelos fundacionales. En este trabajo presentamos ${MathPile}$, un corpus diverso y de alta calidad centrado en matemáticas, compuesto por aproximadamente 9.5 mil millones de tokens. Durante su creación, seguimos el principio de 'menos es más', con la firme convicción de que la calidad de los datos está por encima de la cantidad, incluso en la fase de preentrenamiento. Nuestros meticulosos esfuerzos de recolección y procesamiento de datos incluyeron un complejo conjunto de preprocesamiento, prefiltrado, identificación de idioma, limpieza, filtrado y deduplicación, garantizando la alta calidad del corpus. Además, realizamos detección de contaminación de datos en conjuntos de prueba de benchmarks downstream para eliminar duplicados. Esperamos que ${MathPile}$ ayude a mejorar las capacidades de razonamiento matemático de los modelos de lenguaje. Planeamos liberar como open source distintas versiones de $MathPile$ junto con los scripts usados para el procesamiento, con el fin de impulsar futuros avances en este campo.
    > High-quality, large-scale corpora are the cornerstone of building foundation models. In this work, we introduce ${MathPile}$, a diverse and high-quality math-centric corpus comprising about 9.5 billion tokens. Throughout its creation, we adhered to the principle of {less is more}, firmly believing in the supremacy of data quality over quantity, even in the pre-training phase. Our meticulous data collection and processing efforts included a complex suite of preprocessing, prefiltering, language identification, cleaning, filtering, and deduplication, ensuring the high quality of our corpus. Furthermore, we performed data contamination detection on downstream benchmark test sets to eliminate duplicates. We hope our ${MathPile}$ can help to enhance the mathematical reasoning abilities of language models. We plan to open-source different versions of \mathpile with the scripts used for processing, to facilitate future developments in this field.

Enlace al paper

https://arxiv.org/abs/2312.17120

Leer más

https://x.com/arankomatsuzaki/status/1740564961032556942


Con instrucciones basadas en principios basta para hacer preguntas a LLaMA-1/2, GPT-3.5/4 / Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4

Presentación del paper

  • Presenta 26 principios guía diseñados para simplificar el proceso de consultar y hacer prompting a modelos de lenguaje grandes, y aplica estos principios en experimentos extensivos con llama-1/2 (7b, 13b, 70b) y gpt-3.5/4 para verificar su efectividad en el diseño de instrucciones y prompts.
    > Introduces 26 guiding principles designed to streamline the process of querying and prompting large language models; applies these principles to conduct extensive experiments on llama-1/2 (7b, 13b and 70b), gpt-3.5/4 to verify their effectiveness on instructions and prompts design.

Resumen del paper(Abstract)

  • Este paper presenta 26 principios fundamentales diseñados para simplificar el proceso de consultar y hacer prompting a modelos de lenguaje grandes. Nuestro objetivo es simplificar los conceptos subyacentes para formular preguntas a modelos de lenguaje grandes de distintas escalas, examinar sus capacidades y mejorar la comprensión de los usuarios sobre el comportamiento de modelos de distintas escalas al recibir diferentes prompts. Realizamos experimentos extensivos con LLaMA-1/2 (7B, 13B, 70B) y GPT-3.5/4 para verificar la efectividad de los principios propuestos en el diseño de instrucciones y prompts. Esperamos que este trabajo brinde una mejor guía a los investigadores que trabajan en prompting para modelos de lenguaje grandes. La página del proyecto está disponible en https://github.com/VILA-Lab/ATLAS.
    > This paper introduces 26 guiding principles designed to streamline the process of querying and prompting large language models. Our goal is to simplify the underlying concepts of formulating questions for various scales of large language models, examining their abilities, and enhancing user comprehension on the behaviors of different scales of large language models when feeding into different prompts. Extensive experiments are conducted on LLaMA-1/2 (7B, 13B and 70B), GPT-3.5/4 to verify the effectiveness of the proposed principles on instructions and prompts design. We hope that this work provides a better guide for researchers working on the prompting of large language models. Project page is available at https://github.com/VILA-Lab/ATLAS.

Enlace al paper

https://arxiv.org/abs/2312.16171v1

Leer más

https://x.com/_akhaliq/status/1739857456161759455


Encuesta sobre razonamiento con modelos fundacionales / A Survey of Reasoning with Foundation Models

Presentación del paper

  • Ofrece una encuesta integral sobre modelos fundacionales clave para el razonamiento, destacando los avances más recientes en diversas tareas, métodos, benchmarks y posibles direcciones futuras; también analiza cómo otros desarrollos como el aprendizaje multimodal, los agentes autónomos y la superalineación aceleran y amplían la investigación en razonamiento.
    > Provides a comprehensive survey of seminal foundational models for reasoning, highlighting the latest advancements in various reasoning tasks, methods, benchmarks, and potential future directions; also discusses how other developments like multimodal learning, autonomous agents, and super alignment accelerate and extend reasoning research.

Resumen del paper(Abstract)

  • El razonamiento, una capacidad crucial para resolver problemas complejos, desempeña un papel fundamental en diversos entornos del mundo real, como la negociación, el diagnóstico médico y la investigación criminal. Sirve como una metodología básica en el campo de la inteligencia artificial general (AGI). A medida que los foundation models siguen desarrollándose, crece el interés por explorar sus capacidades en tareas de razonamiento. Este paper presenta foundation models fundamentales propuestos o adaptables para el razonamiento, destacando los avances más recientes en diversas tareas, métodos y benchmarks de razonamiento. Luego explora posibles direcciones futuras detrás de la aparición de capacidades de razonamiento dentro de los foundation models. También analiza la relevancia del aprendizaje multimodal, los agentes autónomos y la super alignment en el contexto del razonamiento. Al discutir estas futuras líneas de investigación, se espera inspirar a los investigadores a explorar este campo, impulsar más avances en razonamiento con foundation models y contribuir al desarrollo de la AGI.
    > Reasoning, a crucial ability for complex problem-solving, plays a pivotal role in various real-world settings such as negotiation, medical diagnosis, and criminal investigation. It serves as a fundamental methodology in the field of Artificial General Intelligence (AGI). With the ongoing development of foundation models, there is a growing interest in exploring their abilities in reasoning tasks. In this paper, we introduce seminal foundation models proposed or adaptable for reasoning, highlighting the latest advancements in various reasoning tasks, methods, and benchmarks. We then delve into the potential future directions behind the emergence of reasoning abilities within foundation models. We also discuss the relevance of multimodal learning, autonomous agents, and super alignment in the context of reasoning. By discussing these future research directions, we hope to inspire researchers in their exploration of this field, stimulate further advancements in reasoning with foundation models, and contribute to the development of AGI.

Enlace al paper

https://arxiv.org/abs/2312.11562v4

Leer más

https://x.com/omarsar0/status/1740729489661874632


Hacer de los large language models una mejor base para la recuperación densa / Making Large Language Models A Better Foundation For Dense Retrieval

Introducción del paper

  • Se propone LLaRA para adaptar LLM a la recuperación densa. Está compuesto por dos tareas de pretexto, EBAE (autoencoding basado en embeddings) y EBAR (autorregresión basada en embeddings), que usan los embeddings de texto del LLM para reconstruir los tokens de la oración de entrada y predecir los tokens de la siguiente oración, respectivamente; llama-2-7b mostró mejoras en benchmarks como MSMARCO y BEIR.
    > Proposes llara which adapts an llm for dense retrieval; it consists of two pretext tasks: ebae (embedding-based auto-encoding) and ebar (embedding-based auto-regression), where the text embeddings from llm are used to reconstruct the tokens for the input sentence and predict the tokens for the next sentence, respectively; a llama-2-7b was improved on benchmarks like msmarco and beir.

Resumen del paper (Abstract)

  • La recuperación densa necesita aprender embeddings de texto discriminativos para representar la relación semántica entre consulta y documento. Puede beneficiarse del uso de large language models (LLM), dada su sólida capacidad de comprensión semántica. Sin embargo, los LLM se preentrenan con tareas de generación de texto, cuyo patrón de funcionamiento es completamente distinto al de representar textos como embeddings. Por ello, es esencial estudiar cómo adaptar adecuadamente los LLM para que puedan inicializarse de manera efectiva como encoder backbone para recuperación densa. En este paper se propone un nuevo enfoque llamado LLaRA (LLM adapted for dense RetrievAl), que funciona como una adaptación post-hoc de un LLM para aplicaciones de recuperación densa. LLaRA consta de dos tareas de pretexto: EBAE (Embedding-Based Auto-Encoding) y EBAR (Embedding-Based Auto-Regression), donde los embeddings de texto del LLM se usan para reconstruir los tokens de la oración de entrada y predecir los tokens de la siguiente oración, respectivamente. LLaRA resulta ser simple, ligero y altamente efectivo. Se aplica para adaptar LLaMA-2-7B (base) sobre el corpus de Wikipedia, donde mejora sustancialmente el rendimiento del modelo tras fine-tuning en una variedad de benchmarks de recuperación densa, como MSMARCO y BEIR. El modelo y el código estarán disponibles públicamente en el repositorio BGE.
    > Dense retrieval needs to learn discriminative text embeddings to represent the semantic relationship between query and document. It may benefit from the using of large language models (LLMs), given LLMs' strong capability on semantic understanding. However, the LLMs are pre-trained by text generation tasks, whose working pattern is completely different from representing texts as embeddings. As a result, it is imperative to study how to adapt LLMs properly so that they can be effectively initialized as the backbone encoder for dense retrieval. In this paper, we propose a novel approach, called LLaRA (LLM adapted for dense RetrievAl), which works as a post-hoc adaptation of LLM for the dense retrieval application. LLaRA consists of two pretext tasks: EBAE (Embedding-Based Auto-Encoding) and EBAR (Embedding-Based Auto-Regression), where the text embeddings from LLM are used to reconstruct the tokens for the input sentence and predict the tokens for the next sentence, respectively. LLaRA turns out to be simple, lightweight, and highly effective. It is applied to adapt LLaMA-2-7B (base) on the Wikipedia corpus, where it substantially improves the model's fine-tuned performances on a variety of dense retrieval benchmarks, like MSMARCO and BEIR. Our model and code will be made publicly available at BGE repository.

Enlace al paper

https://arxiv.org/abs/2312.15503v1


Gemini y GPT-4V: comparación preliminar y combinación de modelos visión-lenguaje a través de casos cualitativos / Gemini vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases

Introducción al paper

  • A través de algunos casos cualitativos, se compararon y combinaron de forma preliminar y exhaustiva modelos visión-lenguaje como Gemini y GPT-4V, y se descubrió que GPT-4V ofrece respuestas precisas y concisas, mientras que Gemini destaca por brindar respuestas detalladas y amplias junto con imágenes y enlaces relevantes.
    > Provides a comprehensive preliminary comparison and combination of vision-language models like gemini and gpt-4v through several qualitative cases; finds that gpt-4v is precise and succinct in responses, while gemini excels in providing detailed, expansive answers accompanied by relevant imagery and links.

Resumen del paper (Abstract)

  • El campo de los modelos de lenguaje grandes multimodales (MLLM) está evolucionando rápidamente y se encuentra a la vanguardia de la integración del procesamiento lingüístico y visual en la inteligencia artificial. Este paper presenta un estudio comparativo en profundidad de dos modelos pioneros: Gemini de Google y GPT-4V(ision) de OpenAI. El estudio incluye una evaluación multifacética de ambos modelos en dimensiones clave como capacidad visión-lenguaje, interacción con humanos, comprensión temporal y evaluaciones tanto del coeficiente intelectual como del coeficiente emocional. El núcleo del análisis explora las capacidades distintivas de comprensión visual de cada modelo. Se realizó una serie de experimentos estructurados para evaluar su rendimiento en diversos escenarios de aplicación industrial, ofreciendo una perspectiva integral sobre su utilidad práctica. Además de comparaciones directas de rendimiento, también se incluyeron ajustes en prompts y escenarios para garantizar un análisis equilibrado y justo. Los hallazgos ponen de relieve las fortalezas y nichos únicos de ambos modelos. GPT-4V se distingue por la precisión y concisión de sus respuestas, mientras que Gemini sobresale al proporcionar respuestas detalladas y extensas acompañadas de imágenes y enlaces relevantes. Estas conclusiones no solo aclaran las ventajas comparativas de Gemini y GPT-4V, sino que también subrayan el panorama en evolución de los modelos fundacionales multimodales, allanando el camino para futuros avances en esta área. Después de la comparación, se intentó obtener mejores resultados combinando ambos modelos. Por último, los autores expresan su profundo agradecimiento a los equipos detrás de GPT-4V y Gemini por sus contribuciones pioneras al campo. También extienden su agradecimiento al análisis cualitativo integral presentado en 'Dawn' por Yang et al. Ese trabajo, con su amplia colección de muestras de imágenes, prompts y resultados relacionados con GPT-4V, proporcionó una base fundamental para este análisis.
    > The rapidly evolving sector of Multi-modal Large Language Models (MLLMs) is at the forefront of integrating linguistic and visual processing in artificial intelligence. This paper presents an in-depth comparative study of two pioneering models: Google's Gemini and OpenAI's GPT-4V(ision). Our study involves a multi-faceted evaluation of both models across key dimensions such as Vision-Language Capability, Interaction with Humans, Temporal Understanding, and assessments in both Intelligence and Emotional Quotients. The core of our analysis delves into the distinct visual comprehension abilities of each model. We conducted a series of structured experiments to evaluate their performance in various industrial application scenarios, offering a comprehensive perspective on their practical utility. We not only involve direct performance comparisons but also include adjustments in prompts and scenarios to ensure a balanced and fair analysis. Our findings illuminate the unique strengths and niches of both models. GPT-4V distinguishes itself with its precision and succinctness in responses, while Gemini excels in providing detailed, expansive answers accompanied by relevant imagery and links. These understandings not only shed light on the comparative merits of Gemini and GPT-4V but also underscore the evolving landscape of multimodal foundation models, paving the way for future advancements in this area. After the comparison, we attempted to achieve better results by combining the two models. Finally, We would like to express our profound gratitude to the teams behind GPT-4V and Gemini for their pioneering contributions to the field. Our acknowledgments are also extended to the comprehensive qualitative analysis presented in 'Dawn' by Yang et al. This work, with its extensive collection of image samples, prompts, and GPT-4V-related results, provided a foundational basis for our analysis.

Enlace al paper

https://arxiv.org/abs/2312.15011v1

Leer más

https://x.com/omarsar0/status/1741177994377330895


Texto original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-1d3

Aún no hay comentarios.

Aún no hay comentarios.