4 puntos por ninebow 2023-11-21 | Aún no hay comentarios. | Compartir por WhatsApp

Resumen

  • Probamos una traducción automática de artículos sobre papers de ML publicados cada semana por DAIR.AI.

  • Esta semana predominaron las investigaciones centradas en mejorar y ampliar los LLM (Large Language Models), es decir, los modelos de lenguaje de gran tamaño. En particular, se incluyen papers sobre operación eficiente en costo de los LLM, su uso para descubrimientos científicos y modelos de lenguaje para generación de código práctica. Además, parece haber una tendencia de investigación enfocada en aumentar la veracidad de estos modelos.

  • Los modelos de lenguaje, en especial los LLM, están ganando mucha atención en el campo del procesamiento de lenguaje natural (NLP). Esto probablemente se debe a que los modelos ahora pueden manejar tareas lingüísticas más complejas y variadas de una manera más parecida a la humana. Estos modelos pueden aplicarse en diversas áreas, como imitar el razonamiento sistemático (Contrastive CoT Prompting) o mejorar la automatización en el desarrollo de código (A Survey on Language Models for Code). También son tendencias de investigación importantes los métodos para seguir haciendo evolucionar a los LLM, por ejemplo reforzar la recuperación de información mediante un filtrado preciso del contexto (Learning to Filter Context for RAG) o investigaciones orientadas a que no engañen a los usuarios (LLMs can Deceive Users).


Emu Video y Emu Edit / Emu Video and Emu Edit

Introducción del paper

  • Se presentan nuevos modelos para edición de imágenes controlada y generación de texto a video basados en modelos de difusión. Emu Video puede generar video de alta calidad usando solo texto, solo imagen o una combinación de entradas de texto e imagen, y Emu Edit permite edición de forma libre mediante instrucciones de texto.

    Present new models for controlled image editing and text-to-video generation based on diffusion models; emu video can generate high-quality video by using text-only, image-only, or combined text and image inputs; emu edit enables free-form editing through text instructions.

Enlace al paper

https://ai.meta.com/blog/…

Leer más

https://x.com/AIatMeta/status/1725184026154349007


CoN(Chain-of-Note): mejora de la robustez en modelos de lenguaje aumentados con recuperación / Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models

Introducción del paper

  • Un enfoque para mejorar la robustez y confiabilidad de los modelos de lenguaje aumentados con recuperación al enfrentar documentos ruidosos, irrelevantes y escenarios desconocidos; genera notas de lectura secuenciales para los documentos recuperados, lo que permite evaluar su relevancia con respecto a la pregunta dada e integrar esta información para formular la respuesta final; CoN supera de forma significativa a los modelos de lenguaje aumentados con recuperación estándar y logra una mejora promedio de +7.9 en la puntuación EM con documentos recuperados completamente ruidosos, y +10.5 en las tasas de rechazo para preguntas en tiempo real que quedan fuera del alcance del conocimiento de preentrenamiento.

    An approach to improve the robustness and reliability of retrieval-augmented language models in facing noisy, irrelevant documents and in handling unknown scenarios; con generates sequential reading notes for the retrieved documents, enabling an evaluation of their relevance to the given question and integrating this information to formulate the final answer; con significantly outperforms standard retrieval-augmented language models and achieves an average improvement of +7.9 in em score given entirely noisy retrieved documents and +10.5 in rejection rates for real-time questions that fall outside the pre-training knowledge scope.

Resumen del paper

  • Los modelos de lenguaje aumentados con recuperación (RALM) representan un avance sustancial en las capacidades de los modelos de lenguaje grandes, en particular para reducir las alucinaciones fácticas al aprovechar fuentes externas de conocimiento. Sin embargo, la confiabilidad de la información recuperada no siempre está garantizada. Recuperar datos irrelevantes puede llevar a respuestas equivocadas y hacer que el modelo pase por alto su conocimiento inherente, incluso cuando posee información suficiente para responder la consulta. Además, los RALM estándar a menudo tienen dificultades para evaluar si cuentan con conocimiento suficiente, tanto intrínseco como recuperado, para proporcionar una respuesta precisa. En situaciones donde falta conocimiento, lo ideal es que estos sistemas respondan con "desconocido" cuando no sea posible obtener la respuesta. Para abordar estos desafíos, se introdujo Chain-of-Noting (CoN), un nuevo enfoque orientado a mejorar la robustez de los RALM frente a documentos ruidosos e irrelevantes y en el manejo de escenarios desconocidos. La idea central de CoN es generar notas de lectura secuenciales para los documentos recuperados, lo que permite evaluar a fondo su relevancia para la pregunta dada e integrar esa información para formular la respuesta final. Se utilizó ChatGPT para crear datos de entrenamiento para CoN, que posteriormente se entrenó sobre un modelo LLaMa-2 7B. Los experimentos en cuatro benchmarks de QA de dominio abierto muestran que los RALM equipados con CoN superan significativamente a los RALM estándar. En particular, CoN logra una mejora promedio de +7.9 en la puntuación EM con documentos recuperados completamente ruidosos y de +10.5 en las tasas de rechazo para preguntas en tiempo real que quedan fuera del alcance del conocimiento del preentrenamiento.

    Retrieval-augmented language models (RALMs) represent a substantial advancement in the capabilities of large language models, notably in reducing factual hallucination by leveraging external knowledge sources. However, the reliability of the retrieved information is not always guaranteed. The retrieval of irrelevant data can lead to misguided responses, and potentially causing the model to overlook its inherent knowledge, even when it possesses adequate information to address the query. Moreover, standard RALMs often struggle to assess whether they possess adequate knowledge, both intrinsic and retrieved, to provide an accurate answer. In situations where knowledge is lacking, these systems should ideally respond with "unknown" when the answer is unattainable. In response to these challenges, we introduces Chain-of-Noting (CoN), a novel approach aimed at improving the robustness of RALMs in facing noisy, irrelevant documents and in handling unknown scenarios. The core idea of CoN is to generate sequential reading notes for retrieved documents, enabling a thorough evaluation of their relevance to the given question and integrating this information to formulate the final answer. We employed ChatGPT to create training data for CoN, which was subsequently trained on an LLaMa-2 7B model. Our experiments across four open-domain QA benchmarks show that RALMs equipped with CoN significantly outperform standard RALMs. Notably, CoN achieves an average improvement of +7.9 in EM score given entirely noisy retrieved documents and +10.5 in rejection rates for real-time questions that fall outside the pre-training knowledge scope.

Enlace al paper

https://arxiv.org/abs/2311.09210

Leer más

https://x.com/omarsar0/status/1725181141693472959


El impacto de los modelos de lenguaje grandes en el descubrimiento científico: un estudio preliminar usando GPT-4 / The Impact of Large Language Models on Scientific Discovery: a Preliminary Study using GPT-4

Introducción al paper

  • Explora el impacto de los modelos de lenguaje grandes, en particular GPT-4, en diversos campos científicos, incluidos el descubrimiento de fármacos, la biología y la química computacional; evalúa la comprensión de GPT-4 sobre conceptos científicos complejos, sus capacidades de resolución de problemas y su potencial para impulsar la investigación científica mediante evaluaciones de casos guiadas por expertos y pruebas de benchmark.

    Explores the impact of large language models, particularly gpt-4, across various scientific fields including drug discovery, biology, and computational chemistry; assesses gpt-4's understanding of complex scientific concepts, its problem-solving capabilities, and its potential to advance scientific research through expert-driven case assessments and benchmark testing.

Resumen del paper

  • En los últimos años, los avances revolucionarios en el procesamiento de lenguaje natural han dado lugar a la aparición de potentes modelos de lenguaje de gran escala (LLM), que han mostrado un rendimiento notable en una amplia variedad de ámbitos, incluyendo la comprensión, generación y traducción del lenguaje natural, e incluso tareas que van más allá del procesamiento del lenguaje. Este informe examina en detalle el desempeño de los LLM en el contexto del descubrimiento científico, con foco en GPT-4, el modelo de lenguaje más avanzado. Se llevó a cabo una investigación amplia que abarca diversos campos científicos, como descubrimiento de fármacos, biología, química computacional (teoría del funcional de la densidad (DFT) y dinámica molecular (MD)), diseño de materiales y ecuaciones diferenciales parciales (PDE). Evaluar a GPT-4 en tareas científicas es fundamental para descubrir su potencial en distintas áreas de investigación, validar su experiencia específica por dominio, acelerar el progreso científico, optimizar la asignación de recursos, orientar el desarrollo de futuros modelos y fomentar la investigación interdisciplinaria. Nuestra metodología de exploración consiste principalmente en evaluaciones de casos guiadas por expertos, que ofrecen perspectivas cualitativas sobre la comprensión del modelo de conceptos y relaciones científicas complejas, y en pruebas de benchmark que evalúan cuantitativamente la capacidad del modelo para resolver problemas bien definidos de dominios específicos. Los resultados preliminares muestran que GPT-4 es apto para abordar la resolución de problemas complejos y tareas de integración de conocimiento, lo que revela un potencial prometedor en diversas aplicaciones científicas. En términos generales, se evalúan la base de conocimiento de GPT-4, su comprensión científica, sus capacidades de cálculo numérico científico y sus diversas capacidades de predicción científica.

    In recent years, groundbreaking advancements in natural language processing have culminated in the emergence of powerful large language models (LLMs), which have showcased remarkable capabilities across a vast array of domains, including the understanding, generation, and translation of natural language, and even tasks that extend beyond language processing. In this report, we delve into the performance of LLMs within the context of scientific discovery, focusing on GPT-4, the state-of-the-art language model. Our investigation spans a diverse range of scientific areas encompassing drug discovery, biology, computational chemistry (density functional theory (DFT) and molecular dynamics (MD)), materials design, and partial differential equations (PDE). Evaluating GPT-4 on scientific tasks is crucial for uncovering its potential across various research domains, validating its domain-specific expertise, accelerating scientific progress, optimizing resource allocation, guiding future model development, and fostering interdisciplinary research. Our exploration methodology primarily consists of expert-driven case assessments, which offer qualitative insights into the model's comprehension of intricate scientific concepts and relationships, and occasionally benchmark testing, which quantitatively evaluates the model's capacity to solve well-defined domain-specific problems. Our preliminary exploration indicates that GPT-4 exhibits promising potential for a variety of scientific applications, demonstrating its aptitude for handling complex problem-solving and knowledge integration tasks. Broadly speaking, we evaluate GPT-4's knowledge base, scientific understanding, scientific numerical calculation abilities, and various scientific prediction capabilities.

Enlace al paper

https://arxiv.org/abs/2311.07361

Leer más

https://x.com/omarsar0/status/1724465107046940893


Ajuste fino de modelos de lenguaje para la factualidad / Fine-tuning Language Models for Factuality

Introducción del paper

  • Ajusta finamente un modelo de lenguaje para mejorar la factualidad sin requerir etiquetado humano; aprende a partir de rankings de preferencias de factualidad generados automáticamente, apunta a entornos de generación abierta y mejora significativamente la factualidad de Llama-2 en temas no vistos en comparación con RLHF o estrategias de decodificación orientadas a la factualidad.

    Fine-tunes language model for factuality without requiring human labeling; it learns from automatically generated factuality preference rankings and targets open-ended generation settings; it significantly improves the factuality of llama-2 on held-out topics compared with rlhf or decoding strategies targeted at factuality.

Resumen del paper

  • La fluidez y creatividad de los grandes modelos de lenguaje (LLM) preentrenados ha llevado a su uso generalizado, a veces incluso como reemplazo de los motores de búsqueda tradicionales. Sin embargo, los modelos de lenguaje son propensos a hacer afirmaciones convincentes pero inexactas en términos fácticos, a menudo llamadas "alucinaciones". Estos errores pueden propagar desinformación de manera involuntaria o perpetuar ideas erróneas de forma perjudicial. Además, la verificación manual de hechos en las respuestas del modelo es un proceso que consume mucho tiempo, por lo que obtener etiquetas de factualidad humanas resulta costoso. En este trabajo, ajustamos finamente modelos de lenguaje para que sean más factuales, sin etiquetado humano y apuntando a escenarios de generación más abiertos que en trabajos anteriores. Para ello, aprovechamos dos innovaciones recientes clave en NLP. Primero, varios trabajos recientes han propuesto métodos para juzgar la factualidad de texto abierto midiendo la consistencia con una base de conocimiento externa o simplemente las puntuaciones de confianza de un modelo grande. Segundo, el algoritmo de optimización directa por preferencias permite ajustar finamente modelos de lenguaje de forma directa para objetivos distintos de la imitación supervisada, usando un ranking de preferencias sobre posibles respuestas del modelo. Mostramos que aprender a partir de rankings de preferencia de factualidad generados automáticamente, ya sea mediante sistemas de recuperación existentes o con nuestro nuevo enfoque sin recuperación, mejora significativamente la factualidad de Llama-2 en temas no vistos frente a RLHF o estrategias de decodificación orientadas a la factualidad. A escala 7B, en comparación con Llama-2-chat, observamos una reducción de 58% y 40% en la tasa de errores fácticos al generar biografías y responder preguntas médicas, respectivamente.

    The fluency and creativity of large pre-trained language models (LLMs) have led to their widespread use, sometimes even as a replacement for traditional search engines. Yet language models are prone to making convincing but factually inaccurate claims, often referred to as 'hallucinations.' These errors can inadvertently spread misinformation or harmfully perpetuate misconceptions. Further, manual fact-checking of model responses is a time-consuming process, making human factuality labels expensive to acquire. In this work, we fine-tune language models to be more factual, without human labeling and targeting more open-ended generation settings than past work. We leverage two key recent innovations in NLP to do so. First, several recent works have proposed methods for judging the factuality of open-ended text by measuring consistency with an external knowledge base or simply a large model's confidence scores. Second, the direct preference optimization algorithm enables straightforward fine-tuning of language models on objectives other than supervised imitation, using a preference ranking over possible model responses. We show that learning from automatically generated factuality preference rankings, generated either through existing retrieval systems or our novel retrieval-free approach, significantly improves the factuality (percent of generated claims that are correct) of Llama-2 on held-out topics compared with RLHF or decoding strategies targeted at factuality. At 7B scale, compared to Llama-2-chat, we observe 58% and 40% reduction in factual error rate when generating biographies and answering medical questions, respectively.

Enlace al paper

https://arxiv.org/abs/2311.08401

Leer más

https://x.com/arankomatsuzaki/status/1724613041155608951


Prompting con cadena de pensamiento contrastiva (CoT) / Contrastive Chain-of-Thought Prompting

Introducción al paper

  • Se propone un método de cadena de pensamiento contrastiva (CoT) para mejorar el razonamiento de los modelos de lenguaje. Este enfoque proporciona tanto demostraciones de razonamiento válidas como inválidas para guiar al modelo a razonar paso a paso mientras reduce los errores de razonamiento. También propone un método automático para construir demostraciones contrastivas y muestra mejoras frente al prompting CoT.

    Proposes a contrastive chain of thought method to enhance language model reasoning; the approach provides both valid and invalid reasoning demonstrations, to guide the model to reason step-by-step while reducing reasoning mistakes; also proposes an automatic method to construct contrastive demonstrations and demonstrates improvements over cot prompting.

Resumen del paper

  • A pesar del éxito de la cadena de pensamiento para mejorar el razonamiento de los modelos de lenguaje, su proceso subyacente aún se entiende poco. Aunque el razonamiento lógicamente sólido parece ser intrínsecamente crucial para la cadena de pensamiento, estudios previos revelan de forma sorprendente que usar demostraciones inválidas en su lugar tiene un impacto mínimo. Además, la cadena de pensamiento convencional no les indica a los modelos de lenguaje qué errores deben evitar, lo que potencialmente conduce a más fallos. Por ello, inspirados en cómo los humanos pueden aprender tanto de ejemplos positivos como negativos, proponemos la cadena de pensamiento contrastiva para reforzar el razonamiento de los modelos de lenguaje. En comparación con la cadena de pensamiento convencional, nuestro enfoque proporciona demostraciones de razonamiento válidas e inválidas para guiar al modelo a razonar paso a paso mientras reduce los errores de razonamiento. Para mejorar la generalización, introducimos un método automático para construir demostraciones contrastivas. Nuestros experimentos en benchmarks de razonamiento demuestran que la cadena de pensamiento contrastiva puede servir como una mejora general del prompting de cadena de pensamiento.

    Despite the success of chain of thought in enhancing language model reasoning, the underlying process remains less well understood. Although logically sound reasoning appears inherently crucial for chain of thought, prior studies surprisingly reveal minimal impact when using invalid demonstrations instead. Furthermore, the conventional chain of thought does not inform language models on what mistakes to avoid, which potentially leads to more errors. Hence, inspired by how humans can learn from both positive and negative examples, we propose contrastive chain of thought to enhance language model reasoning. Compared to the conventional chain of thought, our approach provides both valid and invalid reasoning demonstrations, to guide the model to reason step-by-step while reducing reasoning mistakes. To improve generalization, we introduce an automatic method to construct contrastive demonstrations. Our experiments on reasoning benchmarks demonstrate that contrastive chain of thought can serve as a general enhancement of chain-of-thought prompting.

Enlace al paper

https://arxiv.org/abs/2311.09277

Leer más

https://x.com/arankomatsuzaki/status/1725340150819905723


Paper de survey sobre modelos de lenguaje para código / A Survey on Language Models for Code

Introducción al paper

  • Ofrece una visión general de los LLM para código, incluyendo una revisión de más de 50 modelos, más de 30 tareas de evaluación y más de 500 trabajos relacionados.

    Provides an overview of llms for code, including a review of 50+ models, 30+ evaluation tasks, and 500 related works.

Resumen del paper

  • En este trabajo revisamos de forma sistemática los avances recientes en el procesamiento de código con modelos de lenguaje, cubriendo más de 50 modelos, más de 30 tareas de evaluación y 500 trabajos relacionados. Desglosamos los modelos de procesamiento de código en modelos de lenguaje generales, representados por la familia GPT, y modelos especializados preentrenados específicamente en código, a menudo con objetivos adaptados. Analizamos las relaciones y diferencias entre estos modelos, y destacamos la transición histórica del modelado de código desde modelos estadísticos y RNN hasta Transformers preentrenados y LLM, un recorrido exactamente igual al que siguió el NLP. También discutimos características específicas del código como AST, CFG y pruebas unitarias, junto con su aplicación en el entrenamiento de modelos de lenguaje para código, e identificamos los principales desafíos y posibles direcciones futuras en este campo. La encuesta se mantiene abierta y actualizada en el repositorio de GitHub (https://github.com/codefuse-ai/Awesome-Code-LLM).

    In this work we systematically review the recent advancements in code processing with language models, covering 50+ models, 30+ evaluation tasks, and 500 related works. We break down code processing models into general language models represented by the GPT family and specialized models that are specifically pretrained on code, often with tailored objectives. We discuss the relations and differences between these models, and highlight the historical transition of code modeling from statistical models and RNNs to pretrained Transformers and LLMs, which is exactly the same course that had been taken by NLP. We also discuss code-specific features such as AST, CFG, and unit tests, along with their application in training code language models, and identify key challenges and potential future directions in this domain. We keep the survey open and updated on github repository at https://github.com/codefuse-ai/Awesome-Code-LLM.

Enlace al paper

https://arxiv.org/abs/2311.07989v1

Leer más

https://x.com/omarsar0/status/1725637165256761553


JARVIS-1: agentes multitarea de mundo abierto con modelos de lenguaje multimodales aumentados con memoria / JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models

Introducción al paper

  • Un agente de mundo abierto capaz de percibir entradas multimodales como observaciones visuales e instrucciones humanas, generar planes sofisticados y ejecutar control corporizado dentro del universo abierto de Minecraft; muestra un rendimiento casi perfecto en más de 200 tareas dentro de Minecraft; alcanza una tasa de finalización de 12.5% en la tarea de pico de diamante de horizonte largo, lo que representa una mejora de 5 veces frente a récords anteriores.

    An open-world agent that can perceive multimodal input (visual observations and human instructions), generate sophisticated plans, and perform embodied control, within the open-world minecraft universe; exhibits near-perfect performances across over 200 tasks in minecraft universe; achieves a completion rate of 12.5% in the long-horizon diamond pickaxe task, which is a 5x increase compared to previous records.

Resumen del paper

  • Lograr una planificación y un control similares a los humanos con observaciones multimodales en un mundo abierto es un hito clave para agentes generalistas más funcionales. Los enfoques existentes pueden manejar ciertas tareas específicas de largo horizonte en un mundo abierto. Sin embargo, siguen teniendo dificultades porque la cantidad de tareas de mundo abierto puede crecer infinitamente y carecen de la capacidad de mejorar progresivamente la tasa de finalización de tareas a medida que avanza el tiempo de juego. Unity presenta JARVIS-1, un agente de mundo abierto capaz de percibir entradas multimodales, como observaciones visuales e instrucciones humanas, generar planes sofisticados y ejecutar control incorporado dentro del popular pero desafiante universo de mundo abierto de Minecraft. En particular, Unity desarrolla JARVIS-1 sobre un modelo de lenguaje multimodal preentrenado que mapea observaciones visuales e instrucciones de texto a planes. Ese plan finalmente se envía a un controlador condicionado por objetivos. Unity equipa a JARVIS-1 con memoria multimodal para permitirle planificar usando tanto conocimiento preentrenado como experiencias reales de supervivencia dentro del juego. En los experimentos de Unity, JARVIS-1 mostró un rendimiento casi perfecto en más de 200 tareas diversas del benchmark Minecraft Universe, desde nivel inicial hasta intermedio. JARVIS-1 logró una tasa de finalización de 12.5% en la tarea de largo horizonte del pico de diamante. Esto representa una mejora significativa de hasta 5 veces frente al récord anterior. Además, gracias a la memoria multimodal, se demostró que JARVIS-1 puede $\textit{auto-mejorarse}$ siguiendo un paradigma de aprendizaje continuo, impulsando una inteligencia más general y una mayor autonomía. La página del proyecto está disponible en https://craftjarvis-jarvis1.github.io.

    Achieving human-like planning and control with multimodal observations in an open world is a key milestone for more functional generalist agents. Existing approaches can handle certain long-horizon tasks in an open world. However, they still struggle when the number of open-world tasks could potentially be infinite and lack the capability to progressively enhance task completion as game time progresses. We introduce JARVIS-1, an open-world agent that can perceive multimodal input (visual observations and human instructions), generate sophisticated plans, and perform embodied control, all within the popular yet challenging open-world Minecraft universe. Specifically, we develop JARVIS-1 on top of pre-trained multimodal language models, which map visual observations and textual instructions to plans. The plans will be ultimately dispatched to the goal-conditioned controllers. We outfit JARVIS-1 with a multimodal memory, which facilitates planning using both pre-trained knowledge and its actual game survival experiences. In our experiments, JARVIS-1 exhibits nearly perfect performances across over 200 varying tasks from the Minecraft Universe Benchmark, ranging from entry to intermediate levels. JARVIS-1 has achieved a completion rate of 12.5% in the long-horizon diamond pickaxe task. This represents a significant increase up to 5 times compared to previous records. Furthermore, we show that JARVIS-1 is able to $\textit{self-improve}$ following a life-long learning paradigm thanks to multimodal memory, sparking a more general intelligence and improved autonomy. The project page is available at https://craftjarvis-jarvis1.github.io.

Enlace al paper

https://arxiv.org/abs/2311.05997

Leer más

https://x.com/arankomatsuzaki/status/1723882043514470629


FILCO: método de aprendizaje para filtrar contexto en generación aumentada por recuperación / Learning to Filter Context for Retrieval-Augmented Generation

Introducción al paper

  • Se propone un método que mejora la calidad del contexto proporcionado al generador en dos pasos: 1) identificar contexto útil con base en enfoques léxicos y de teoría de la información, y 2) entrenar un modelo de filtrado de contexto que pueda filtrar el contexto recuperado durante la inferencia; supera a los enfoques existentes en tareas de respuesta a preguntas extractiva (QA), QA compleja de múltiples saltos y de formato largo, verificación de hechos y generación de diálogo.

    Proposes a method that improves the quality of the context provided to the generator via two steps: 1) identifying useful context based on lexical and information-theoretic approaches, and 2) training context filtering models that can filter retrieved contexts at inference; outperforms existing approaches on extractive question answering (qa), complex multi-hop and long-form qa, fact verification, and dialog generation tasks.

Resumen del paper

  • La recuperación inmediata de conocimiento relevante ha demostrado ser un elemento esencial de los sistemas confiables para tareas como respuesta a preguntas de dominio abierto y verificación de hechos. Sin embargo, como los sistemas de recuperación no son perfectos, se necesitan modelos generativos para producir resultados aun cuando se les den pasajes parcial o totalmente irrelevantes. Esto puede provocar una dependencia excesiva o insuficiente del contexto y generar problemas en la salida, como alucinaciones. Para mitigar estos problemas, se propone FILCO, un método que mejora la calidad del contexto proporcionado al generador mediante (1) la identificación de contexto útil con base en enfoques léxicos y de teoría de la información, y (2) el entrenamiento de modelos de filtrado de contexto que pueden filtrar contextos recuperados en tiempo de prueba. Experimentos en seis tareas intensivas en conocimiento con FLAN-T5 y LLaMa2 demuestran que el método supera a los enfoques existentes en tareas de respuesta a preguntas extractiva (QA), QA compleja de múltiples saltos y de formato largo, verificación de hechos y generación de diálogo. FILCO mejora eficazmente la calidad del contexto, independientemente de si este respalda o no la salida canónica.

    On-the-fly retrieval of relevant knowledge has proven an essential element of reliable systems for tasks such as open-domain question answering and fact verification. However, because retrieval systems are not perfect, generation models are required to generate outputs given partially or entirely irrelevant passages. This can cause over- or under-reliance on context, and result in problems in the generated output such as hallucinations. To alleviate these problems, we propose FILCO, a method that improves the quality of the context provided to the generator by (1) identifying useful context based on lexical and information-theoretic approaches, and (2) training context filtering models that can filter retrieved contexts at test time. We experiment on six knowledge-intensive tasks with FLAN-T5 and LLaMa2, and demonstrate that our method outperforms existing approaches on extractive question answering (QA), complex multi-hop and long-form QA, fact verification, and dialog generation tasks. FILCO effectively improves the quality of context, whether or not it supports the canonical output.

Enlace al paper

https://arxiv.org/abs/2311.08377v1

Leer más

https://x.com/ZhiruoW/status/1724792850079252886


MART: mejora de la seguridad de los LLM mediante red teaming automático en múltiples rondas / MART: Improving LLM Safety with Multi-round Automatic Red-Teaming

Presentación del paper

  • Se propone un enfoque para mejorar la seguridad de los LLM mediante red teaming automático en múltiples rondas, integrando la creación automática de prompts adversariales y la generación de respuestas seguras. Esto aumenta la escalabilidad del red teaming y la seguridad de los LLM; la tasa de violaciones de un LLM con alineación de seguridad limitada se reduce hasta en un 84.7% después de 4 rondas de MART, logrando un rendimiento comparable al de LLM con un uso extensivo de creación de prompts adversariales.

    Proposes an approach for improving llm safety with multi-round automatic red-teaming; incorporates automatic adversarial prompt writing and safe response generation, which increases red-teaming scalability and the safety of llms; violation rate of an llm with limited safety alignment reduces up to 84.7% after 4 rounds of mart, achieving comparable performance to llms with extensive adversarial prompt writing.

Resumen del paper

  • El red-teaming es una práctica común para mitigar comportamientos inseguros en los modelos de lenguaje grandes (LLM), y consiste en evaluar a fondo los LLM para identificar posibles fallas y abordarlas con respuestas responsables y precisas. Aunque es efectivo, el red-teaming manual es costoso, y el red-teaming automático existente por lo general descubre riesgos de seguridad sin resolverlos. En este paper, se propone un método de red-teaming automático multirronda (MART), que integra tanto la escritura automática de prompts adversariales como la generación de respuestas seguras, aumentando de forma significativa la escalabilidad del red-teaming y la seguridad del LLM objetivo. En concreto, un LLM adversarial y un LLM objetivo interactúan entre sí de manera iterativa: el LLM adversarial busca generar prompts desafiantes que provoquen respuestas inseguras del LLM objetivo, mientras que el LLM objetivo se ajusta finamente con datos alineados con seguridad sobre esos prompts adversariales. En cada ronda, el LLM adversarial crea mejores ataques contra el LLM objetivo actualizado, mientras que el LLM objetivo también mejora mediante ajuste fino de seguridad. En benchmarks de prompts adversariales, la tasa de infracción de un LLM con alineación de seguridad limitada se reduce hasta en 84.7% después de 4 rondas de MART, logrando un rendimiento comparable al de LLM con una amplia escritura de prompts adversariales. Cabe destacar que la utilidad del modelo en prompts no adversariales se mantiene estable a lo largo de las iteraciones, lo que indica que el LLM objetivo conserva un fuerte desempeño en el seguimiento de instrucciones.

    Red-teaming es una práctica común para mitigar comportamientos inseguros en los modelos de lenguaje grandes (LLM), y consiste en evaluar exhaustivamente los LLM para identificar posibles fallas y abordarlas con respuestas responsables y precisas. Aunque es efectivo, el red-teaming manual es costoso, y el red-teaming automático existente normalmente descubre riesgos de seguridad sin resolverlos. En este paper, proponemos un método de red-teaming automático multirronda (MART), que incorpora tanto escritura automática de prompts adversariales como generación de respuestas seguras, aumentando significativamente la escalabilidad del red-teaming y la seguridad del LLM objetivo. Específicamente, un LLM adversarial y un LLM objetivo interactúan entre sí de manera iterativa, donde el LLM adversarial busca generar prompts desafiantes que provoquen respuestas inseguras del LLM objetivo, mientras que el LLM objetivo es ajustado finamente con datos alineados con seguridad sobre esos prompts adversariales. En cada ronda, el LLM adversarial elabora mejores ataques contra el LLM objetivo actualizado, mientras que el LLM objetivo también mejora por medio de ajuste fino de seguridad. En benchmarks de prompts adversariales, la tasa de infracción de un LLM con alineación de seguridad limitada se reduce hasta en 84.7% después de 4 rondas de MART, logrando un rendimiento comparable al de LLM con una amplia escritura de prompts adversariales. En particular, la utilidad del modelo en prompts no adversariales se mantiene estable durante las iteraciones, lo que indica que el LLM objetivo mantiene un sólido desempeño en el seguimiento de instrucciones.

Enlace al paper

https://arxiv.org/abs/2311.07689

Leer más

https://x.com/AIatMeta/status/1724887918685425829


Informe técnico: los modelos de lenguaje grandes pueden engañar estratégicamente a sus usuarios cuando se les somete a presión / Technical Report: Large Language Models can Strategically Deceive their Users when Put Under Pressure

Introducción al paper

  • Examina el uso de un agente autónomo de trading de acciones impulsado por un roboadvisor, y encuentra que el agente actúa con base en información privilegiada y oculta la razón detrás de la decisión de trading, mostrando que un roboadvisor útil y seguro puede engañar estratégicamente a los usuarios en situaciones reales incluso sin instrucciones ni entrenamiento para el engaño.

    Explora el uso de un agente autónomo de trading de acciones impulsado por llms; encuentra que el agente actúa sobre la base de información privilegiada y oculta la razón detrás de la decisión de trading; muestra que llms útiles y seguros pueden engañar estratégicamente a los usuarios en una situación realista sin instrucciones explícitas ni entrenamiento para el engaño.

Resumen del paper

  • Se demuestra una situación en la que los modelos de lenguaje de gran escala entrenados para ser útiles, inofensivos y honestos pueden mostrar un comportamiento desalineado y engañar estratégicamente a sus usuarios sin recibir instrucciones para hacerlo. En concreto, se despliega GPT-4 como agente en un entorno simulado y realista, donde asume el rol de un agente autónomo de compraventa de acciones. Dentro de este entorno, el modelo obtiene información privilegiada sobre una operación bursátil lucrativa y actúa en consecuencia a pesar de saber que el uso de información privilegiada no está aprobado por la dirección de la empresa. Al reportar a su gerente, el modelo oculta de forma consistente las verdaderas razones detrás de su decisión de operar. Se investigó brevemente cómo varía este comportamiento al cambiar la configuración, por ejemplo, eliminando el acceso del modelo a un scratchpad de razonamiento, intentando prevenir el comportamiento desalineado mediante cambios en las instrucciones del sistema, modificando el nivel de presión al que está sometido el modelo, variando el riesgo percibido de ser descubierto y realizando otros cambios simples en el entorno. Hasta donde sabemos, esta es la primera demostración de un modelo de lenguaje de gran escala entrenado para ser útil, inofensivo y honesto que engaña estratégicamente a sus usuarios en una situación realista sin instrucciones directas ni entrenamiento para engañar.

    We demonstrate a situation in which Large Language Models, trained to be helpful, harmless, and honest, can display misaligned behavior and strategically deceive their users about this behavior without being instructed to do so. Concretely, we deploy GPT-4 as an agent in a realistic, simulated environment, where it assumes the role of an autonomous stock trading agent. Within this environment, the model obtains an insider tip about a lucrative stock trade and acts upon it despite knowing that insider trading is disapproved of by company management. When reporting to its manager, the model consistently hides the genuine reasons behind its trading decision. We perform a brief investigation of how this behavior varies under changes to the setting, such as removing model access to a reasoning scratchpad, attempting to prevent the misaligned behavior by changing system instructions, changing the amount of pressure the model is under, varying the perceived risk of getting caught, and making other simple changes to the environment. To our knowledge, this is the first demonstration of Large Language Models trained to be helpful, harmless, and honest, strategically deceiving their users in a realistic situation without direct instructions or training for deception.

Enlace al paper

https://arxiv.org/abs/2311.07590

Leer más

https://x.com/ESYudkowsky/status/1725226563992715521


Texto original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-e3d

Aún no hay comentarios.

Aún no hay comentarios.