7 puntos por ninebow 2023-10-23 | Aún no hay comentarios. | Compartir por WhatsApp

Resumen

  • Hemos traducido automáticamente un artículo de DAIR.AI sobre artículos de ML publicados cada semana.

  • Las principales tendencias de los artículos seleccionados esta semana se dividen en dos grandes temas: el primero es el de los sistemas de diálogo de dominio abierto (Open domain dialog system) y los trabajos de investigación que buscan que la inteligencia artificial pueda generar explicaciones por sí sola o resolver problemas de manera autónoma.

  • Los sistemas de diálogo de dominio abierto son tecnologías que permiten que los sistemas de inteligencia artificial conversen de forma natural con los usuarios, y fueron tratados en artículos como "OpenAgents", "LLMs for Software Engineering" y "Eliciting Human Preferences with LLMs". Estos trabajos investigan métodos para que los sistemas de inteligencia artificial puedan aprender y evolucionar por sí mismos mediante la conversación con los usuarios.

  • Además, la investigación sobre inteligencia artificial capaz de generar sus propias explicaciones o resolver problemas por sí misma fue abordada en artículos como "A Study of LLM-Generated Self-Explanations", "Self-RAG" y "Retrieval-Augmentation for Long-form Question Answering". El objetivo principal de estos trabajos es hacer transparente el proceso mediante el cual la inteligencia artificial resuelve problemas o genera explicaciones, de modo que los usuarios puedan entenderlo. Esta tendencia parece una evolución natural si se considera la importancia de investigar tecnologías que permitan que la inteligencia artificial sea más transparente y de uso más generalizado.


Llemma: un modelo de lenguaje abierto para matemáticas / Llemma: An Open Language Model For Mathematics

Presentación del artículo

  • Modelo Llemma para matemáticas, entrenado de forma continua a partir de Code Llama sobre el dataset Proof-Pile-2. Supera a los modelos base abiertos y a la inédita Minerva en artículos científicos, datos web con contenido matemático, datasets con código matemático y benchmarks matemáticos; se publica el modelo junto con el dataset y el código para reproducir los experimentos. #mathglm #
    > An llm for mathematics which is based on continued pretraining from code llama on the proof-pile-2 dataset; the dataset involves scientific paper, web data containing mathematics, and mathematical code; llemma outperforms open base models and the unreleased minerva on the math benchmark; the model is released, including dataset and code to replicate experiments.

Resumen del artículo

  • Presentamos Llemma, un modelo de lenguaje de gran tamaño para matemáticas. Creamos Llemma continuando el preentrenamiento de Code Llama sobre Proof-Pile-2, una mezcla de artículos científicos, datos web con contenido matemático y código matemático. En el benchmark MATH, Llemma mostró un rendimiento superior al de todos los modelos base abiertos conocidos, así como al de la familia de modelos Minerva no publicada, comparando modelos con igual número de parámetros. Además, Llemma es capaz de usar herramientas y demostrar teoremas formales sin necesidad de ajuste fino adicional. Publicamos abiertamente todos los artefactos, incluidos los modelos de 7 mil millones y 34 mil millones de parámetros, Proof-Pile-2 y el código para reproducir nuestros experimentos.
    > We present Llemma, a large language model for mathematics. We continue pretraining Code Llama on the Proof-Pile-2, a mixture of scientific papers, web data containing mathematics, and mathematical code, yielding Llemma. On the MATH benchmark Llemma outperforms all known open base models, as well as the unreleased Minerva model suite on an equi-parameter basis. Moreover, Llemma is capable of tool use and formal theorem proving without any further finetuning. We openly release all artifacts, including 7 billion and 34 billion parameter models, the Proof-Pile-2, and code to replicate our experiments.

Enlace al artículo

https://arxiv.org/abs/2310.10631

Leer más

https://x.com/zhangir_azerbay/status/1714098025956864031


Modelos de lenguaje de gran tamaño para ingeniería de software: encuesta y problemas abiertos / Large Language Models for Software Engineering: Survey and Open Problems

Presentación del artículo

  • Un artículo de encuesta integral sobre los LLM para ingeniería de software, incluyendo investigación abierta y desafíos técnicos.
    > A comprehensive survey of llms for software engineering, including open research and technical challenges.

Resumen del artículo

  • Este artículo ofrece una encuesta sobre el área emergente de los modelos de lenguaje de gran tamaño (LLM) para la ingeniería de software (SE). También plantea desafíos de investigación abiertos para la aplicación de LLM a problemas técnicos que enfrentan los ingenieros de software. Las propiedades emergentes de los LLM aportan novedad y creatividad a todo el espectro de actividades de ingeniería de software, incluyendo codificación, diseño, requisitos, reparación, refactorización, mejora de rendimiento, documentación y analítica. Sin embargo, esas mismas propiedades emergentes también generan desafíos técnicos importantes; necesitamos técnicas que puedan filtrar de manera confiable las soluciones incorrectas, como las alucinaciones. Esta encuesta revela el papel clave que deben desempeñar las técnicas híbridas (SE tradicional más LLM) en el desarrollo y despliegue de una SE basada en LLM que sea confiable, eficiente y efectiva.
    > This paper provides a survey of the emerging area of Large Language Models (LLMs) for Software Engineering (SE). It also sets out open research challenges for the application of LLMs to technical problems faced by software engineers. LLMs' emergent properties bring novelty and creativity with applications right across the spectrum of Software Engineering activities including coding, design, requirements, repair, refactoring, performance improvement, documentation and analytics. However, these very same emergent properties also pose significant technical challenges; we need techniques that can reliably weed out incorrect solutions, such as hallucinations. Our survey reveals the pivotal role that hybrid techniques (traditional SE plus LLMs) have to play in the development and deployment of reliable, efficient and effective LLM-based SE.

Enlace al artículo

https://arxiv.org/abs/2310.03533

Leer más

https://x.com/omarsar0/status/1713940983199506910


Self-RAG: aprender a recuperar, generar y criticar mediante autorreflexión / Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection

Presentación del artículo

  • Presenta un nuevo marco de trabajo de aumento por recuperación que mejora la calidad y la factualidad de los LM mediante búsqueda y autorreflexión; entrena un LM que recupera pasajes de forma adaptativa según sea necesario, y genera y reflexiona sobre los pasajes y sus propias generaciones usando tokens especiales de reflexión; supera ampliamente a los LLMs sota (ChatGPT y Llama2-chat con aumento por recuperación) en tareas de QA de dominio abierto, razonamiento y verificación de hechos, incluyendo mejoras en factualidad. #rag
    > Presents a new retrieval-augmented framework that enhances an lm’s quality and factuality through retrieval and self-reflection; trains an lm that adaptively retrieves passages on demand, and generates and reflects on the passages and its own generations using special reflection tokens; it significantly outperforms sota llms (chatgpt and retrieval-augmented llama2-chat) on open-domain qa, reasoning, and fact verification tasks, including factuality improvements.

Resumen del artículo

  • A pesar de sus notables capacidades, los modelos de lenguaje grandes (LLM) a menudo producen respuestas con inexactitudes factuales debido a que dependen únicamente del conocimiento paramétrico que encapsulan. La Retrieval-Augmented Generation (RAG), un enfoque ad hoc que refuerza a los LM con recuperación de conocimiento relevante, reduce estos problemas. Sin embargo, recuperar e incorporar indiscriminadamente una cantidad fija de pasajes, sin importar si la recuperación es necesaria o si los pasajes son relevantes, reduce la versatilidad del LM o puede llevar a generar respuestas poco útiles. Presentamos un nuevo marco llamado Self-Reflective Retrieval-Augmented Generation (Self-RAG), que mejora la calidad y la factualidad de un LM mediante recuperación y autorreflexión. El marco de Facebook entrena un único LM arbitrario que recupera pasajes de forma adaptativa bajo demanda, y genera y reflexiona sobre los pasajes recuperados y sus propias generaciones usando tokens especiales llamados reflection tokens. La generación de reflection tokens permite controlar el LM durante la fase de inferencia, lo que le permite ajustar su comportamiento a diversos requisitos de tarea. Los experimentos muestran que Self-RAG (con 7B y 13B parámetros) supera significativamente a los LLM de última generación y a los modelos con aumento por recuperación en un conjunto diverso de tareas. En particular, Self-RAG supera a ChatGPT y a Llama2-chat con aumento por recuperación en tareas de QA de dominio abierto, razonamiento y verificación de hechos, y muestra ventajas significativas para mejorar la factualidad y la precisión de las citas en generaciones de formato largo en comparación con esos modelos.
    > Despite their remarkable capabilities, large language models (LLMs) often produce responses containing factual inaccuracies due to their sole reliance on the parametric knowledge they encapsulate. Retrieval-Augmented Generation (RAG), an ad hoc approach that augments LMs with retrieval of relevant knowledge, decreases such issues. However, indiscriminately retrieving and incorporating a fixed number of retrieved passages, regardless of whether retrieval is necessary, or passages are relevant, diminishes LM versatility or can lead to unhelpful response generation. We introduce a new framework called Self-Reflective Retrieval-Augmented Generation (Self-RAG) that enhances an LM's quality and factuality through retrieval and self-reflection. Our framework trains a single arbitrary LM that adaptively retrieves passages on-demand, and generates and reflects on retrieved passages and its own generations using special tokens, called reflection tokens. Generating reflection tokens makes the LM controllable during the inference phase, enabling it to tailor its behavior to diverse task requirements. Experiments show that Self-RAG (7B and 13B parameters) significantly outperforms state-of-the-art LLMs and retrieval-augmented models on a diverse set of tasks. Specifically, Self-RAG outperforms ChatGPT and retrieval-augmented Llama2-chat on Open-domain QA, reasoning and fact verification tasks, and it shows significant gains in improving factuality and citation accuracy for long-form generations relative to these models.

Enlace al artículo

https://arxiv.org/abs/2310.11511

Leer más

https://x.com/AkariAsai/status/1715110277077962937


Entender el aumento por recuperación para preguntas y respuestas de formato largo / Understanding Retrieval Augmentation for Long-Form Question Answering

Introducción del artículo

  • Examina los modelos de lenguaje con aumento por recuperación para preguntas y respuestas de formato largo, y encuentra que la recuperación es un componente importante, pero que los documentos de evidencia deben agregarse cuidadosamente al llm; también encuentra que el error de atribución ocurre con más frecuencia cuando los documentos recuperados carecen de suficiente información/evidencia para responder la pregunta.
    > Explores retrieval-augmented language models on long-form question answering; finds that retrieval is an important component but evidence documents should be carefully added to the llm; finds that attribution error happens more frequently when retrieved documents lack sufficient information/evidence for answering the question.

Resumen del artículo

  • Presenta un estudio sobre modelos de lenguaje (LM) con augmentación por recuperación para responder preguntas de formato largo. Analiza cómo la augmentación por recuperación afecta a distintos LM al comparar respuestas generadas por los modelos usando los mismos documentos de evidencia, y cómo las diferencias en la calidad del conjunto de documentos recuperados afectan las respuestas generadas por un mismo LM. Estudia varios atributos de las respuestas generadas (por ejemplo, fluidez, longitud y varianza), con especial énfasis en la atribución de las respuestas largas generadas a los documentos de evidencia dentro del contexto. Recopila anotaciones humanas sobre la atribución de las respuestas y evalúa métodos para juzgar automáticamente esa atribución. Este estudio ofrece nuevos insights sobre cómo la augmentación por recuperación impacta la generación de texto largo y rico en conocimiento en los LM. Además, identifica patrones de atribución en la generación de texto largo y analiza los principales responsables de los errores de atribución. En conjunto, este análisis revela cómo la augmentación por recuperación impacta la generación de texto largo rico en conocimiento y ofrece direcciones para trabajos futuros.
    > We present a study of retrieval-augmented language models (LMs) on long-form question answering. We analyze how retrieval augmentation impacts different LMs, by comparing answers generated from models while using the same evidence documents, and how differing quality of retrieval document set impacts the answers generated from the same LM. We study various attributes of generated answers (e.g., fluency, length, variance) with an emphasis on the attribution of generated long-form answers to in-context evidence documents. We collect human annotations of answer attribution and evaluate methods for automatically judging attribution. Our study provides new insights on how retrieval augmentation impacts long, knowledge-rich text generation of LMs. We further identify attribution patterns for long text generation and analyze the main culprits of attribution errors. Together, our analysis reveals how retrieval augmentation impacts long knowledge-rich text generation and provide directions for future work.

Enlace al artículo

https://arxiv.org/abs/2310.12150

Leer más

https://x.com/omarsar0/status/1714986431859282144


GenBench

Introducción al artículo

  • Presenta un marco para caracterizar y comprender la investigación sobre generalización en NLP, e incluye un metaanálisis de 543 artículos y un conjunto de herramientas para explorar y entender mejor los estudios sobre generalización.
    > Presents a framework for characterizing and understanding generalization research in nlp; involves a meta-analysis of 543 papers and a set of tools to explore and better understand generalization studies.

Enlace al artículo

https://nature.com/articles/s42256-023-00729-y/…

Leer más

https://x.com/AIatMeta/status/1715041427283902793


¿Pueden los modelos de lenguaje a gran escala explicarse a sí mismos? Un estudio sobre autoexplicaciones generadas por LLM / Can Large Language Models Explain Themselves? A Study of LLM-Generated Self-Explanations

Introducción al artículo

  • Evalúa la capacidad de un LLM para autogenerar explicaciones de atribución de características. La autoexplicación es útil para mejorar el rendimiento y la veracidad en los LLM, y esta capacidad puede usarse junto con prompting de chain-of-thought. #chain-of-thought
    > Assesses an llm's capability to self-generate feature attribution explanations; self-explanation is useful to improve performance and truthfulness in llms; this capability can be used together with chain-of-thought prompting.

Resumen del artículo

  • Los modelos de lenguaje grandes (LLM) como ChatGPT han demostrado un rendimiento sobresaliente en una amplia variedad de tareas de procesamiento de lenguaje natural (NLP), como análisis de sentimientos, razonamiento matemático y resumen. Además, como estos modelos se ajustan siguiendo instrucciones sobre conversaciones humanas para generar respuestas "útiles", pueden generar explicaciones junto con la respuesta, e incluso a menudo producen lo que se denomina autoexplicaciones. Por ejemplo, al analizar el sentimiento de una reseña de cine, el modelo puede mostrar no solo si el sentimiento es positivo, sino también una explicación (por ejemplo, enumerando palabras con carga emocional en la reseña como "fantástico" o "memorable"). ¿Qué tan buenas son estas autoexplicaciones generadas automáticamente? En este artículo se investiga esa pregunta en la tarea de análisis de sentimientos y en explicaciones de atribución de características, uno de los escenarios más estudiados en la literatura de interpretabilidad (para modelos anteriores a ChatGPT). En concreto, estudiamos distintas formas de inducir autoexplicaciones, evaluamos su fidelidad con un conjunto de métricas y las comparamos con métodos tradicionales de explicación como la oclusión o los mapas de saliencia de LIME. A través de una amplia serie de experimentos, encontramos que las autoexplicaciones de ChatGPT tienen un desempeño comparable al de las explicaciones tradicionales, pero difieren considerablemente de ellas según varias métricas de concordancia, mientras que su costo de generación es mucho menor porque se producen junto con la predicción. También identificamos varias características interesantes, lo que nos lleva a replantear muchas de las prácticas actuales de interpretabilidad de modelos en la era de los LLM tipo ChatGPT.

    Large language models (LLMs) such as ChatGPT have demonstrated superior performance on a variety of natural language processing (NLP) tasks including sentiment analysis, mathematical reasoning and summarization. Furthermore, since these models are instruction-tuned on human conversations to produce "helpful" responses, they can and often will produce explanations along with the response, which we call self-explanations. For example, when analyzing the sentiment of a movie review, the model may output not only the positivity of the sentiment, but also an explanation (e.g., by listing the sentiment-laden words such as "fantastic" and "memorable" in the review). How good are these automatically generated self-explanations? In this paper, we investigate this question on the task of sentiment analysis and for feature attribution explanation, one of the most commonly studied settings in the interpretability literature (for pre-ChatGPT models). Specifically, we study different ways to elicit the self-explanations, evaluate their faithfulness on a set of evaluation metrics, and compare them to traditional explanation methods such as occlusion or LIME saliency maps. Through an extensive set of experiments, we find that ChatGPT's self-explanations perform on par with traditional ones, but are quite different from them according to various agreement metrics, meanwhile being much cheaper to produce (as they are generated along with the prediction). In addition, we identified several interesting characteristics of them, which prompt us to rethink many current model interpretability practices in the era of ChatGPT(-like) LLMs.

Enlace al artículo

https://arxiv.org/abs/2310.11207

Leer más

https://x.com/omarsar0/status/1714665747752923620


OpenAgents (OpenAgents): una plataforma abierta para agentes de lenguaje en el mundo real / OpenAgents: An Open Platform for Language Agents in the Wild

Introducción del artículo

  • Es una plataforma para usar y alojar agentes de lenguaje abiertos en entornos reales; incluye tres agentes: un agente de datos para análisis de datos, un agente de plugins con más de 200 herramientas API de uso diario y un agente web para navegación web autónoma.

    An open platform for using and hosting language agents in the wild; includes three agents, including a data agent for data analysis, a plugins agent with 200+ daily api tools, and a web agent for autonomous web browsing.

Resumen del artículo

  • Los agentes de lenguaje muestran potencial para usar lenguaje natural en tareas variadas y complejas dentro de entornos diversos, especialmente cuando se construyen sobre grandes modelos de lenguaje (LLM). Los frameworks actuales de agentes de lenguaje buscan facilitar la construcción de agentes de prueba de concepto, pero pasan por alto el acceso de usuarios no expertos y prestan poca atención al diseño a nivel de aplicación. Presentamos OpenAgents, una plataforma abierta para usar y alojar agentes de lenguaje en la vida cotidiana. OpenAgents incluye tres agentes: (1) Data Agent para análisis de datos con Python/SQL y herramientas de datos, (2) Plugins Agent con más de 200 herramientas de API de uso diario, y (3) Web Agent para navegación web autónoma. Los usuarios generales pueden interactuar con las funciones de los agentes mediante una interfaz web optimizada para respuestas rápidas y fallas comunes, mientras que desarrolladores e investigadores cuentan con una experiencia de despliegue fluida en entornos locales, lo que proporciona una base para crear agentes de lenguaje innovadores y facilitar evaluaciones en el mundo real. Aclaramos los desafíos y las oportunidades con el objetivo de sentar una base para la futura investigación y desarrollo de agentes de lenguaje del mundo real.
    > Language agents show potential in being capable of utilizing natural language for varied and intricate tasks in diverse environments, particularly when built upon large language models (LLMs). Current language agent frameworks aim to facilitate the construction of proof-of-concept language agents while neglecting the non-expert user access to agents and paying little attention to application-level designs. We present OpenAgents, an open platform for using and hosting language agents in the wild of everyday life. OpenAgents includes three agents: (1) Data Agent for data analysis with Python/SQL and data tools; (2) Plugins Agent with 200+ daily API tools; (3) Web Agent for autonomous web browsing. OpenAgents enables general users to interact with agent functionalities through a web user interface optimized for swift responses and common failures while offering developers and researchers a seamless deployment experience on local setups, providing a foundation for crafting innovative language agents and facilitating real-world evaluations. We elucidate the challenges and opportunities, aspiring to set a foundation for future research and development of real-world language agents.

Enlace al artículo

https://arxiv.org/abs/2310.10634v1

Leer más

https://x.com/ChengZhoujun/status/1714343204148113860


Obtener preferencias humanas con modelos de lenguaje / Eliciting Human Preferences with Language Models

Presentación del artículo

  • Usa modelos de lenguaje para guiar el proceso de especificación de tareas y un framework de aprendizaje para ayudar a los modelos a extraer e inferir el comportamiento deseado mediante interacción libre basada en lenguaje con los usuarios; muestra que, al generar preguntas abiertas, el sistema produce respuestas más informativas que los prompts escritos por los usuarios.
    > Uses language models to guide the task specification process and a learning framework to help models elicit and infer intended behavior through free-form, language-based interaction with users; shows that by generating open-ended questions, the system generates responses that are more informative than user-written prompts.

Resumen del artículo

  • Los modelos de lenguaje (LM) pueden orientarse para realizar tareas objetivo mediante ejemplos etiquetados o prompts en lenguaje natural. Sin embargo, seleccionar ejemplos o redactar prompts puede ser difícil, especialmente en tareas que incluyen casos límite inusuales, exigen expresar con precisión preferencias ambiguas o requieren un modelo mental preciso del comportamiento del LM. Proponemos usar los propios LM para guiar el proceso de especificación de tareas. En este artículo presentamos Generative Active Task Elicitation (GATE), un marco de aprendizaje en el que los modelos obtienen e infieren el comportamiento deseado mediante interacción libre, basada en lenguaje, con los usuarios. Estudiamos GATE en tres dominios: validación de correo electrónico, recomendación de contenido y razonamiento moral. En experimentos preregistrados, mostramos que los LM guiados para realizar GATE —por ejemplo, generando preguntas abiertas o sintetizando casos límite informativos— suelen obtener respuestas más informativas que los prompts o etiquetas escritos por usuarios. Los usuarios reportan que la elicitación interactiva de tareas requiere menos esfuerzo que redactar prompts o etiquetar ejemplos, y además saca a la luz consideraciones nuevas que los usuarios no habían anticipado al principio. Nuestros hallazgos sugieren que la elicitación impulsada por LM puede ser una herramienta poderosa para alinear modelos con preferencias y valores humanos complejos.
    > Language models (LMs) can be directed to perform target tasks by using labeled examples or natural language prompts. But selecting examples or writing prompts for can be challenging--especially in tasks that involve unusual edge cases, demand precise articulation of nebulous preferences, or require an accurate mental model of LM behavior. We propose to use LMs themselves to guide the task specification process. In this paper, we introduce Generative Active Task Elicitation (GATE): a learning framework in which models elicit and infer intended behavior through free-form, language-based interaction with users. We study GATE in three domains: email validation, content recommendation, and moral reasoning. In preregistered experiments, we show that LMs prompted to perform GATE (e.g., by generating open-ended questions or synthesizing informative edge cases) elicit responses that are often more informative than user-written prompts or labels. Users report that interactive task elicitation requires less effort than prompting or example labeling and surfaces novel considerations not initially anticipated by users. Our findings suggest that LM-driven elicitation can be a powerful tool for aligning models to complex human preferences and values.

Enlace al artículo

https://arxiv.org/abs/2310.11589

Leer más

https://x.com/AlexTamkin/status/1715040019520569395


AutoMix: mezcla automática de modelos de lenguaje / AutoMix: Automatically Mixing Language Models

Presentación del artículo

  • Un enfoque para enrutar consultas a llms según la exactitud de modelos de lenguaje más pequeños (realizado mediante autoverificación con few-shot); se introduce un meta-verificador para comprobar la salida del verificador (normalmente un modelo más pequeño) y enrutar la consulta a un modelo de lenguaje más grande si es necesario. Experimentos con llama2-13/70b en cinco conjuntos de datos de razonamiento basado en contexto demuestran que AutoMix supera las líneas base establecidas, mejorando el beneficio incremental por costo hasta en un 89%.
    > An approach to route queries to llms based on the correctness of smaller language models (done via few-shot self-verification); a meta-verifier is introduced to check the verifier's output (typically a smaller model) and route the query to a larger language model if needed. experiments using llama2-13/70b, on five context-grounded reasoning datasets demonstrate that automix surpasses established baselines, improving the incremental benefit per cost by up to 89%.

Resumen del artículo

  • Los modelos de lenguaje grandes (LLM) ya están disponibles en varios tamaños y configuraciones a través de proveedores de API en la nube. Aunque esta diversidad ofrece un amplio abanico de opciones, aprovecharlas de forma efectiva para optimizar el costo computacional y el rendimiento sigue siendo un reto. En este trabajo presentamos AutoMix, un enfoque que enruta estratégicamente consultas hacia LM más grandes basándose en la corrección aproximada de las salidas de un LM más pequeño. En el centro de AutoMix hay un mecanismo de autoverificación few-shot que estima la confiabilidad de sus propias salidas sin requerir entrenamiento. Dado que las verificaciones pueden ser ruidosas, AutoMix emplea un meta-verificador para refinar la precisión de estas evaluaciones. Los resultados experimentales con LLAMA2-13/70B en cinco conjuntos de datos de razonamiento basado en contexto muestran que AutoMix supera las líneas base existentes, mejorando el beneficio incremental por costo hasta en un 89%. El código y los datos están disponibles en https://github.com/automix-llm/automix.
    > Large language models (LLMs) are now available in various sizes and configurations from cloud API providers. While this diversity offers a broad spectrum of choices, effectively leveraging the options to optimize computational cost and performance remains challenging. In this work, we present AutoMix, an approach that strategically routes queries to larger LMs, based on the approximate correctness of outputs from a smaller LM. Central to AutoMix is a few-shot self-verification mechanism, which estimates the reliability of its own outputs without requiring training. Given that verifications can be noisy, we employ a meta verifier in AutoMix to refine the accuracy of these assessments. Our experiments using LLAMA2-13/70B, on five context-grounded reasoning datasets demonstrate that AutoMix surpasses established baselines, improving the incremental benefit per cost by up to 89%. Our code and data are available at https://github.com/automix-llm/automix.

Enlace al artículo

https://arxiv.org/abs/2310.12963

Leer más

https://x.com/omarsar0/status/1715385477627334718


Planificación de video y lenguaje / Video Language Planning

Introducción del artículo

  • El algoritmo propuesto puede sintetizar planes de video complejos y de largo horizonte en distintos dominios de la robótica mediante un procedimiento de búsqueda en árbol que entrena modelos de visión-lenguaje como políticas y funciones de valor, y modelos de texto a video como modelos dinámicos.
    > Enables synthesizing complex long-horizon video plans across robotics domains; the proposed algorithm involves a tree search procedure that trains vision-language models to serve as policies and value functions, and text-to-video models as dynamic models.

Resumen del artículo

  • Nos interesa hacer posible la planificación visual para tareas complejas de largo horizonte en el espacio de videos y lenguaje generados, aprovechando los avances recientes en grandes modelos generativos preentrenados con datos a escala de Internet. Para ello, presentamos Video Language Planning (VLP), un algoritmo compuesto por un procedimiento de búsqueda en árbol, en el que entrenamos (i) modelos de visión-lenguaje para que funcionen tanto como políticas como funciones de valor, y (ii) modelos de texto a video como modelos de dinámica. VLP toma como entrada una instrucción de tarea de largo horizonte y la observación actual de la imagen, y genera un plan de video largo que ofrece especificaciones multimodales detalladas (video y lenguaje) que describen cómo completar la tarea final. VLP escala con el aumento del presupuesto de cómputo, donde más tiempo de cómputo produce mejores planes de video, y puede sintetizar planes de video de largo horizonte en distintos dominios de la robótica: desde la reorganización de múltiples objetos hasta la manipulación diestra bimanual con múltiples cámaras. Los planes de video generados pueden traducirse en acciones reales del robot mediante políticas condicionadas por objetivos, condicionadas en cada fotograma intermedio del video generado. Los experimentos muestran que VLP mejora sustancialmente las tasas de éxito en tareas de largo horizonte en comparación con métodos previos, tanto en robots simulados como en robots reales (en 3 plataformas de hardware).
    > We are interested in enabling visual planning for complex long-horizon tasks in the space of generated videos and language, leveraging recent advances in large generative models pretrained on Internet-scale data. To this end, we present video language planning (VLP), an algorithm that consists of a tree search procedure, where we train (i) vision-language models to serve as both policies and value functions, and (ii) text-to-video models as dynamics models. VLP takes as input a long-horizon task instruction and current image observation, and outputs a long video plan that provides detailed multimodal (video and language) specifications that describe how to complete the final task. VLP scales with increasing computation budget where more computation time results in improved video plans, and is able to synthesize long-horizon video plans across different robotics domains: from multi-object rearrangement, to multi-camera bi-arm dexterous manipulation. Generated video plans can be translated into real robot actions via goal-conditioned policies, conditioned on each intermediate frame of the generated video. Experiments show that VLP substantially improves long-horizon task success rates compared to prior methods on both simulated and real robots (across 3 hardware platforms).

Enlace del artículo

https://arxiv.org/abs/2310.10625

Leer más

https://x.com/du_yilun/status/1714297584842318157

Texto original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-ff8

Aún no hay comentarios.

Aún no hay comentarios.