[2023/09/11 ~ 09/17] Los principales artículos de ML de esta semana (Top ML Papers of the Week)
(discuss.pytorch.kr)Resumen
- Se ha realizado una traducción automática de los artículos sobre papers de ML que DAIR.AI publica cada semana.
- Los artículos seleccionados esta semana se concentran en su mayoría en el tema de los LLM (Large Language Model). En particular, resulta llamativo que aborden los LLM de formas muy diversas. Estos papers analizan los LLM desde distintas perspectivas, como la forma de entrenar modelos de lenguaje, el potencial de desarrollo de los LLM basados en agentes, el refinamiento de los LLM y su capacidad de aprendizaje autónomo, además de una serie de investigaciones relacionadas con los LLM.
- Esta tendencia muestra que la forma de entrenamiento de los modelos de lenguaje está cobrando gran importancia en los campos de la inteligencia artificial y el aprendizaje automático, y que dentro de ello los LLM están recibiendo especial atención. Además, la diversidad de enfoques para trabajar con LLM sugiere cuán ampliamente puede aplicarse esta tecnología y deja ver su potencial.
Solo necesitas libros de texto II: informe técnico de PHI-1.5 / Textbooks Are All You Need II: phi-1.5 technical report
Introducción al paper
- Un nuevo modelo de 1.3 mil millones de parámetros entrenado con 30 mil millones de tokens; el conjunto de datos está compuesto por datos sintéticos de “calidad de libro de texto”; phi-1.5 compite o supera a otros modelos más grandes en tareas de razonamiento, lo que sugiere que la calidad de los datos juega un papel más importante de lo que se pensaba anteriormente. #llm #llm-alignment
A new 1.3 billion parameter model trained on 30 billion tokens; the dataset consists of "textbook-quality" synthetically generated data; phi-1.5 competes or outperforms other larger models on reasoning tasks suggesting that data quality plays a more important role than previously thought.
Resumen del paper
- Continuamos la investigación sobre el potencial de los modelos de lenguaje pequeños basados en Transformer, iniciada con $TinyStories$, un modelo de 10 millones de parámetros capaz de producir inglés coherente, y seguida por el trabajo sobre $phi-1$, un modelo de 1.3 mil millones de parámetros con un rendimiento en programación en Python cercano al estado del arte. Ese trabajo posterior propuso usar grandes modelos de lenguaje (LLM) existentes para generar datos de “calidad de libro de texto” como una forma de mejorar el proceso de aprendizaje frente a los datos web tradicionales. En esta ocasión seguimos el enfoque de “Solo necesitas libros de texto”, centrándonos en el razonamiento de sentido común en lenguaje natural, y creamos un nuevo modelo de 1.3 mil millones de parámetros llamado \textbf{phi-1.5}, con un rendimiento en tareas de lenguaje natural comparable al de modelos 5 veces más grandes, y que supera a la mayoría de los LLM no frontier en tareas de razonamiento más complejas, como matemáticas de nivel primaria y programación básica. En términos más generales, $phi-1.5$ exhibe muchas de las características de LLM mucho más grandes, tanto las buenas —como la capacidad de “pensar paso a paso” o realizar cierto aprendizaje en contexto rudimentario— como las malas, incluidas las alucinaciones y la posibilidad de generar contenido tóxico o sesgado; aun así, de forma alentadora, estamos viendo mejoras en ese aspecto gracias a la ausencia de datos web. Hemos publicado $phi-1.5$ como open source para fomentar más investigación sobre estos temas urgentes.
We continue the investigation into the power of smaller Transformer-based language models as initiated by \textbf{TinyStories} -- a 10 million parameter model that can produce coherent English -- and the follow-up work on \textbf{phi-1}, a 1.3 billion parameter model with Python coding performance close to the state-of-the-art. The latter work proposed to use existing Large Language Models (LLMs) to generate
textbook quality" data as a way to enhance the learning process compared to traditional web data. We follow theTextbooks Are All You Need" approach, focusing this time on common sense reasoning in natural language, and create a new 1.3 billion parameter model named \textbf{phi-1.5}, with performance on natural language tasks comparable to models 5x larger, and surpassing most non-frontier LLMs on more complex reasoning tasks such as grade-school mathematics and basic coding. More generally, \textbf{phi-1.5} exhibits many of the traits of much larger LLMs, both good -- such as the ability to ``think step by step" or perform some rudimentary in-context learning -- and bad, including hallucinations and the potential for toxic and biased generations -- encouragingly though, we are seeing improvement on that front thanks to the absence of web data. We open-source \textbf{phi-1.5} to promote further research on these urgent topics.
Enlace del paper
https://arxiv.org/abs/2309.05463
Leer más
https://x.com/omarsar0/status/1701590130270601422
El auge y el potencial de los agentes basados en grandes modelos de lenguaje: survey paper / The Rise and Potential of Large Language Model Based Agents: A Survey
Introducción al paper
- Una visión general integral de los agentes basados en LLM; cubre desde cómo construir estos agentes hasta cómo aprovecharlos de manera útil. #survey-paper
A comprehensive overview of llm based agents; covers from how to construct these agents to how to harness them for good.
Resumen del paper
- La humanidad ha perseguido durante mucho tiempo una inteligencia artificial (IA) igual o superior a la humana, y los agentes de IA han sido considerados un medio prometedor para lograr ese objetivo. Los agentes de IA son entidades artificiales que perciben su entorno, toman decisiones y ejecutan acciones. Desde mediados del siglo XX se han realizado muchos esfuerzos para desarrollar agentes de IA inteligentes. Sin embargo, esos esfuerzos se han centrado principalmente en avances en algoritmos o estrategias de entrenamiento para mejorar capacidades específicas o el rendimiento en tareas concretas. En realidad, lo que le falta a la comunidad es un modelo lo suficientemente general y potente que pueda servir como punto de partida para diseñar agentes de IA capaces de adaptarse a diversos escenarios. Los modelos de lenguaje de gran tamaño (LLM), debido a sus capacidades versátiles y sobresalientes, son considerados posibles chispas de la inteligencia artificial general (AGI) y ofrecen esperanza para construir agentes de IA generales. Muchos esfuerzos de investigación han aprovechado los LLM como base para construir agentes de IA y han logrado avances significativos. Primero, rastrean el concepto de agente desde sus orígenes filosóficos hasta su desarrollo en la IA, y explican por qué los LLM son una base adecuada para los agentes de IA. A partir de esto, presentan un marco conceptual para agentes basados en LLM compuesto por tres componentes principales: cerebro, percepción y acción; este marco puede adaptarse a distintas aplicaciones. Luego, exploran las amplias aplicaciones de los agentes basados en LLM desde tres perspectivas: escenarios de agente único, escenarios multiagente y colaboración entre humanos y agentes. Después, profundizan en las sociedades de agentes, explorando el comportamiento y la personalidad de los agentes basados en LLM, los fenómenos sociales que emergen cuando forman sociedades y los conocimientos que ofrecen sobre la sociedad humana. Finalmente, discuten una variedad de temas clave y problemas abiertos dentro de este campo.
For a long time, humanity has pursued artificial intelligence (AI) equivalent to or surpassing the human level, with AI agents considered a promising vehicle for this pursuit. AI agents are artificial entities that sense their environment, make decisions, and take actions. Many efforts have been made to develop intelligent AI agents since the mid-20th century. However, these efforts have mainly focused on advancement in algorithms or training strategies to enhance specific capabilities or performance on particular tasks. Actually, what the community lacks is a sufficiently general and powerful model to serve as a starting point for designing AI agents that can adapt to diverse scenarios. Due to the versatile and remarkable capabilities they demonstrate, large language models (LLMs) are regarded as potential sparks for Artificial General Intelligence (AGI), offering hope for building general AI agents. Many research efforts have leveraged LLMs as the foundation to build AI agents and have achieved significant progress. We start by tracing the concept of agents from its philosophical origins to its development in AI, and explain why LLMs are suitable foundations for AI agents. Building upon this, we present a conceptual framework for LLM-based agents, comprising three main components: brain, perception, and action, and the framework can be tailored to suit different applications. Subsequently, we explore the extensive applications of LLM-based agents in three aspects: single-agent scenarios, multi-agent scenarios, and human-agent cooperation. Following this, we delve into agent societies, exploring the behavior and personality of LLM-based agents, the social phenomena that emerge when they form societies, and the insights they offer for human society. Finally, we discuss a range of key topics and open problems within the field.
Enlace al artículo
https://arxiv.org/abs/2309.07864
Leer más
https://x.com/omarsar0/status/1702736490067890239
EvoDiff
Presentación del artículo
- Combina datos a escala evolutiva con modelos de difusión para la generación controlable de proteínas en el espacio de secuencias; puede generar proteínas inaccesibles para los modelos basados en estructura. #diffusion
Combines evolutionary-scale data with diffusion models for controllable protein generation in sequence space; it can generate proteins inaccessible to structure-based models.
Enlace al artículo
https://www.biorxiv.org/content/10.1101/2023.09.11.556673v1
Leer más
https://x.com/KevinKaichuang/status/1701953715312136302
RAIN: Los modelos de lenguaje pueden alinearse por sí mismos sin finetuning / RAIN: Your Language Models Can Align Themselves without Finetuning
Presentación del artículo
- Descubre que, al integrar mecanismos de autoevaluación y rebobinado, los llms no alineados pueden producir directamente respuestas consistentes con las preferencias humanas mediante auto-refuerzo.
Discovers that by integrating self-evaluation and rewind mechanisms, unaligned llms can directly produce responses consistent with human preferences via self-boosting.
Resumen del artículo
- Los modelos de lenguaje grandes (LLM) a menudo muestran inconsistencias con las preferencias humanas. Investigaciones anteriores recopilaron datos de preferencias humanas y luego alinearon los modelos preentrenados usando aprendizaje por refuerzo o instruction tuning, la llamada etapa de ajuste fino. En contraste, alinear LLM congelados sin datos adicionales resulta más atractivo. Este trabajo explora el potencial de este último enfoque. Descubrieron que, al integrar mecanismos de autoevaluación y rebobinado, los LLM no alineados pueden producir directamente respuestas consistentes con las preferencias humanas mediante autoimpulso. Unity introduce un nuevo método de inferencia, Rewindable Auto-regressive INference (RAIN), que permite que los LLM preentrenados evalúen su propia generación y usen los resultados de esa evaluación para guiar el rebobinado hacia atrás y la generación hacia adelante con fines de seguridad de IA. En particular, RAIN funciona sin necesidad de datos adicionales para la alineación del modelo y no requiere entrenamiento, cálculo de gradientes ni actualización de parámetros; durante la fase de autoevaluación, el modelo recibe instrucciones sobre con qué preferencia humana alinearse a través de un prompt de plantilla fija, eliminando la necesidad de modificar el prompt inicial. Los resultados experimentales, evaluados por GPT-4 y por personas, demuestran la efectividad de RAIN. En el conjunto de datos HH, RAIN mejora la tasa de inocuidad de LLaMA 30B del 82% al 97% frente a la inferencia vanilla, mientras mantiene la tasa de utilidad. Bajo
llm-attacks, el principal ataque adversarial contra Vicuna 33B, RAIN establece una nueva línea base de defensa al reducir la tasa de éxito del ataque del 94% al 19%.Large language models (LLMs) often demonstrate inconsistencies with human preferences. Previous research gathered human preference data and then aligned the pre-trained models using reinforcement learning or instruction tuning, the so-called finetuning step. In contrast, aligning frozen LLMs without any extra data is more appealing. This work explores the potential of the latter setting. We discover that by integrating self-evaluation and rewind mechanisms, unaligned LLMs can directly produce responses consistent with human preferences via self-boosting. We introduce a novel inference method, Rewindable Auto-regressive INference (RAIN), that allows pre-trained LLMs to evaluate their own generation and use the evaluation results to guide backward rewind and forward generation for AI safety. Notably, RAIN operates without the need of extra data for model alignment and abstains from any training, gradient computation, or parameter updates; during the self-evaluation phase, the model receives guidance on which human preference to align with through a fixed-template prompt, eliminating the need to modify the initial prompt. Experimental results evaluated by GPT-4 and humans demonstrate the effectiveness of RAIN: on the HH dataset, RAIN improves the harmlessness rate of LLaMA 30B over vanilla inference from 82% to 97%, while maintaining the helpfulness rate. Under the leading adversarial attack llm-attacks on Vicuna 33B, RAIN establishes a new defense baseline by reducing the attack success rate from 94% to 19%.
Enlace al artículo
https://arxiv.org/abs/2309.07124
Leer más
https://x.com/omarsar0/status/1702131444041011395
Aprendizaje de parkour para robots / Robot Parkour Learning
Introducción del artículo
- Presenta un sistema para aprender una política de parkour visual de extremo a extremo, transferida a un robot cuadrúpedo usando su cámara de profundidad egocéntrica; muestra que robots de bajo costo pueden seleccionar y ejecutar automáticamente habilidades de parkour en un entorno del mundo real.
Presents a system for learning end-to-end vision-based parkour policy which is transferred to a quadrupedal robot using its ecocentric depth camera; shows that low-cost robots can automatically select and execute parkour skills in a real-world environment.
Resumen del artículo
- El parkour es un gran desafío para la locomoción con patas, ya que requiere que los robots superen rápidamente diversos obstáculos en entornos complejos. Los métodos existentes pueden generar habilidades de locomoción diversas pero ciegas, o habilidades basadas en visión pero especializadas, mediante el uso de datos de animales de referencia o recompensas complejas. Sin embargo, para lograr un parkour autónomo, los robots deben aprender habilidades generalizables que sean tanto diversas como basadas en visión, para percibir y reaccionar ante distintos escenarios. En este trabajo, se propone un sistema para aprender una única política de parkour end-to-end basada en visión que integre diversas habilidades de parkour usando una recompensa simple y sin datos de movimientos de referencia. Se desarrolla un método de aprendizaje por refuerzo inspirado en direct collocation para generar habilidades de parkour, entre ellas trepar obstáculos altos, saltar grandes brechas, arrastrarse por debajo de barreras bajas, pasar por ranuras estrechas y correr. Luego, estas habilidades se destilan en una sola política de parkour basada en visión y se transfieren a un robot cuadrúpedo usando su cámara de profundidad egocéntrica. Se demuestra que el sistema puede permitir que dos robots distintos y de bajo costo seleccionen y ejecuten de forma autónoma las habilidades de parkour adecuadas para atravesar entornos reales desafiantes.
Parkour is a grand challenge for legged locomotion that requires robots to overcome various obstacles rapidly in complex environments. Existing methods can generate either diverse but blind locomotion skills or vision-based but specialized skills by using reference animal data or complex rewards. However, autonomous parkour requires robots to learn generalizable skills that are both vision-based and diverse to perceive and react to various scenarios. In this work, we propose a system for learning a single end-to-end vision-based parkour policy of diverse parkour skills using a simple reward without any reference motion data. We develop a reinforcement learning method inspired by direct collocation to generate parkour skills, including climbing over high obstacles, leaping over large gaps, crawling beneath low barriers, squeezing through thin slits, and running. We distill these skills into a single vision-based parkour policy and transfer it to a quadrupedal robot using its egocentric depth camera. We demonstrate that our system can empower two different low-cost robots to autonomously select and execute appropriate parkour skills to traverse challenging real-world environments.
Enlace al artículo
https://arxiv.org/abs/2309.05665
Leer más
https://x.com/zipengfu/status/1701316023612219445
Encuesta sobre las alucinaciones en grandes modelos fundacionales / A Survey of Hallucination in Large Foundation Models
Introducción al artículo
- Clasifica distintos tipos de fenómenos de alucinación y ofrece criterios de evaluación para medirlas junto con estrategias de mitigación. #survey-paper #foundation-model
Classifies different types of hallucination phenomena and provides evaluation criteria for assessing hallucination along with mitigation strategies.
Resumen del artículo
- La alucinación en un modelo fundacional (FM) se refiere a la generación de contenido que se desvía de la realidad factual o incluye información fabricada. Este artículo de encuesta ofrece una visión general amplia de los esfuerzos recientes para identificar, esclarecer y abordar el problema de las alucinaciones, con un enfoque particular en los modelos fundacionales “grandes” (LFM). El artículo clasifica varios tipos de fenómenos de alucinación específicos de los LFM y establece criterios de evaluación para medir el grado de alucinación. También examina las estrategias existentes para mitigar las alucinaciones en los LFM y analiza posibles direcciones para investigaciones futuras en esta área. En esencia, el artículo ofrece un examen integral de los desafíos y las soluciones relacionadas con las alucinaciones en los LFM.
Hallucination in a foundation model (FM) refers to the generation of content that strays from factual reality or includes fabricated information. This survey paper provides an extensive overview of recent efforts that aim to identify, elucidate, and tackle the problem of hallucination, with a particular focus on ``Large'' Foundation Models (LFMs). The paper classifies various types of hallucination phenomena that are specific to LFMs and establishes evaluation criteria for assessing the extent of hallucination. It also examines existing strategies for mitigating hallucination in LFMs and discusses potential directions for future research in this area. Essentially, the paper offers a comprehensive examination of the challenges and solutions related to hallucination in LFMs.
Enlace al artículo
https://arxiv.org/abs/2309.05922
Leer más
https://x.com/omarsar0/status/1701970034711539839
Agents: un framework open source para agentes de lenguaje autónomos / Agents: An Open-source Framework for Autonomous Language Agents
Introducción al artículo
- Es una librería open source para construir agentes de lenguaje autónomos, con soporte para funciones como planificación, memoria, uso de herramientas, comunicación multiagente y más.
An open-source library for building autonomous language agents including support for features like planning, memory, tool usage, multi-agent communication, and more.
Resumen del artículo
- Los avances recientes en los modelos de lenguaje grandes (LLM) permiten a investigadores y desarrolladores crear agentes de lenguaje autónomos que pueden resolver automáticamente diversas tareas e interactuar con entornos, personas y otros agentes usando interfaces de lenguaje natural. Consideramos que los agentes de lenguaje son una dirección prometedora hacia la inteligencia artificial general y lanzamos Agents, una biblioteca de código abierto con el objetivo de acercar estos avances a una audiencia más amplia de no especialistas. Agents está cuidadosamente diseñado para admitir funciones importantes, como planificación, memoria, uso de herramientas, comunicación multiagente y control simbólico granular. Agents es fácil de usar, ya que permite a personas no especialistas crear, personalizar, probar, ajustar e implementar agentes de lenguaje autónomos de última generación sin necesidad de mucho código. La biblioteca también es adecuada para la investigación, ya que su diseño modular la hace fácilmente extensible para investigadores. Agents está disponible en https://github.com/aiwaves-cn/agents.
Recent advances on large language models (LLMs) enable researchers and developers to build autonomous language agents that can automatically solve various tasks and interact with environments, humans, and other agents using natural language interfaces. We consider language agents as a promising direction towards artificial general intelligence and release Agents, an open-source library with the goal of opening up these advances to a wider non-specialist audience. Agents is carefully engineered to support important features including planning, memory, tool usage, multi-agent communication, and fine-grained symbolic control. Agents is user-friendly as it enables non-specialists to build, customize, test, tune, and deploy state-of-the-art autonomous language agents without much coding. The library is also research-friendly as its modularized design makes it easily extensible for researchers. Agents is available at https://github.com/aiwaves-cn/agents.
Enlace al artículo
https://arxiv.org/abs/2309.07870
Leer más
https://x.com/arankomatsuzaki/status/1702497897395396960
Radiology-Llama2: modelo de lenguaje grande líder en su clase para radiología / Radiology-Llama2: Best-in-Class Large Language Model for Radiology
Introducción del artículo
- Presenta un LLM basado en Llama 2 adaptado para radiología; fue ajustado con un gran conjunto de datos de informes radiológicos para generar impresiones coherentes y clínicamente útiles a partir de hallazgos radiológicos.
Presents an llm based on llama 2 tailored for radiology; it's tuned on a large dataset of radiology reports to generate coherent and clinically useful impressions from radiology findings.
Resumen del artículo
- Este artículo presenta Radiology-Llama2, un modelo de lenguaje grande especializado en radiología mediante un proceso conocido como instruction tuning. Radiology-Llama2 se basa en la arquitectura Llama2 y fue entrenado adicionalmente con un gran conjunto de datos de informes radiológicos para generar impresiones coherentes y clínicamente útiles a partir de hallazgos radiológicos. Las evaluaciones cuantitativas con métricas ROUGE en los conjuntos de datos MIMIC-CXR y OpenI demuestran que Radiology-Llama2 logra un rendimiento de vanguardia en comparación con otros modelos generativos de lenguaje, con una puntuación Rouge-1 de 0.4834 en MIMIC-CXR y 0.4185 en OpenI. Evaluaciones adicionales por expertos en radiología destacaron las fortalezas del modelo en comprensibilidad, coherencia, relevancia, concisión y utilidad clínica. Este trabajo ilustra el potencial de los modelos de lenguaje localizados diseñados y ajustados para dominios especializados como la radiología. Cuando se evalúan e implementan adecuadamente, estos modelos pueden transformar campos como la radiología al automatizar tareas rutinarias y potenciar la experiencia humana.
This paper introduces Radiology-Llama2, a large language model specialized for radiology through a process known as instruction tuning. Radiology-Llama2 is based on the Llama2 architecture and further trained on a large dataset of radiology reports to generate coherent and clinically useful impressions from radiological findings. Quantitative evaluations using ROUGE metrics on the MIMIC-CXR and OpenI datasets demonstrate that Radiology-Llama2 achieves state-of-the-art performance compared to other generative language models, with a Rouge-1 score of 0.4834 on MIMIC-CXR and 0.4185 on OpenI. Additional assessments by radiology experts highlight the model's strengths in understandability, coherence, relevance, conciseness, and clinical utility. The work illustrates the potential of localized language models designed and tuned for specialized domains like radiology. When properly evaluated and deployed, such models can transform fields like radiology by automating rote tasks and enhancing human expertise.
Enlace al artículo
https://arxiv.org/abs/2309.06419
Leer más
https://x.com/omarsar0/status/1701774444052557965
Agentes comunicativos para el desarrollo de software / Communicative Agents for Software Development
Introducción del artículo
- Presenta chatdev, una empresa virtual de desarrollo de software impulsada por chat que refleja el modelo en cascada; muestra la eficacia del agente en la generación de software, incluso completando todo el proceso de desarrollo de software en menos de siete minutos por menos de un dólar.
Presents chatdev, a virtual chat-powered software development company mirroring the waterfall model; shows the efficacy of the agent in software generation, even completing the entire software development process in less than seven minutes for less than one dollar.
Resumen del artículo
- La ingeniería de software es un campo caracterizado por procesos complejos de toma de decisiones, que a menudo dependen de una intuición sutil y de la consulta. Los avances recientes en aprendizaje profundo han comenzado a revolucionar las prácticas de ingeniería de software mediante diseños sofisticados implementados en diversas etapas del desarrollo de software. En este artículo, presentamos un paradigma innovador que aprovecha los modelos de lenguaje grandes (LLM) a lo largo de todo el proceso de desarrollo de software, agilizando y unificando procesos clave mediante comunicación en lenguaje natural, eliminando así la necesidad de modelos especializados en cada fase. En el centro de este paradigma se encuentra ChatDev, una empresa virtual de desarrollo de software impulsada por chat que refleja el modelo tradicional en cascada, dividiendo meticulosamente el proceso de desarrollo en cuatro etapas cronológicas distintas: diseño, codificación, pruebas y documentación. En cada etapa participa un equipo de agentes, como programadores, revisores de código e ingenieros de pruebas, fomentando el diálogo colaborativo y facilitando un flujo de trabajo fluido. La cadena de chat actúa como facilitadora, descomponiendo cada etapa en subtareas atómicas. Esto le permite cumplir una función dual, al proponer y validar soluciones mediante comunicación consciente del contexto, lo que conduce a una resolución eficiente de subtareas específicas. El análisis instrumental de ChatDev destaca su notable eficacia en la generación de software, permitiendo completar todo el proceso de desarrollo en menos de siete minutos con un costo inferior a un dólar. No solo identifica y mitiga vulnerabilidades potenciales, sino que también corrige posibles alucinaciones, manteniendo al mismo tiempo una eficiencia y rentabilidad sobresalientes. El potencial de ChatDev abre nuevas posibilidades para integrar los LLM en el ámbito del desarrollo de software.
Software engineering is a domain characterized by intricate decision-making processes, often relying on nuanced intuition and consultation. Recent advancements in deep learning have started to revolutionize software engineering practices through elaborate designs implemented at various stages of software development. In this paper, we present an innovative paradigm that leverages large language models (LLMs) throughout the entire software development process, streamlining and unifying key processes through natural language communication, thereby eliminating the need for specialized models at each phase. At the core of this paradigm lies ChatDev, a virtual chat-powered software development company that mirrors the established waterfall model, meticulously dividing the development process into four distinct chronological stages: designing, coding, testing, and documenting. Each stage engages a team of agents, such as programmers, code reviewers, and test engineers, fostering collaborative dialogue and facilitating a seamless workflow. The chat chain acts as a facilitator, breaking down each stage into atomic subtasks. This enables dual roles, allowing for proposing and validating solutions through context-aware communication, leading to efficient resolution of specific subtasks. The instrumental analysis of ChatDev highlights its remarkable efficacy in software generation, enabling the completion of the entire software development process in under seven minutes at a cost of less than one dollar. It not only identifies and alleviates potential vulnerabilities but also rectifies potential hallucinations while maintaining commendable efficiency and cost-effectiveness. The potential of ChatDev unveils fresh possibilities for integrating LLMs into the realm of software development.
Enlace del artículo
https://arxiv.org/abs/2307.07924v3
Leer más
https://x.com/KevinAFischer/status/1702355125418045860
MAmmoTH: construcción de modelos generalistas de matemáticas mediante ajuste fino híbrido por instrucciones / MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning
Introducción del artículo
- Una serie de modelos de machine learning de código abierto adaptados para la resolución general de problemas matemáticos, entrenados con un conjunto de datos curado de ajuste por instrucciones, que superan a los modelos open source existentes en varios conjuntos de datos de razonamiento matemático. #mathglm
A series of open-source llms tailored for general math problem-solving; the models are trained on a curated instruction tuning dataset and outperform existing open-source models on several mathematical reasoning datasets.
Resumen del artículo
- Presentamos MAmmoTH, una serie de modelos de lenguaje grandes (LLM) de código abierto, específicamente adaptados para la resolución general de problemas matemáticos. Los modelos MAmmoTH se entrenan con MathInstruct, un conjunto de datos de ajuste por instrucciones cuidadosamente curado. MathInstruct se compila a partir de 13 conjuntos de datos matemáticos con razonamientos intermedios, de los cuales 6 incluyen razonamientos recién curados por Unity. Esta solución ofrece un híbrido único de razonamientos chain-of-thought (CoT) y program-of-thought (PoT), y cubre ampliamente diversos campos de las matemáticas. La combinación de CoT y PoT no solo libera el potencial del uso de herramientas, sino que también permite distintos procesos de pensamiento para diferentes problemas matemáticos. Como resultado, la serie MAmmoTH supera de forma significativa a los modelos de código abierto existentes en 9 conjuntos de datos de razonamiento matemático en todas las escalas, con una mejora promedio de precisión de entre 13% y 29%. Cabe destacar que, en MATH, un conjunto de datos de nivel competitivo, el modelo MAmmoTH-7B alcanza 35%, superando en 25% al mejor modelo abierto de 7B (WizardMath), y el modelo MAmmoTH-34B logra una precisión de 46% en MATH, incluso por encima del resultado CoT de GPT-4. Este trabajo subraya la importancia de una cobertura diversa de problemas y del uso de razonamientos híbridos para desarrollar mejores modelos generalistas de matemáticas.
We introduce MAmmoTH, a series of open-source large language models (LLMs) specifically tailored for general math problem-solving. The MAmmoTH models are trained on MathInstruct, our meticulously curated instruction tuning dataset. MathInstruct is compiled from 13 math datasets with intermediate rationales, six of which have rationales newly curated by us. It presents a unique hybrid of chain-of-thought (CoT) and program-of-thought (PoT) rationales, and also ensures extensive coverage of diverse fields in math. The hybrid of CoT and PoT not only unleashes the potential of tool use but also allows different thought processes for different math problems. As a result, the MAmmoTH series substantially outperform existing open-source models on nine mathematical reasoning datasets across all scales with an average accuracy gain between 13% and 29%. Remarkably, our MAmmoTH-7B model reaches 35% on MATH (a competition-level dataset), which exceeds the best open-source 7B model (WizardMath) by 25%, and the MAmmoTH-34B model achieves 46% accuracy on MATH, even surpassing GPT-4's CoT result. Our work underscores the importance of diverse problem coverage and the use of hybrid rationales in developing superior math generalist models.
Enlace al artículo
https://arxiv.org/abs/2309.05653
Leer más
https://x.com/xiangyue96/status/1701710215442309323
Texto original
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-461
Aún no hay comentarios.