[2024/04/22 ~ 04/28] Los principales papers de ML de esta semana (Top ML Papers of the Week)
(discuss.pytorch.kr)-
He traducido automáticamente los artículos sobre papers de ML que DAIR.AI publica cada semana.
-
Al revisar los papers presentados esta semana, parece que la mayoría se enfocan en los modelos de lenguaje de próxima generación (Large Language Models, LLMs) y sus áreas de aplicación. En concreto, trabajos como "Make Your LLM Fully Utilize the Context", "Graph Machine Learning in the Era of LLMs", "Self-Evolution of LLMs" y "Naturalized Execution Tuning (NExT)" abordan la evolución y los métodos de optimización de los LLMs, así como nuevas áreas de aplicación. Esto refleja la creciente importancia y el potencial de uso de los LLMs en el campo reciente de la inteligencia artificial.
-
La evolución de los LLMs es importante porque estos modelos muestran un desempeño sobresaliente no solo en el procesamiento de lenguaje natural (Natural Language Processing, NLP), sino también al realizar diversas tareas multimodales. Por ejemplo, el paper "Make Your LLM Fully Utilize the Context" explora cómo los LLMs pueden aprovechar al máximo el contexto proporcionado para extraer e interpretar información con mayor precisión. Además, "Graph Machine Learning in the Era of LLMs" estudia cómo el aprendizaje sobre datos basados en grafos puede mejorarse mediante los LLMs, lo que resulta de gran ayuda para comprender relaciones y patrones complejos.
-
Esta tendencia sugiere que el papel de los LLMs en el campo de la inteligencia artificial ya no se limita simplemente a la comprensión y generación de lenguaje, sino que se está expandiendo hacia una resolución de problemas y unas aplicaciones mucho más amplias. Esto puede verse como parte del esfuerzo de los investigadores por explorar diversos aspectos de la inteligencia artificial y, en particular, por desarrollar modelos capaces de comprender y usar mejor el lenguaje humano. Además, esta tendencia de investigación respalda la perspectiva de que el uso de LLMs seguirá aumentando en distintos campos.
Reporte técnico de Phi-3: un modelo de lenguaje altamente capaz que funciona localmente en tu teléfono / Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone
Introducción al paper
phi-3-mini, un nuevo modelo de lenguaje de 3.8B parámetros entrenado con 3.3 billones de tokens, fue reportado como competitivo frente a Mixtral 8x7B y GPT-3.5; tiene una longitud de contexto predeterminada de 4K, pero también incluye una versión extendida a 128K (phi-mini-128K); combina datos web fuertemente filtrados y datos sintéticos para entrenar el modelo de 3.8B; y también reporta resultados de modelos de 7B y 14B (phi-3-small y phi-3-medium) entrenados con 4.8T tokens.
A new 3.8B parameter language model called phi-3-mini trained on 3.3 trillion tokens and is reported to rival Mixtral 8x7B and GPT-3.5; has a default context length of 4K but also includes a version that is extended to 128K (phi-mini-128K); combines heavily filtered web data and synthetic data to train the 3.8B models; it also reports results on 7B and 14B models trained on 4.8T tokens (phi-3-small and phi-3-medium).
Resumen del paper (Abstract)
Presentamos phi-3-mini, un modelo de lenguaje de 3.8 mil millones de parámetros entrenado con 3.3 billones de tokens, cuyo rendimiento general, medido tanto por benchmarks académicos como por pruebas internas, rivaliza con el de modelos como Mixtral 8x7B y GPT-3.5 (por ejemplo, phi-3-mini logra 69% en MMLU y 8.38 en MT-bench), a pesar de ser lo suficientemente pequeño como para desplegarse en un teléfono. La innovación reside por completo en nuestro conjunto de datos de entrenamiento, una versión ampliada del utilizado para phi-2, compuesto por datos web fuertemente filtrados y datos sintéticos. El modelo también fue ajustado adicionalmente para robustez, seguridad y formato de chat. También presentamos algunos resultados iniciales de escalado de parámetros con modelos de 7B y 14B entrenados con 4.8T tokens, llamados phi-3-small y phi-3-medium, ambos significativamente más capaces que phi-3-mini (por ejemplo, respectivamente 75% y 78% en MMLU, y 8.7 y 8.9 en MT-bench).
We introduce phi-3-mini, a 3.8 billion parameter language model trained on 3.3 trillion tokens, whose overall performance, as measured by both academic benchmarks and internal testing, rivals that of models such as Mixtral 8x7B and GPT-3.5 (e.g., phi-3-mini achieves 69% on MMLU and 8.38 on MT-bench), despite being small enough to be deployed on a phone. The innovation lies entirely in our dataset for training, a scaled-up version of the one used for phi-2, composed of heavily filtered web data and synthetic data. The model is also further aligned for robustness, safety, and chat format. We also provide some initial parameter-scaling results with a 7B and 14B models trained for 4.8T tokens, called phi-3-small and phi-3-medium, both significantly more capable than phi-3-mini (e.g., respectively 75% and 78% on MMLU, and 8.7 and 8.9 on MT-bench).
Enlace al paper
https://arxiv.org/abs/2404.14219
Leer más
https://discuss.pytorch.kr/t/…
https://x.com/omarsar0/status/1782780923806699716
OpenELM: una familia eficiente de modelos de lenguaje con framework de entrenamiento e inferencia de código abierto / OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework
Introducción al paper
Un nuevo modelo de lenguaje abierto que emplea una estrategia de escalado por capas para asignar parámetros de forma eficiente y mejorar la eficiencia y la precisión; está disponible en distintos tamaños, como 270M, 450M, 1.1B y 3B; y logra una mejora de 2.36% en precisión frente a OLMo mientras requiere 2× menos tokens de preentrenamiento.
A new open language model that employs a layer-wise scaling strategy to efficiently allocate parameters and leading to better efficiency and accuracy; comes with different sizes such as 270M, 450M, 1.1B, and 3B; achieves a 2.36% improvement in accuracy compared to OLMo while requiring 2× fewer pre-training tokens.
Resumen del paper (Abstract)
La reproducibilidad y la transparencia de los modelos de lenguaje de gran escala son cruciales para impulsar la investigación abierta, garantizar la confiabilidad de los resultados y permitir investigaciones sobre los sesgos en los datos y los modelos, así como sobre posibles riesgos. Con ese fin, presentamos OpenELM, un modelo de lenguaje abierto de última generación. OpenELM utiliza una estrategia de escalado por capas para asignar parámetros de manera eficiente dentro de cada capa del modelo transformer, lo que mejora la precisión. Por ejemplo, con un presupuesto de aproximadamente mil millones de parámetros, OpenELM muestra una mejora de 2.36% en precisión frente a OLMo, mientras requiere $2\times$ menos tokens de preentrenamiento. A diferencia de prácticas anteriores que solo proporcionaban los pesos del modelo y el código de inferencia, y preentrenaban con conjuntos de datos privados, este lanzamiento incluye el marco completo para entrenar y evaluar el modelo de lenguaje con conjuntos de datos disponibles públicamente, incluidos registros de entrenamiento, múltiples checkpoints y configuraciones de preentrenamiento. También publicamos código para convertir los modelos a la biblioteca MLX para inferencia y ajuste fino en dispositivos Apple. Este lanzamiento integral busca empoderar y fortalecer a la comunidad de investigación abierta, allanando el camino para futuros esfuerzos de investigación abierta. El código fuente, junto con los pesos de modelos preentrenados y las recetas de entrenamiento, está disponible en \url{https://github.com/apple/corenet}. Además, los modelos pueden encontrarse en HuggingFace en: \url{https://huggingface.co/apple/OpenELM}.
The reproducibility and transparency of large language models are crucial for advancing open research, ensuring the trustworthiness of results, and enabling investigations into data and model biases, as well as potential risks. To this end, we release OpenELM, a state-of-the-art open language model. OpenELM uses a layer-wise scaling strategy to efficiently allocate parameters within each layer of the transformer model, leading to enhanced accuracy. For example, with a parameter budget of approximately one billion parameters, OpenELM exhibits a 2.36% improvement in accuracy compared to OLMo while requiring $2\times$ fewer pre-training tokens. Diverging from prior practices that only provide model weights and inference code, and pre-train on private datasets, our release includes the complete framework for training and evaluation of the language model on publicly available datasets, including training logs, multiple checkpoints, and pre-training configurations. We also release code to convert models to MLX library for inference and fine-tuning on Apple devices. This comprehensive release aims to empower and strengthen the open research community, paving the way for future open research endeavors. Our source code along with pre-trained model weights and training recipes is available at \url{https://github.com/apple/corenet}. Additionally, \model models can be found on HuggingFace at: \url{https://huggingface.co/apple/OpenELM}.
Enlace al paper
https://arxiv.org/abs/2404.14619
Leer más
https://discuss.pytorch.kr/t/apple-270m-3b-openelm/4204
https://github.com/apple/corenet
https://huggingface.co/apple/OpenELM
https://x.com/rasbt/status/1783480053847736713
Snowflake Arctic
Introducción al paper
Es un LLM de código abierto (licencia Apache 2.0) que utiliza una arquitectura transformer híbrida Dense-MoE única; afirma ofrecer un rendimiento comparable a Llama3 70B en métricas empresariales como programación (HumanEval+ y MBPP+), SQL (Spider) y seguimiento de instrucciones (IFEval), usando un presupuesto de cómputo 17 veces menor que Llama3 70B; el cómputo de entrenamiento es de aproximadamente menos de 2 millones de dólares (menos de 3K GPU-weeks).
An open-source LLM (Apache 2.0 license.) that uses a unique Dense-MoE Hybrid transformer architecture; performs on par with Llama3 70B in enterprise metrics like coding (HumanEval+ & MBPP+), SQL (Spider) and instruction following (IFEval); claims to use 17x less compute budget than Llama 3 70B; the training compute is roughly under $2 million (less than 3K GPU weeks).
Enlace al paper
Leer más
https://discuss.pytorch.kr/t/…
https://x.com/omarsar0/status/1783176059694821632
Haz que tu LLM aproveche al máximo el contexto / Make Your LLM Fully Utilize the Context
Introducción al paper
Presenta un enfoque para superar el problema de "lost in the middle" común en los LLM. Aplica un procedimiento de entrenamiento explícitamente "intensivo en información" sobre Mistral-7B para permitir que el LLM aproveche completamente el contexto. Este modelo utiliza 1) conciencia detallada de la información sobre segmentos cortos (∼128 tokens) dentro de contextos largos sintéticos (4K-32K tokens) y 2) un conjunto de datos sintéticos que requiere integrar y razonar con información de dos o más segmentos cortos. El modelo resultante, FILM-7B (Fill-in-the-Middle), muestra que puede recuperar de forma robusta información ubicada en distintas posiciones dentro de su ventana de contexto de 32K.
Presents an approach to overcome the lost-in-the-middle challenge common in LLMs. It applies an explicit "information-intensive" training procedure on Mistral-7B to enable the LLM to fully utilize the context. It leverages a synthetic dataset where the answer requires fine-grained information awareness on a short segment (∼128 tokens) within a synthesized long context (4K−32K tokens), and 2) the integration and reasoning of information from two or more short segments. The resulting model, FILM-7B (Fill-in-the-Middle), shows that it can robustly retrieve information from different positions in its 32K context window.
Resumen del paper (Abstract)
Muchos modelos de lenguaje grandes (LLM) modernos pueden procesar entradas largas, pero todavía tienen dificultades para aprovechar por completo la información dentro de contextos extensos, un problema conocido como lost in the middle. Planteamos la hipótesis de que esto se debe a una supervisión explícita insuficiente durante el entrenamiento con contextos largos, lo que no enfatiza que cualquier posición dentro de un contexto largo puede contener información crucial. A partir de esta intuición, este estudio presenta el entrenamiento information-intensive (IN2), una solución puramente basada en datos para superar el problema de lost in the middle. En concreto, el entrenamiento IN2 aprovecha un conjunto de datos sintético de preguntas y respuestas de contexto largo, donde para obtener la respuesta se requiere (1) un reconocimiento fino de la información en un segmento corto (~128 tokens) dentro de un contexto largo sintético (4K-32K tokens), y (2) la integración y el razonamiento a partir de información proveniente de dos o más segmentos cortos. Al aplicar este entrenamiento intensivo en información a Mistral-7B, presentan FILM-7B (FILl-in-the-Middle). Para evaluar a fondo la capacidad de FILM-7B para aprovechar contextos largos, diseñaron tres tareas de probing que abarcan varios estilos de contexto (documentos, código y contexto de datos estructurados) y patrones de recuperación de información (búsqueda hacia adelante, hacia atrás y bidireccional). Los resultados de probing muestran que FILM-7B puede recuperar de forma robusta información desde distintas posiciones dentro de su ventana de contexto de 32K. Más allá de estas tareas de probing, FILM-7B mejora significativamente el rendimiento en tareas reales de contexto largo (por ejemplo, F1 de 23.5->26.9 en NarrativeQA), mientras mantiene un rendimiento comparable en tareas de contexto corto (por ejemplo, precisión de 59.3->59.2 en MMLU). Enlace de GitHub: https://github.com/microsoft/FILM.
While many contemporary large language models (LLMs) can process lengthy input, they still struggle to fully utilize information within the long context, known as the lost-in-the-middle challenge. We hypothesize that it stems from insufficient explicit supervision during the long-context training, which fails to emphasize that any position in a long context can hold crucial information. Based on this intuition, our study presents information-intensive (IN2) training, a purely data-driven solution to overcome lost-in-the-middle. Specifically, IN2 training leverages a synthesized long-context question-answer dataset, where the answer requires (1) fine-grained information awareness on a short segment (~128 tokens) within a synthesized long context (4K-32K tokens), and (2) the integration and reasoning of information from two or more short segments. Through applying this information-intensive training on Mistral-7B, we present FILM-7B (FILl-in-the-Middle). To thoroughly assess the ability of FILM-7B for utilizing long contexts, we design three probing tasks that encompass various context styles (document, code, and structured-data context) and information retrieval patterns (forward, backward, and bi-directional retrieval). The probing results demonstrate that FILM-7B can robustly retrieve information from different positions in its 32K context window. Beyond these probing tasks, FILM-7B significantly improves the performance on real-world long-context tasks (e.g., 23.5->26.9 F1 score on NarrativeQA), while maintaining a comparable performance on short-context tasks (e.g., 59.3->59.2 accuracy on MMLU). Github Link: https://github.com/microsoft/FILM.
Enlace al paper
https://arxiv.org/abs/2404.16811
Leer más
https://github.com/microsoft/FILM
https://x.com/omarsar0/status/1783905514578980949
FineWeb
Presentación del paper
Un conjunto de datos web a gran escala que contiene 15 billones de tokens para entrenar modelos de lenguaje; filtra y elimina duplicados de CommonCrawl entre 2013 y 2024, con el objetivo de mejorar la calidad de los datos.
A large-scale web dataset containing 15 trillion tokens for training language models; filters and deduplicates CommonCrawl between 2013 and 2024 and the goal is to improve the quality of the data.
Enlace al paper
https://huggingface.co/datasets/HuggingFaceFW/fineweb
Leer más
https://x.com/gui_penedo/status/1781953413938557276
Editores genéticos basados en IA / AI-powered Gene Editors
Presentación del paper
Un sistema de IA impulsado por un LLM entrenado sobre diversidad biológica a gran escala logra la edición precisa del genoma humano mediante el diseño de editores genéticos programables.
Achieves precision editing of the human genome with a programmable gene editor design with an AI system powered by an LLM trained on biological diversity at scale.
Enlace al paper
https://www.biorxiv.org/content/10.1101/2024.04.22.590591v1
Leer más
https://x.com/thisismadani/status/1782510590839406904
AutoCrawler: un agente web de comprensión progresiva para la generación de web crawlers / AutoCrawler: A Progressive Understanding Web Agent for Web Crawler Generation
Presentación del paper
Combina LLM y crawlers para ayudar a los crawlers a manejar entornos web diversos y cambiantes de forma más eficiente; el agente de web crawler aprovecha la estructura jerárquica del HTML para una comprensión progresiva, emplea operaciones top-down y de retroceso, y utiliza la estructura de árbol del DOM para generar un crawler completo y ejecutable.
Combines LLMs with crawlers with the goal of helping crawlers handle diverse and changing web environments more efficiently; the web crawler agent leverages the hierarchical structure of HTML for progressive understanding; employs top-down and step-back operations, and leverages the DOM tree structure, to generate a complete and executable crawler.
Resumen del paper (Abstract)
La automatización web es una técnica importante para realizar tareas web complejas al automatizar acciones web comunes, mejorar la eficiencia operativa y reducir la necesidad de intervención manual. Los métodos tradicionales, como los wrappers, tienen una adaptabilidad y escalabilidad limitadas cuando se enfrentan a un sitio web nuevo. Por otro lado, los agentes generativos impulsados por modelos de lenguaje grandes (LLM) muestran un rendimiento y una reutilización deficientes en escenarios de mundo abierto. En este trabajo, presentamos una tarea de generación de crawlers para páginas web de información vertical y un paradigma que combina LLM con crawlers, lo que ayuda a los crawlers a manejar entornos web diversos y cambiantes de manera más eficiente. Proponemos AutoCrawler, un framework de dos etapas que aprovecha la estructura jerárquica de HTML para una comprensión progresiva. Mediante operaciones top-down y step-back, AutoCrawler puede aprender de acciones erróneas y depurar continuamente el HTML para generar mejores acciones. Realizamos experimentos exhaustivos con múltiples LLM y demostramos la efectividad de nuestro framework. Los recursos de este paper se pueden encontrar en \url{https://github.com/EZ-hwh/AutoCrawler}
Web automation is a significant technique that accomplishes complicated web tasks by automating common web actions, enhancing operational efficiency, and reducing the need for manual intervention. Traditional methods, such as wrappers, suffer from limited adaptability and scalability when faced with a new website. On the other hand, generative agents empowered by large language models (LLMs) exhibit poor performance and reusability in open-world scenarios. In this work, we introduce a crawler generation task for vertical information web pages and the paradigm of combining LLMs with crawlers, which helps crawlers handle diverse and changing web environments more efficiently. We propose AutoCrawler, a two-stage framework that leverages the hierarchical structure of HTML for progressive understanding. Through top-down and step-back operations, AutoCrawler can learn from erroneous actions and continuously prune HTML for better action generation. We conduct comprehensive experiments with multiple LLMs and demonstrate the effectiveness of our framework. Resources of this paper can be found at \url{https://github.com/EZ-hwh/AutoCrawler}
Enlace al paper
https://arxiv.org/abs/2404.12753
Leer más
https://github.com/EZ-hwh/AutoCrawler
https://x.com/omarsar0/status/1782462314983071757
Graph Machine Learning en la era de los modelos de lenguaje grandes (LLM) / Graph Machine Learning in the Era of Large Language Models (LLMs)
Introducción al paper
Ofrece una visión integral de los avances más recientes en Graph ML en la era de los LLM, incluidos los desarrollos recientes en Graph ML, cómo los LLM pueden mejorar las características de los grafos y cómo pueden abordar problemas como OOD y la heterogeneidad de grafos.
Provides a comprehensive overview of the latest advancements for Graph ML in the era of LLMs; covers the recent developments in Graph ML, how LLM can enhance graph features, and how it can address issues such as OOD and graph heterogeneity.
Resumen (Abstract)
Los grafos desempeñan un papel importante para representar relaciones complejas en diversos ámbitos, como las redes sociales, los grafos de conocimiento y el descubrimiento molecular. Con la llegada del aprendizaje profundo, las redes neuronales de grafos (GNN) han surgido como una piedra angular del aprendizaje automático sobre grafos (Graph ML), facilitando la representación y el procesamiento de estructuras de grafos. Recientemente, los LLM han demostrado capacidades sin precedentes en tareas de lenguaje y se han adoptado ampliamente en una variedad de aplicaciones como visión por computadora y sistemas de recomendación. Este notable éxito también ha despertado interés en aplicar LLM al dominio de los grafos. Cada vez hay más esfuerzos por explorar el potencial de los LLM para avanzar la generalización, la transferibilidad y la capacidad de aprendizaje con pocos ejemplos de Graph ML. Al mismo tiempo, los grafos, en especial los grafos de conocimiento, son ricos en conocimiento factual confiable, lo que puede aprovecharse para mejorar las capacidades de razonamiento de los LLM y posiblemente aliviar sus limitaciones, como las alucinaciones o la falta de explicabilidad. Dado el rápido progreso de esta línea de investigación, se necesita una revisión sistemática que resuma los avances más recientes de Graph ML en la era de los LLM, con el fin de brindar una comprensión profunda a investigadores y profesionales. Por ello, en esta encuesta primero revisamos los desarrollos recientes en Graph ML. Luego exploramos cómo pueden utilizarse los LLM para mejorar la calidad de las características de los grafos, reducir la dependencia de datos etiquetados y abordar desafíos como la heterogeneidad de los grafos y la generalización fuera de distribución (OOD). Después, profundizamos en cómo los grafos pueden mejorar a los LLM, destacando su capacidad para potenciar el preentrenamiento y la inferencia de los LLM. Además, examinamos diversas aplicaciones y discutimos posibles direcciones futuras en este campo prometedor.
Graphs play an important role in representing complex relationships in various domains like social networks, knowledge graphs, and molecular discovery. With the advent of deep learning, Graph Neural Networks (GNNs) have emerged as a cornerstone in Graph Machine Learning (Graph ML), facilitating the representation and processing of graph structures. Recently, LLMs have demonstrated unprecedented capabilities in language tasks and are widely adopted in a variety of applications such as computer vision and recommender systems. This remarkable success has also attracted interest in applying LLMs to the graph domain. Increasing efforts have been made to explore the potential of LLMs in advancing Graph ML's generalization, transferability, and few-shot learning ability. Meanwhile, graphs, especially knowledge graphs, are rich in reliable factual knowledge, which can be utilized to enhance the reasoning capabilities of LLMs and potentially alleviate their limitations such as hallucinations and the lack of explainability. Given the rapid progress of this research direction, a systematic review summarizing the latest advancements for Graph ML in the era of LLMs is necessary to provide an in-depth understanding to researchers and practitioners. Therefore, in this survey, we first review the recent developments in Graph ML. We then explore how LLMs can be utilized to enhance the quality of graph features, alleviate the reliance on labeled data, and address challenges such as graph heterogeneity and out-of-distribution (OOD) generalization. Afterward, we delve into how graphs can enhance LLMs, highlighting their abilities to enhance LLM pre-training and inference. Furthermore, we investigate various applications and discuss the potential future directions in this promising field.
Enlace del paper
https://arxiv.org/abs/2404.14928
Leer más
https://x.com/omarsar0/status/1783171591020392886
Encuesta sobre la autoevolución de los modelos de lenguaje de gran escala / A Survey on Self-Evolution of Large Language Models
Introducción del paper
Presenta una encuesta integral sobre los enfoques de autoevolución en los LLM.
Provides a comprehensive survey on self-evolution approaches in LLMs.
Resumen del paper (Abstract)
Los modelos de lenguaje grandes (LLM) han avanzado significativamente en diversos campos y aplicaciones de agentes inteligentes. Sin embargo, los LLM actuales, que aprenden bajo supervisión humana o de modelos externos, son costosos y pueden enfrentar límites de rendimiento a medida que aumentan la complejidad y la diversidad de las tareas. Para abordar este problema, están creciendo rápidamente los enfoques de autoevolución que permiten a los LLM adquirir, refinar y aprender de forma autónoma a partir de experiencias generadas por el propio modelo. Este nuevo paradigma de entrenamiento, inspirado en el proceso de aprendizaje experiencial humano, ofrece el potencial de escalar los LLM hacia la superinteligencia. En este trabajo presentamos una encuesta integral sobre los enfoques de autoevolución en los LLM. Primero, proponemos un marco conceptual para la autoevolución y describimos el proceso evolutivo como ciclos iterativos compuestos por cuatro fases: adquisición de experiencia, refinamiento de experiencia, actualización y evaluación. Segundo, categorizamos los objetivos de evolución de los LLM y de los agentes basados en LLM; luego resumimos la literatura y proporcionamos una taxonomía e ideas clave para cada módulo. Por último, identificamos con precisión los desafíos existentes y proponemos direcciones futuras para mejorar los marcos de autoevolución, brindando a los investigadores ideas clave para acelerar el desarrollo de LLM autoevolutivos.
Large language models (LLMs) have significantly advanced in various fields and intelligent agent applications. However, current LLMs that learn from human or external model supervision are costly and may face performance ceilings as task complexity and diversity increase. To address this issue, self-evolution approaches that enable LLM to autonomously acquire, refine, and learn from experiences generated by the model itself are rapidly growing. This new training paradigm inspired by the human experiential learning process offers the potential to scale LLMs towards superintelligence. In this work, we present a comprehensive survey of self-evolution approaches in LLMs. We first propose a conceptual framework for self-evolution and outline the evolving process as iterative cycles composed of four phases: experience acquisition, experience refinement, updating, and evaluation. Second, we categorize the evolution objectives of LLMs and LLM-based agents; then, we summarize the literature and provide taxonomy and insights for each module. Lastly, we pinpoint existing challenges and propose future directions to improve self-evolution frameworks, equipping researchers with critical insights to fast-track the development of self-evolving LLMs.
Enlace al paper
https://arxiv.org/abs/2404.14387
Leer más
https://x.com/omarsar0/status/1782777977526231440
NExT: enseñar a los modelos de lenguaje grandes a razonar sobre la ejecución de código / NExT: Teaching Large Language Models to Reason about Code Execution
Introducción del paper
Entrena a un LLM para que pueda inspeccionar las trazas de ejecución de programas y razonar sobre el comportamiento en tiempo de ejecución mediante cadenas de pensamiento sintéticas; mejora la tasa de corrección de un modelo PaLM 2 en MBPP y Human en 26.1% y 14.3%, y también muestra que puede generalizar a escenarios desconocidos.
Trains an LLM to have the ability to inspect the execution traced of programs and reason about run-time behavior via synthetic chain-of-thought rationales; improves the fix rate of a PaLM 2 model on MBPP and Human by 26.1% and 14.3%; the model also shows that it can generalize to unknown scenarios.
Resumen del paper (Abstract)
Una habilidad fundamental entre los desarrolladores humanos es la capacidad de comprender y razonar sobre la ejecución de programas. Por ejemplo, un programador puede simular mentalmente la ejecución del código en lenguaje natural para depurar y reparar código (también conocido como rubber duck debugging). Sin embargo, los modelos de lenguaje grandes (LLM) para código suelen entrenarse sobre la forma textual superficial de los programas, por lo que pueden carecer de una comprensión semántica de cómo se ejecutan los programas en tiempo de ejecución. Para abordar este problema, proponemos NExT, un método para enseñar a los LLM a inspeccionar las trazas de ejecución de los programas (estados de variables de las líneas ejecutadas) y razonar sobre su comportamiento en tiempo de ejecución mediante razonamientos de cadena de pensamiento (CoT). En concreto, NExT utiliza autoentrenamiento para inicializar un conjunto de entrenamiento sintético de razonamientos conscientes de la ejecución que conducen a soluciones correctas de la tarea (por ejemplo, programas corregidos) sin necesidad de una laboriosa anotación manual. Los resultados experimentales en tareas de reparación de programas basadas en MBPP y HumanEval demuestran que NExT mejora la tasa de corrección de un modelo PaLM 2 en 26.1% y 14.3% absolutos, respectivamente, además de mejorar significativamente la calidad de los razonamientos, como verificaron métricas automatizadas y evaluadores humanos. Nuestro modelo también puede generalizar a escenarios en los que no hay trazas de programa en el momento de la prueba.
A fundamental skill among human developers is the ability to understand and reason about program execution. As an example, a programmer can mentally simulate code execution in natural language to debug and repair code (aka. rubber duck debugging). However, large language models (LLMs) of code are typically trained on the surface textual form of programs, thus may lack a semantic understanding of how programs execute at run-time. To address this issue, we propose NExT, a method to teach LLMs to inspect the execution traces of programs (variable states of executed lines) and reason about their run-time behavior through chain-of-thought (CoT) rationales. Specifically, NExT uses self-training to bootstrap a synthetic training set of execution-aware rationales that lead to correct task solutions (e.g., fixed programs) without laborious manual annotation. Experiments on program repair tasks based on MBPP and HumanEval demonstrate that NExT improves the fix rate of a PaLM 2 model, by 26.1% and 14.3% absolute, respectively, with significantly improved rationale quality as verified by automated metrics and human raters. Our model can also generalize to scenarios where program traces are absent at test-time.
Enlace al paper
https://arxiv.org/abs/2404.14662
Leer más
https://x.com/AnsongNi/status/1783311827390070941
Texto original
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-b1c
Este texto fue resumido con un modelo GPT, por lo que puede contener errores; por favor consulta también el texto original al final del artículo. Si al leerlo encuentras contenido extraño o incorrecto, te agradeceremos que nos lo hagas saber en los comentarios.
⚠️Publicidad⚠️: ¿Te resultó útil este artículo recopilado por la comunidad de usuarios de PyTorch en Corea? Si te registras como miembro, te enviaremos los artículos principales por correo electrónico. (La opción predeterminada es Weekly, pero también puedes cambiarla a Daily.)
Aún no hay comentarios.