07] Los principales papers de ML de esta semana (Top ML Papers of the Week)

(discuss.pytorch.kr)

5 puntos por ninebow 2023-11-08 | Aún no hay comentarios. | Compartir por WhatsApp

Resumen

Hemos traducido automáticamente un artículo sobre papers de ML que DAIR.AI publica cada semana.
Los papers presentados esta semana se enfocan en los modelos de lenguaje a gran escala (Large Language Models, LLMs) y en la evaluación de su desempeño. En particular, en trabajos como 'Evaluating LLMs', 'LLMs for Chip Design', 'Efficient Context Window Extension of LLMs' y 'Enhancing LLMs by Emotion Stimuli' se pudo ver que se están discutiendo diversas formas de aplicación y optimización de los LLM.
Esta tendencia refleja que la importancia de los LLM en el campo de la inteligencia artificial ha aumentado rápidamente en los últimos años. En especial, a medida que modelos líderes como la serie GPT de OpenAI han mostrado resultados impresionantes en diversas tareas de procesamiento de lenguaje natural (NLP), los investigadores se han concentrado en desarrollar aún más estos modelos o en aplicarlos a nuevos problemas. Junto con esto, también está creciendo el interés por mejorar la eficiencia de los modelos y por enriquecer más sus entradas y salidas usando elementos como las emociones o el contexto situacional.
Además, en papers como 'Next Generation AlphaFold' parece observarse que, fuera del contexto de los LLM, se están explorando enfoques innovadores al aplicar metodologías de aprendizaje automático a campos especializados como la biología estructural. Esta tendencia de investigación sugiere que las tecnologías de machine learning y deep learning están evolucionando más allá de los avances puramente teóricos hacia aplicaciones concretas en múltiples áreas, como la industria, la ciencia y la medicina.

Deep learning para pronósticos diarios a partir de observaciones dispersas / Deep Learning for Day Forecasts from Sparse Observations

Introducción del paper

Es un modelo meteorológico neuronal de última generación que amplía tanto el rango de tiempo de anticipación como las variables que un modelo basado en observaciones puede predecir con precisión; aprende tanto de sensores de datos densos como de sensores de datos dispersos y realiza predicciones hasta con 24 horas de anticipación para precipitación, viento, temperatura y punto de rocío.

A state-of-the-art neural weather model that extends both the lead time range and the variables that an observation-based model can predict well; learns from both dense and sparse data sensors and makes predictions up to 24 hours ahead for precipitation, wind, temperature, and dew point.

Resumen del paper

Las redes neuronales profundas ofrecen un paradigma alternativo para modelar las condiciones meteorológicas. La capacidad de los modelos neuronales para hacer una predicción en menos de un segundo una vez que los datos están disponibles, y hacerlo con una resolución temporal y espacial muy alta, así como la capacidad de aprender directamente de observaciones atmosféricas, son solo algunas de las ventajas únicas de estos modelos. Hasta ahora, los modelos neuronales entrenados con observaciones atmosféricas —los datos de mayor fidelidad y menor latencia— solo habían logrado un buen desempeño hasta doce horas de anticipación cuando se comparaban con los modelos probabilísticos de predicción numérica del tiempo de última generación, y únicamente para la variable de precipitación. En este paper presentamos MetNet-3, que amplía de forma significativa tanto el rango de tiempo de anticipación como las variables que un modelo neuronal basado en observaciones puede predecir bien. MetNet-3 aprende tanto de sensores de datos densos como dispersos y realiza predicciones hasta con 24 horas de anticipación para precipitación, viento, temperatura y punto de rocío. MetNet-3 introduce una técnica clave de densificación que captura implícitamente la asimilación de datos y produce pronósticos espacialmente densos a pesar de que la red se entrena con objetivos extremadamente dispersos. MetNet-3 ofrece una alta resolución temporal y espacial de hasta 2 minutos y 1 km, respectivamente, además de una baja latencia operativa. Encontramos que MetNet-3 puede superar a los mejores modelos NWP de uno y varios miembros, como HRRR y ENS, sobre la región CONUS para horizontes de hasta 24 horas, estableciendo un nuevo hito de desempeño para los modelos neuronales basados en observaciones. MetNet-3 ya está en operación y sus pronósticos se ofrecen en Google Search junto con otros modelos.

Deep neural networks offer an alternative paradigm for modeling weather conditions. The ability of neural models to make a prediction in less than a second once the data is available and to do so with very high temporal and spatial resolution, and the ability to learn directly from atmospheric observations, are just some of these models' unique advantages. Neural models trained using atmospheric observations, the highest fidelity and lowest latency data, have to date achieved good performance only up to twelve hours of lead time when compared with state-of-the-art probabilistic Numerical Weather Prediction models and only for the sole variable of precipitation. In this paper, we present MetNet-3 that extends significantly both the lead time range and the variables that an observation based neural model can predict well. MetNet-3 learns from both dense and sparse data sensors and makes predictions up to 24 hours ahead for precipitation, wind, temperature and dew point. MetNet-3 introduces a key densification technique that implicitly captures data assimilation and produces spatially dense forecasts in spite of the network training on extremely sparse targets. MetNet-3 has a high temporal and spatial resolution of, respectively, up to 2 minutes and 1 km as well as a low operational latency. We find that MetNet-3 is able to outperform the best single- and multi-member NWPs such as HRRR and ENS over the CONUS region for up to 24 hours ahead setting a new performance milestone for observation based neural models. MetNet-3 is operational and its forecasts are served in Google Search in conjunction with other models.

Enlace al paper

https://arxiv.org/abs/2306.06079

Leer más

https://x.com/GoogleAI/status/1719774923294687636

Evaluación de modelos de lenguaje a gran escala: un survey integral / Evaluating Large Language Models: A Comprehensive Survey

Introducción del paper

Ofrece un survey integral (de más de 100 páginas) sobre la evaluación de LLM, incluyendo discusiones sobre los diferentes tipos de evaluación, conjuntos de datos, técnicas y más. #llm-survey #llm-evaluation

A comprehensive survey (100+ pages) on evaluating llms, including discussions about the different types of evaluations, datasets, techniques, and more.

Resumen del paper

Los modelos de lenguaje grandes (LLM) han demostrado capacidades notables en un amplio espectro de tareas. Han atraído una atención significativa y se han desplegado en numerosas aplicaciones downstream. Sin embargo, como un arma de doble filo, los LLM también presentan riesgos potenciales. Podrían sufrir filtraciones de datos privados o generar contenido inapropiado, dañino o engañoso. Además, el rápido progreso de los LLM plantea preocupaciones sobre la posible aparición de sistemas superinteligentes sin salvaguardas adecuadas. Para aprovechar eficazmente las capacidades de los LLM y garantizar su desarrollo seguro y beneficioso, es fundamental llevar a cabo una evaluación rigurosa e integral de los LLM. Esta encuesta busca ofrecer una perspectiva panorámica sobre la evaluación de los LLM. Clasificamos la evaluación de los LLM en tres grupos principales: evaluación de conocimiento y capacidades, evaluación de alineación y evaluación de seguridad. Además de una revisión integral de las metodologías de evaluación y los benchmarks en estos tres aspectos, recopilamos un compendio de evaluaciones relacionadas con el desempeño de los LLM en dominios especializados y discutimos la construcción de plataformas integrales de evaluación que cubran las capacidades, la alineación, la seguridad y la aplicabilidad de los LLM. Esperamos que esta visión general integral estimule un mayor interés de investigación en la evaluación de los LLM, con el objetivo final de que la evaluación sirva como piedra angular para guiar el desarrollo responsable de los LLM. Visualizamos que esto encauzará su evolución en una dirección que maximice el beneficio social mientras minimiza los riesgos potenciales. Se puede consultar una lista curada de papers relacionados en https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers.

Large language models (LLMs) have demonstrated remarkable capabilities across a broad spectrum of tasks. They have attracted significant attention and been deployed in numerous downstream applications. Nevertheless, akin to a double-edged sword, LLMs also present potential risks. They could suffer from private data leaks or yield inappropriate, harmful, or misleading content. Additionally, the rapid progress of LLMs raises concerns about the potential emergence of superintelligent systems without adequate safeguards. To effectively capitalize on LLM capacities as well as ensure their safe and beneficial development, it is critical to conduct a rigorous and comprehensive evaluation of LLMs. This survey endeavors to offer a panoramic perspective on the evaluation of LLMs. We categorize the evaluation of LLMs into three major groups: knowledge and capability evaluation, alignment evaluation and safety evaluation. In addition to the comprehensive review on the evaluation methodologies and benchmarks on these three aspects, we collate a compendium of evaluations pertaining to LLMs' performance in specialized domains, and discuss the construction of comprehensive evaluation platforms that cover LLM evaluations on capabilities, alignment, safety, and applicability. We hope that this comprehensive overview will stimulate further research interests in the evaluation of LLMs, with the ultimate goal of making evaluation serve as a cornerstone in guiding the responsible development of LLMs. We envision that this will channel their evolution into a direction that maximizes societal benefit while minimizing potential risks. A curated list of related papers has been publicly available at https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers.

Enlace al paper

https://arxiv.org/abs/2310.19736

Leer más

https://x.com/omarsar0/status/1719351676828602502

La batalla de los backbones: una comparación a gran escala de modelos preentrenados en tareas de visión por computadora / Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks

Introducción al paper

Un marco de benchmarking a gran escala para un conjunto diverso de tareas de visión por computadora; encontramos que, aunque los vision transformers (ViT) y el aprendizaje autosupervisado (SSL) son cada vez más populares, las redes neuronales convolucionales preentrenadas de forma supervisada en grandes conjuntos de entrenamiento ofrecen el mejor rendimiento en la mayoría de las tareas. #self-supervised #vision-transformer

A large benchmarking framework for a diverse suite of computer vision tasks; find that while vision transformers (vits) and self-supervised learning (ssl) are increasingly popular, convolutional neural networks pretrained in a supervised fashion on large training sets perform best on most tasks.

Resumen del paper

Los sistemas de visión por computadora basados en redes neuronales normalmente se construyen sobre un backbone, un extractor de características preentrenado o inicializado aleatoriamente. Hace algunos años, la opción predeterminada era una red neuronal convolucional entrenada con ImageNet. Sin embargo, en tiempos recientes han surgido innumerables backbones preentrenados con distintos algoritmos y datasets. Aunque esta abundancia de opciones ha impulsado mejoras de rendimiento en diversos sistemas, para los profesionales no es fácil tomar una decisión informada sobre qué backbone elegir. Battle of the Backbones (BoB) facilita esta elección al hacer benchmark de un conjunto diverso de modelos preentrenados, incluidos modelos de visión-lenguaje, modelos entrenados mediante self-supervised learning y el backbone de Stable Diffusion, a través de una amplia variedad de tareas de visión por computadora que van desde clasificación hasta detección de objetos, generalización OOD y más. Además, BoB arroja luz sobre direcciones prometedoras para que la comunidad de investigación haga avanzar la visión por computadora al mostrar las fortalezas y debilidades de los enfoques existentes mediante un análisis integral realizado sobre más de 1,500 ejecuciones de entrenamiento. Aunque los vision transformers (ViT) y el self-supervised learning (SSL) son cada vez más populares, encontramos que las redes neuronales convolucionales preentrenadas de forma supervisada en grandes conjuntos de entrenamiento siguen ofreciendo el mejor desempeño en la mayoría de las tareas entre los modelos que consideramos. Además, en comparaciones justas sobre las mismas arquitecturas y datasets de preentrenamiento de tamaño similar, encontramos que los backbones de SSL son altamente competitivos, lo que indica que trabajos futuros deberían realizar preentrenamiento con SSL usando arquitecturas más avanzadas y datasets de preentrenamiento más grandes. Publicamos los resultados sin procesar de nuestros experimentos junto con código que permite a los investigadores poner a prueba sus propios backbones aquí: https://github.com/hsouri/Battle-of-the-Backbones

Neural network based computer vision systems are typically built on a backbone, a pretrained or randomly initialized feature extractor. Several years ago, the default option was an ImageNet-trained convolutional neural network. However, the recent past has seen the emergence of countless backbones pretrained using various algorithms and datasets. While this abundance of choice has led to performance increases for a range of systems, it is difficult for practitioners to make informed decisions about which backbone to choose. Battle of the Backbones (BoB) makes this choice easier by benchmarking a diverse suite of pretrained models, including vision-language models, those trained via self-supervised learning, and the Stable Diffusion backbone, across a diverse set of computer vision tasks ranging from classification to object detection to OOD generalization and more. Furthermore, BoB sheds light on promising directions for the research community to advance computer vision by illuminating strengths and weakness of existing approaches through a comprehensive analysis conducted on more than 1500 training runs. While vision transformers (ViTs) and self-supervised learning (SSL) are increasingly popular, we find that convolutional neural networks pretrained in a supervised fashion on large training sets still perform best on most tasks among the models we consider. Moreover, in apples-to-apples comparisons on the same architectures and similarly sized pretraining datasets, we find that SSL backbones are highly competitive, indicating that future works should perform SSL pretraining with advanced architectures and larger pretraining datasets. We release the raw results of our experiments along with code that allows researchers to put their own backbones through the gauntlet here: https://github.com/hsouri/Battle-of-the-Backbones

Enlace al paper

https://arxiv.org/abs/2310.19909

Leer más

https://x.com/micahgoldblum/status/1719719308882801045

ChipNeMo: LLM adaptados al dominio para diseño de chips / ChipNeMo: Domain-Adapted LLMs for Chip Design

Introducción al paper

Propone usar LLM para el diseño industrial de chips aprovechando técnicas de adaptación al dominio; evalúa distintas aplicaciones para el diseño de chips, como chatbot asistente, automatización de diseño electrónico y resumen de bugs; la adaptación al dominio mejora significativamente el rendimiento frente a modelos de propósito general en una variedad de tareas de diseño; usar un LLM adaptado al dominio para RAG mejora aún más la calidad de las respuestas.

Proposes using llms for industrial chip design by leveraging domain adaptation techniques; evaluates different applications for chip design such as assistant chatbot, electronic design automation, and bug summarization; domain adaptation significantly improves performance over general-purpose models on a variety of design tasks; using a domain-adapted llm for rag further improves answer quality.

Resumen del paper

ChipNeMo tiene como objetivo explorar las aplicaciones de los modelos de lenguaje grandes (LLM) para el diseño industrial de chips. En lugar de implementar directamente LLM comerciales u open source ya disponibles, adopta técnicas de adaptación al dominio como tokenización personalizada, preentrenamiento continuo adaptado al dominio, ajuste fino supervisado (SFT) con instrucciones específicas del dominio y modelos de recuperación adaptados al dominio. Evalúa estos métodos en tres aplicaciones seleccionadas de LLM para diseño de chips: un chatbot asistente de ingeniería, generación de scripts de EDA y resumen y análisis de bugs. Como resultado, se observó que el uso de estas técnicas de adaptación al dominio mejora significativamente el rendimiento de los LLM frente a modelos base de propósito general en las tres aplicaciones evaluadas, lo que permite reducir hasta 5 veces el tamaño del modelo con un rendimiento similar o mejor en diversas tareas de diseño. Además, los resultados de este estudio muestran que aún hay margen de mejora entre los resultados actuales y los ideales. Unity espera que futuras investigaciones sobre enfoques de LLM adaptados al dominio ayuden a cerrar esta brecha.

ChipNeMo aims to explore the applications of large language models (LLMs) for industrial chip design. Instead of directly deploying off-the-shelf commercial or open-source LLMs, we instead adopt the following domain adaptation techniques: custom tokenizers, domain-adaptive continued pretraining, supervised fine-tuning (SFT) with domain-specific instructions, and domain-adapted retrieval models. We evaluate these methods on three selected LLM applications for chip design: an engineering assistant chatbot, EDA script generation, and bug summarization and analysis. Our results show that these domain adaptation techniques enable significant LLM performance improvements over general-purpose base models across the three evaluated applications, enabling up to 5x model size reduction with similar or better performance on a range of design tasks. Our findings also indicate that there's still room for improvement between our current results and ideal outcomes. We believe that further investigation of domain-adapted LLM approaches will help close this gap in the future.

Enlace al paper

https://arxiv.org/abs/2311.00176

Leer más

https://x.com/omarsar0/status/1720066328961159387

YaRN: extensión eficiente de la ventana de contexto de modelos de lenguaje grandes / YaRN: Efficient Context Window Extension of Large Language Models

Introducción al paper

Propone un método computacionalmente eficiente para extender de forma eficiente la ventana de contexto de los llms más allá de aquello con lo que fueron preentrenados; extrapola más allá del contexto limitado de un dataset de ajuste fino y se han reproducido modelos con longitudes de contexto de hasta 128k. #yarn

Proposes a compute-efficient method for efficiently extending the context window of llms beyond what it was pretrained on; extrapolates beyond the limited context of a fine-tuning dataset and models have been reproduced up to 128k context length.

Resumen del paper

Se ha demostrado que los Rotary Position Embeddings (RoPE) codifican de manera efectiva la información posicional en modelos de lenguaje basados en transformers. Sin embargo, estos modelos no logran generalizar más allá de la longitud de secuencia con la que fueron entrenados. Como un método computacionalmente eficiente para extender la ventana de contexto de estos modelos, se presenta YaRN (Yet another RoPE extensioN method), que requiere 10 veces menos tokens y 2.5 veces menos pasos de entrenamiento que métodos anteriores. Usando YaRN, se demuestra que los modelos LLaMA pueden utilizar y extrapolar eficazmente a longitudes de contexto mucho más largas de lo que permitiría su preentrenamiento original, al mismo tiempo que superan el estado del arte previo en extensión de ventana de contexto. Además, también se demostró con YaRN la capacidad de extrapolar más allá del contexto limitado de un dataset de ajuste fino. Los modelos ajustados con YaRN se han puesto a disposición en línea y se han reproducido con longitudes de contexto de hasta 128k en https://github.com/jquesnelle/yarn

Rotary Position Embeddings (RoPE) have been shown to effectively encode positional information in transformer-based language models. However, these models fail to generalize past the sequence length they were trained on. We present YaRN (Yet another RoPE extensioN method), a compute-efficient method to extend the context window of such models, requiring 10x less tokens and 2.5x less training steps than previous methods. Using YaRN, we show that LLaMA models can effectively utilize and extrapolate to context lengths much longer than their original pre-training would allow, while also surpassing previous the state-of-the-art at context window extension. In addition, we demonstrate that YaRN exhibits the capability to extrapolate beyond the limited context of a fine-tuning dataset. The models fine-tuned using YaRN has been made available and reproduced online up to 128k context length at https://github.com/jquesnelle/yarn

Enlace al paper

https://arxiv.org/abs/2309.00071

Leer más

https://x.com/theemozilla/status/1720107186850877662

https://discuss.pytorch.kr/t/yarn-rope-llm-10-2-5-context-window-128k/…

Dataset y desafíos de Open DAC 2023 para el descubrimiento de sorbentes en captura directa de aire / The Open DAC 2023 Dataset and Challenges for Sorbent Discovery in Direct Air Capture

Introducción al paper

Presenta un conjunto de datos compuesto por más de 38 millones de cálculos de teoría del funcional de la densidad (DFT) sobre más de 8,800 materiales MOF que contienen CO2 y/o H2O adsorbidos. Identifica directamente en el conjunto de datos propiedades para DAC y también entrena modelos de ML de última generación con este conjunto para aproximar cálculos al nivel de DFT, lo que puede convertirse en una referencia importante para futuros esfuerzos por identificar MOF para una amplia gama de aplicaciones, incluido DAC.

Introduces a dataset consisting of more than 38m density functional theory (dft) calculations on more than 8,800 mof materials containing adsorbed co2 and/or h2o; properties for dac are identified directly in the dataset; also trains state-of-the-art ml models with the dataset to approximate calculations at the dft level; can lead to important baseline for future efforts to identify mofs for a wide range of applications, including dac.

Resumen del paper

Para combatir el cambio climático global, se necesitan con urgencia nuevos métodos para eliminar dióxido de carbono. La captura directa de aire (DAC) es una tecnología emergente para capturar dióxido de carbono directamente del aire ambiente. Los marcos metal-orgánicos (MOF) han sido ampliamente estudiados como adsorbentes potencialmente personalizables para DAC. Sin embargo, descubrir adsorbentes MOF prometedores para DAC es difícil debido al enorme espacio químico que hay que explorar y a la necesidad de entender los materiales en función de la humedad y la temperatura. Pure Storage explora un enfoque computacional que aprovecha innovaciones recientes en machine learning (ML) y presenta un conjunto de datos llamado Open DAC 2023 (ODAC23), compuesto por más de 38 millones de cálculos de teoría del funcional de la densidad (DFT) sobre más de 8,800 materiales MOF que contienen CO2 y/o H2O adsorbidos. ODAC23 es, por mucho, el conjunto de datos más grande actualmente disponible de cálculos de adsorción en MOF con precisión a nivel DFT. Además de examinar las propiedades de las moléculas adsorbidas, el conjunto de datos es una rica fuente de información sobre la relajación estructural de los MOF, lo que puede ser útil en muchos contextos más allá de aplicaciones específicas para DAC. En ODAC23 se identificaron directamente una gran cantidad de MOF con propiedades prometedoras para DAC. También se entrenaron modelos de machine learning de última generación sobre este conjunto de datos para aproximar cálculos al nivel de DFT. Este conjunto de datos open source y los modelos iniciales de ML proporcionarán una referencia importante para futuros esfuerzos por identificar MOF para una amplia gama de aplicaciones, incluido DAC.

New methods for carbon dioxide removal are urgently needed to combat global climate change. Direct air capture (DAC) is an emerging technology to capture carbon dioxide directly from ambient air. Metal-organic frameworks (MOFs) have been widely studied as potentially customizable adsorbents for DAC. However, discovering promising MOF sorbents for DAC is challenging because of the vast chemical space to explore and the need to understand materials as functions of humidity and temperature. We explore a computational approach benefiting from recent innovations in machine learning (ML) and present a dataset named Open DAC 2023 (ODAC23) consisting of more than 38M density functional theory (DFT) calculations on more than 8,800 MOF materials containing adsorbed CO2 and/or H2O. ODAC23 is by far the largest dataset of MOF adsorption calculations at the DFT level of accuracy currently available. In addition to probing properties of adsorbed molecules, the dataset is a rich source of information on structural relaxation of MOFs, which will be useful in many contexts beyond specific applications for DAC. A large number of MOFs with promising properties for DAC are identified directly in ODAC23. We also trained state-of-the-art ML models on this dataset to approximate calculations at the DFT level. This open-source dataset and our initial ML models will provide an important baseline for future efforts to identify MOFs for a wide range of applications, including DAC.

Enlace del paper

https://arxiv.org/abs/2311.00341

Leer más

https://x.com/AIatMeta/status/1720143486505341128

Un marco unificado para aplicar, descubrir y promover la simetría en machine learning / A Unified Framework to Enforce, Discover, and Promote Symmetry in Machine Learning

Presentación del paper

Presenta un marco metodológico unificado para aplicar, descubrir y promover la simetría en machine learning, y también analiza cómo estas ideas pueden aplicarse a modelos de ML como los perceptrones multicapa y la regresión con funciones base.

Presents a unified and methodological framework to enforce, discover, and promote symmetry in machine learning; also discusses how these ideas can be applied to ml models such as multilayer perceptions and basis function regression.

Resumen del paper

La simetría está presente en toda la naturaleza y sigue desempeñando un papel cada vez más central en la física y el aprendizaje automático. Simetrías fundamentales, como la invariancia de Poincaré, permiten extrapolar las leyes físicas descubiertas en laboratorios de la Tierra hasta los confines más lejanos del universo. La simetría es esencial para lograr este poder de extrapolación en aplicaciones de machine learning. Por ejemplo, la invariancia a traslación en clasificación de imágenes permite entrenar modelos con menos parámetros, como las redes neuronales convolucionales, en conjuntos de datos más pequeños y alcanzar rendimiento de vanguardia. En este paper, presentamos un marco teórico y metodológico unificado para incorporar simetría en modelos de machine learning de tres maneras: 1. imponer una simetría conocida al entrenar un modelo; 2. descubrir simetrías desconocidas de un modelo o conjunto de datos dado; y 3. promover la simetría durante el entrenamiento aprendiendo un modelo que rompa simetrías dentro de un grupo de candidatos especificado por el usuario cuando haya evidencia suficiente en los datos. Mostramos que estas tareas pueden formularse dentro de un marco matemático común cuyo objeto central es la derivada de Lie asociada con acciones de grupos de Lie fibra-lineales sobre haces vectoriales. Extendemos y unificamos varios resultados existentes al mostrar que imponer y descubrir simetría son tareas de álgebra lineal que son duales respecto de la estructura bilineal de la derivada de Lie. También proponemos una forma novedosa de promover la simetría al introducir una clase de funciones de regularización convexa basadas en la derivada de Lie y la relajación de la norma nuclear para penalizar la ruptura de simetría durante el entrenamiento de modelos de machine learning. Explicamos cómo estas ideas pueden aplicarse a una amplia gama de modelos de machine learning, incluyendo regresión con funciones base, descubrimiento de sistemas dinámicos, perceptrones multicapa y redes neuronales que actúan sobre campos espaciales como las imágenes.

Symmetry is present throughout nature and continues to play an increasingly central role in physics and machine learning. Fundamental symmetries, such as Poincar'{e} invariance, allow physical laws discovered in laboratories on Earth to be extrapolated to the farthest reaches of the universe. Symmetry is essential to achieving this extrapolatory power in machine learning applications. For example, translation invariance in image classification allows models with fewer parameters, such as convolutional neural networks, to be trained on smaller data sets and achieve state-of-the-art performance. In this paper, we provide a unifying theoretical and methodological framework for incorporating symmetry into machine learning models in three ways: 1. enforcing known symmetry when training a model; 2. discovering unknown symmetries of a given model or data set; and 3. promoting symmetry during training by learning a model that breaks symmetries within a user-specified group of candidates when there is sufficient evidence in the data. We show that these tasks can be cast within a common mathematical framework whose central object is the Lie derivative associated with fiber-linear Lie group actions on vector bundles. We extend and unify several existing results by showing that enforcing and discovering symmetry are linear-algebraic tasks that are dual with respect to the bilinear structure of the Lie derivative. We also propose a novel way to promote symmetry by introducing a class of convex regularization functions based on the Lie derivative and nuclear norm relaxation to penalize symmetry breaking during training of machine learning models. We explain how these ideas can be applied to a wide range of machine learning models including basis function regression, dynamical systems discovery, multilayer perceptrons, and neural networks acting on spatial fields such as images.

Enlace al paper

https://arxiv.org/abs/2311.00212

Leer más

https://x.com/eigensteve/status/1720115655050227911

AlphaFold de próxima generación / Next Generation AlphaFold

Presentación del paper

Reporta avances en una nueva iteración de AlphaFold que amplía enormemente su rango de aplicabilidad; muestra capacidades de predicción conjunta de la estructura de complejos que incluyen proteínas, ácidos nucleicos, moléculas pequeñas, iones y residuos modificados; y demuestra mayor precisión en interacciones proteína-ácido nucleico que predictores especializados.

Reports progress on a new iteration of alphafold that greatly expands its range of applicability; shows capabilities of joint structure prediction of complexes including proteins, nucleic acids, small molecules, ions, and modified residue; demonstrates greater accuracy on protein-nucleic acid interactions than specialists predictors.

Enlace al paper

https://storage.googleapis.com/deepmind-media/DeepMind.com/…

Leer más

https://x.com/demishassabis/status/1719345831730368596

Los modelos de lenguaje grandes entienden y pueden mejorarse con estímulos emocionales / Large Language Models Understand and Can be Enhanced by Emotional Stimuli

Presentación del paper

Utiliza diversas inteligencias artificiales como Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT y GPT-4 para realizar experimentos automáticos sobre 45 tareas, abarcando tareas en aplicaciones deterministas y generativas que representan escenarios de evaluación integrales, y los resultados experimentales muestran que la IA comprende la inteligencia emocional.

Explores the ability of llms to understand emotional stimuli; conducts automatic experiments on 45 tasks using various llms, including flan-t5-large, vicuna, llama 2, bloom, chatgpt, and gpt-4; the tasks span deterministic and generative applications that represent comprehensive evaluation scenarios; experimental results show that llms have a grasp of emotional intelligence.

Resumen del paper

La inteligencia emocional influye significativamente en nuestros comportamientos e interacciones cotidianas. Aunque los modelos de lenguaje grandes (LLM) son vistos cada vez más como un avance hacia la inteligencia artificial general, mostrando un rendimiento impresionante en numerosas tareas, aún no está claro si los LLM pueden comprender de verdad los estímulos emocionales psicológicos. Entender y responder a señales emocionales les da a los humanos una ventaja clara al resolver problemas. En este paper, se da el primer paso para explorar la capacidad de los LLM de comprender estímulos emocionales. Para ello, primero se realizan experimentos automáticos en 45 tareas usando varios LLM, incluidos Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT y GPT-4. Estas tareas abarcan aplicaciones determinísticas y generativas que representan escenarios de evaluación integrales. Los experimentos automáticos muestran que los LLM sí tienen una comprensión de la inteligencia emocional, y que su rendimiento puede mejorar con prompts emocionales (a los que llaman "EmotionPrompt", que combina el prompt original con estímulos emocionales); por ejemplo, con una mejora relativa del 8.00% en Instruction Induction y del 115% en BIG-Bench. Además de esas tareas determinísticas que pueden evaluarse automáticamente con métricas existentes, se realizó un estudio con 106 participantes para evaluar la calidad de tareas generativas usando tanto prompts vanilla como prompts emocionales. Los resultados del estudio muestran que EmotionPrompt mejora significativamente el rendimiento de las tareas generativas (una mejora promedio de 10.9% en métricas de desempeño, veracidad y responsabilidad). En el artículo se analiza en profundidad por qué EmotionPrompt funciona con los LLM y qué factores pueden influir en su desempeño. Los autores sostienen que EmotionPrompt abre una nueva vía para explorar conocimiento interdisciplinario en la interacción entre humanos y LLM.

Emotional intelligence significantly impacts our daily behaviors and interactions. Although Large Language Models (LLMs) are increasingly viewed as a stride toward artificial general intelligence, exhibiting impressive performance in numerous tasks, it is still uncertain if LLMs can genuinely grasp psychological emotional stimuli. Understanding and responding to emotional cues gives humans a distinct advantage in problem-solving. In this paper, we take the first step towards exploring the ability of LLMs to understand emotional stimuli. To this end, we first conduct automatic experiments on 45 tasks using various LLMs, including Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT, and GPT-4. Our tasks span deterministic and generative applications that represent comprehensive evaluation scenarios. Our automatic experiments show that LLMs have a grasp of emotional intelligence, and their performance can be improved with emotional prompts (which we call "EmotionPrompt" that combines the original prompt with emotional stimuli), e.g., 8.00% relative performance improvement in Instruction Induction and 115% in BIG-Bench. In addition to those deterministic tasks that can be automatically evaluated using existing metrics, we conducted a human study with 106 participants to assess the quality of generative tasks using both vanilla and emotional prompts. Our human study results demonstrate that EmotionPrompt significantly boosts the performance of generative tasks (10.9% average improvement in terms of performance, truthfulness, and responsibility metrics). We provide an in-depth discussion regarding why EmotionPrompt works for LLMs and the factors that may influence its performance. We posit that EmotionPrompt heralds a novel avenue for exploring interdisciplinary knowledge for human-LLMs interaction.

Link del paper

https://arxiv.org/abs/2307.11760

Leer más

https://x.com/emollick/status/1720135672764285176

FP8-LM: Entrenamiento de modelos de lenguaje grandes FP8 / FP8-LM: Training FP8 Large Language Models

Introducción al paper

Al entrenar LLM FP8, se encontró que la mayoría de las variables del entrenamiento de LLM, como los gradientes y los estados del optimizador, pueden usar formatos de datos de baja precisión sin comprometer la precisión del modelo y sin requerir cambios en los hiperparámetros.

Finds that when training fp8 llms most variables, such as gradients and optimizer states, in llm training, can employ low-precision data formats without compromising model accuracy and requiring no changes to hyper-parameter.

Resumen del paper

Este paper examina los formatos de datos FP8 de baja cantidad de bits para el entrenamiento eficiente de modelos de lenguaje grandes (LLM). Nuestra idea clave es que la mayoría de las variables en el entrenamiento de LLM, como los gradientes y los estados del optimizador, pueden usar formatos de datos de baja precisión sin reducir la exactitud del modelo ni requerir cambios en los hiperparámetros. En particular, Unity propone un nuevo framework FP8 de precisión mixta automática para entrenar LLM. Este framework ofrece tres niveles de uso de FP8 para simplificar el entrenamiento con precisión mixta y paralelismo distribuido en LLM. El framework integra gradualmente gradientes de 8 bits, estados del optimizador y aprendizaje distribuido de manera incremental. Según los resultados experimentales, durante el entrenamiento del modelo GPT-175B en la plataforma GPU H100, el framework de entrenamiento con precisión mixta FP8 de Unity no solo redujo el uso real de memoria en un 42%, sino que también se ejecutó un 64% más rápido que el framework BF16 ampliamente adoptado (por ejemplo, Megatron-LM), superando en un 17% la velocidad de Nvidia Transformer Engine. Por lo tanto, puede reducir significativamente el costo de entrenamiento de modelos fundacionales a gran escala. Además, la metodología de entrenamiento con precisión mixta FP8 de Unity es general y puede aplicarse sin problemas a otras tareas, como el ajuste de instrucciones de LLM y el aprendizaje por refuerzo con retroalimentación humana, lo que permite reducir los costos de ajuste fino. El framework de entrenamiento de baja precisión FP8 de Unity está disponible como código abierto en {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}.

In this paper, we explore FP8 low-bit data formats for efficient training of large language models (LLMs). Our key insight is that most variables, such as gradients and optimizer states, in LLM training can employ low-precision data formats without compromising model accuracy and requiring no changes to hyper-parameters. Specifically, we propose a new FP8 automatic mixed-precision framework for training LLMs. This framework offers three levels of FP8 utilization to streamline mixed-precision and distributed parallel training for LLMs. It gradually incorporates 8-bit gradients, optimizer states, and distributed learning in an incremental manner. Experiment results show that, during the training of GPT-175B model on H100 GPU platform, our FP8 mixed-precision training framework not only achieved a remarkable 42% reduction in real memory usage but also ran 64% faster than the widely adopted BF16 framework (i.e., Megatron-LM), surpassing the speed of Nvidia Transformer Engine by 17%. This largely reduces the training costs for large foundation models. Furthermore, our FP8 mixed-precision training methodology is generic. It can be seamlessly applied to other tasks such as LLM instruction tuning and reinforcement learning with human feedback, offering savings in fine-tuning expenses. Our FP8 low-precision training framework is open-sourced at {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}.

[2023/10/30 ~ 11/07] Los principales papers de ML de esta semana (Top ML Papers of the Week)

Resumen

Deep learning para pronósticos diarios a partir de observaciones dispersas / Deep Learning for Day Forecasts from Sparse Observations

Introducción del paper

Resumen del paper

Enlace al paper

Leer más

Evaluación de modelos de lenguaje a gran escala: un survey integral / Evaluating Large Language Models: A Comprehensive Survey

Introducción del paper

Resumen del paper

Enlace al paper

Leer más

La batalla de los backbones: una comparación a gran escala de modelos preentrenados en tareas de visión por computadora / Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks

Introducción al paper

Resumen del paper

Enlace al paper

Leer más

ChipNeMo: LLM adaptados al dominio para diseño de chips / ChipNeMo: Domain-Adapted LLMs for Chip Design

Introducción al paper

Resumen del paper

Enlace al paper

Leer más

YaRN: extensión eficiente de la ventana de contexto de modelos de lenguaje grandes / YaRN: Efficient Context Window Extension of Large Language Models

Introducción al paper

Resumen del paper

Enlace al paper

Leer más

Dataset y desafíos de Open DAC 2023 para el descubrimiento de sorbentes en captura directa de aire / The Open DAC 2023 Dataset and Challenges for Sorbent Discovery in Direct Air Capture

Introducción al paper

Resumen del paper

Enlace del paper

Leer más

Un marco unificado para aplicar, descubrir y promover la simetría en machine learning / A Unified Framework to Enforce, Discover, and Promote Symmetry in Machine Learning

Presentación del paper

Resumen del paper

Enlace al paper

Leer más

AlphaFold de próxima generación / Next Generation AlphaFold

Presentación del paper

Enlace al paper

Leer más

Los modelos de lenguaje grandes entienden y pueden mejorarse con estímulos emocionales / Large Language Models Understand and Can be Enhanced by Emotional Stimuli

Presentación del paper

Resumen del paper

Link del paper

Leer más

FP8-LM: Entrenamiento de modelos de lenguaje grandes FP8 / FP8-LM: Training FP8 Large Language Models

Introducción al paper

Resumen del paper

Enlace al paper

Leer más

Texto original

Lecturas relacionadas

Aún no hay comentarios.