[2023/09/25 ~ 10/01] Principales artículos de ML de esta semana (Top ML Papers of the Week)
(discuss.pytorch.kr)Resumen
- He intentado traducir automáticamente los artículos sobre papers de ML que DAIR.AI publica cada semana.
- Los papers de esta semana parecen centrarse en su mayoría en los LLM (Large Language Models). Entre ellos se abordan diversos temas, como mejoras en algoritmos para la eficiencia de procesos de LLM en múltiples entornos, Graph Neural Prompting para LLM y la aplicación de procesos de razonamiento lógico.
- Entre los papers seleccionados esta semana, trabajos como 'Boolformer' y 'Vision Transformers Need Registers' también muestran una tendencia de investigación que se fusiona con otras áreas de la IA.
- Esto deja ver que el avance de la tecnología de IA no solo consiste en desarrollar cada área por separado, sino también en integrar distintos campos para buscar nuevos enfoques y soluciones.
La maldición de la reversión / The Reversal Curse
Introducción al paper
- Se descubre que las redes neuronales artificiales entrenadas con oraciones del tipo "a es b" no generalizan automáticamente en la dirección inversa "b es a", es decir, la maldición de la reversión, y se demuestra este efecto al ajustar finamente redes neuronales sobre enunciados ficticios y comprobar su robustez a través de distintos tamaños y familias de modelos. #llm-reasoning
> Finds that llms trained on sentences of the form “a is b” will not automatically generalize to the reverse direction “b is a”, i.e., the reversal curse; shows the effect through finetuning llms on fictitious statements and demonstrating its robustness across model sizes and model families.
Enlace al paper
https://owainevans.github.io/reversal_curse.pdf
Leer más
https://x.com/OwainEvans_UK/status/1705285631520407821
Escalado efectivo de contexto largo en modelos fundacionales / Effective Long-Context Scaling of Foundation Models
Introducción al paper
- Proponen una variante
70bque ya puede superar el rendimiento general degpt-3.5-turbo-16ken un conjunto de tareas de contexto largo. Esto incluye un procedimiento de instruction tuning rentable que no requiere datos largos de instrucciones anotados por humanos. #1b-context-window #100k-context-window
> Propose a 70b variant that can already surpass gpt-3.5-turbo-16k’s overall performance on a suite of long-context tasks. this involves a cost-effective instruction tuning procedure that does not require human-annotated long instruction data.
Resumen del paper
- Presentan una serie de LLM de contexto largo que soportan ventanas de contexto efectivas de hasta 32,768 tokens. Su serie de modelos se construye mediante preentrenamiento continuo a partir de Llama 2 con secuencias de entrenamiento más largas y sobre un dataset donde los textos largos son sobremuestreados. Realizan una evaluación extensa en modelado de lenguaje, tareas sintéticas de sondeo de contexto y una amplia gama de benchmarks de investigación. En estos benchmarks, sus modelos logran mejoras consistentes en la mayoría de las tareas regulares y mejoras significativas en tareas de contexto largo frente a Llama 2. En particular, mediante un procedimiento rentable de instruction tuning que no requiere datos largos de instrucciones anotados por humanos, la variante 70B ya puede superar el rendimiento general de gpt-3.5-turbo-16k en un conjunto de tareas de contexto largo. Junto con estos resultados, proporcionan un análisis en profundidad de los componentes individuales de su método. Profundizan en los position encodings de Llama y discuten sus limitaciones al modelar dependencias largas. También examinan el impacto de varias decisiones de diseño en el proceso de preentrenamiento, incluida la mezcla de datos y el currículo de entrenamiento de longitudes de secuencia. Sus experimentos de ablación sugieren que tener abundancia de textos largos en el dataset de preentrenamiento no es la clave para lograr un rendimiento sólido, y verifican empíricamente que el preentrenamiento continuo de contexto largo es más eficiente y tiene una efectividad similar en comparación con preentrenar desde cero con secuencias largas.
> We present a series of long-context LLMs that support effective context windows of up to 32,768 tokens. Our model series are built through continual pretraining from Llama 2 with longer training sequences and on a dataset where long texts are upsampled. We perform extensive evaluation on language modeling, synthetic context probing tasks, and a wide range of research benchmarks. On research benchmarks, our models achieve consistent improvements on most regular tasks and significant improvements on long-context tasks over Llama 2. Notably, with a cost-effective instruction tuning procedure that does not require human-annotated long instruction data, the 70B variant can already surpass gpt-3.5-turbo-16k's overall performance on a suite of long-context tasks. Alongside these results, we provide an in-depth analysis on the individual components of our method. We delve into Llama's position encodings and discuss its limitation in modeling long dependencies. We also examine the impact of various design choices in the pretraining process, including the data mix and the training curriculum of sequence lengths -- our ablation experiments suggest that having abundant long texts in the pretrain dataset is not the key to achieving strong performance, and we empirically verify that long context continual pretraining is more efficient and similarly effective compared to pretraining from scratch with long sequences.
Enlace al paper
https://arxiv.org/abs/2309.16039
Leer más
https://x.com/omarsar0/status/1707780482178400261
Graph Neural Prompting con modelos de lenguaje grandes / Graph Neural Prompting with Large Language Models
Introducción al paper
- Proponen un método plug-and-play para ayudar a LLM preentrenados a aprender conocimiento útil a partir de knowledge graphs (KGs); incluye varios diseños, como un encoder estándar de graph neural network, un módulo de pooling de modalidad cruzada, un proyector de dominio y un objetivo de predicción de enlaces auto-supervisado. #knowledge-graph
> Proposes a plug-and-play method to assist pre-trained llms in learning beneficial knowledge from knowledge graphs (kgs); includes various designs, including a standard graph neural network encoder, a cross-modality pooling module, a domain projector, and a self-supervised link prediction objective.
Resumen del paper
- Los modelos de lenguaje grandes (LLM) han mostrado una notable capacidad de generalización con un desempeño excepcional en diversas tareas de modelado de lenguaje. Sin embargo, todavía presentan limitaciones inherentes para capturar y devolver con precisión conocimiento fundamentado. Aunque trabajos previos han explorado el uso de grafos de conocimiento para mejorar el modelado de lenguaje mediante entrenamiento conjunto y arquitecturas de modelo personalizadas, aplicarlo a los LLM es problemático debido a la gran cantidad de parámetros y al alto costo computacional. Además, sigue siendo una pregunta abierta cómo aprovechar los LLM preentrenados y evitar entrenar un modelo personalizado desde cero. En este trabajo, proponemos Graph Neural Prompting (GNP), un nuevo método plug-and-play para ayudar a los LLM preentrenados a aprender conocimiento útil a partir de KGs. GNP abarca varios diseños, incluido un codificador estándar de red neuronal de grafos, un módulo de pooling de modalidad cruzada, un proyector de dominio y un objetivo de predicción de enlaces auto-supervisado. Experimentos extensivos en múltiples datasets demuestran la superioridad de GNP tanto en tareas de razonamiento de sentido común como biomédico, a través de distintos tamaños y configuraciones de LLM.
> Large Language Models (LLMs) have shown remarkable generalization capability with exceptional performance in various language modeling tasks. However, they still exhibit inherent limitations in precisely capturing and returning grounded knowledge. While existing work has explored utilizing knowledge graphs to enhance language modeling via joint training and customized model architectures, applying this to LLMs is problematic owing to their large number of parameters and high computational cost. In addition, how to leverage the pre-trained LLMs and avoid training a customized model from scratch remains an open question. In this work, we propose Graph Neural Prompting (GNP), a novel plug-and-play method to assist pre-trained LLMs in learning beneficial knowledge from KGs. GNP encompasses various designs, including a standard graph neural network encoder, a cross-modality pooling module, a domain projector, and a self-supervised link prediction objective. Extensive experiments on multiple datasets demonstrate the superiority of GNP on both commonsense and biomedical reasoning tasks across different LLM sizes and settings.
Enlace al artículo
https://arxiv.org/abs/2309.15427
Leer más
https://x.com/omarsar0/status/1707211751354212382
Los Vision Transformers necesitan registros / Vision Transformers Need Registers
Introducción al artículo
- Identifica artefactos en los mapas de características de redes Vision Transformer reutilizadas para cálculos internos y propone una solución que proporciona tokens adicionales a la secuencia de entrada para cumplir ese rol. La solución corrige el problema, produce mapas de características y de atención más suaves, y establece nuevos resultados de vanguardia en tareas densas de predicción visual. #vision-transformer #transformer
> Identifies artifacts in feature maps of vision transformer networks that are repurposed for internal computations; this work proposes a solution to provide additional tokens to the input sequence to fill that role; the solution fixes the problem, leads to smoother feature and attention maps, and sets new state-of-the-art results on dense visual prediction tasks.
Resumen del artículo
- Los transformers han surgido recientemente como una herramienta poderosa para aprender representaciones visuales. En este artículo, identificamos y caracterizamos artefactos en los mapas de características tanto de redes ViT supervisadas como auto-supervisadas. Los artefactos corresponden a tokens de alta norma que aparecen durante la inferencia principalmente en áreas de fondo de baja información de las imágenes, y que se reutilizan para cálculos internos. Proponemos una solución simple pero efectiva basada en proporcionar tokens adicionales a la secuencia de entrada del Vision Transformer para cumplir ese rol. Mostramos que esta solución corrige por completo ese problema tanto para modelos supervisados como auto-supervisados, establece un nuevo estado del arte para modelos visuales auto-supervisados en tareas densas de predicción visual, habilita métodos de descubrimiento de objetos con modelos más grandes y, lo más importante, conduce a mapas de características y de atención más suaves para el procesamiento visual downstream.
> Transformers have recently emerged as a powerful tool for learning visual representations. In this paper, we identify and characterize artifacts in feature maps of both supervised and self-supervised ViT networks. The artifacts correspond to high-norm tokens appearing during inference primarily in low-informative background areas of images, that are repurposed for internal computations. We propose a simple yet effective solution based on providing additional tokens to the input sequence of the Vision Transformer to fill that role. We show that this solution fixes that problem entirely for both supervised and self-supervised models, sets a new state of the art for self-supervised visual models on dense visual prediction tasks, enables object discovery methods with larger models, and most importantly leads to smoother feature maps and attention maps for downstream visual processing.
Enlace al artículo
https://arxiv.org/abs/2309.16588
Leer más
https://x.com/TimDarcet/status/1707769575981424866
Boolformer: regresión simbólica de funciones lógicas con Transformers / Boolformer: Symbolic Regression of Logic Functions with Transformers
Introducción al artículo
- Presenta la primera arquitectura transformer entrenada para realizar regresión simbólica de extremo a extremo de funciones booleanas; puede predecir fórmulas compactas para funciones complejas y aplicarse al modelado de la dinámica de redes de regulación génica. #transformer
> Presents the first transformer architecture trained to perform end-to-end symbolic regression of boolean functions; it can predict compact formulas for complex functions and be applied to modeling the dynamics of gene regulatory networks.
Resumen del artículo
- En esta investigación se presenta Boolformer, la primera arquitectura Transformer entrenada para realizar regresión simbólica de funciones booleanas de extremo a extremo. Primero, muestran que puede predecir fórmulas compactas para funciones complejas no vistas durante el entrenamiento cuando se le proporciona una tabla de verdad limpia. Luego, demuestran su capacidad para encontrar expresiones aproximadas cuando se le proporcionan observaciones incompletas y ruidosas. Evalúan Boolformer en un amplio conjunto de datasets reales de clasificación binaria, demostrando su potencial como una alternativa interpretable a los métodos clásicos de machine learning. Finalmente, lo aplican a la tarea ampliamente extendida de modelar la dinámica de redes de regulación genética. Con un benchmark reciente, muestran que Boolformer puede competir con algoritmos genéticos de última generación con una mejora de velocidad de varios órdenes de magnitud. El código y los modelos están disponibles públicamente.
In this work, we introduce Boolformer, the first Transformer architecture trained to perform end-to-end symbolic regression of Boolean functions. First, we show that it can predict compact formulas for complex functions which were not seen during training, when provided a clean truth table. Then, we demonstrate its ability to find approximate expressions when provided incomplete and noisy observations. We evaluate the Boolformer on a broad set of real-world binary classification datasets, demonstrating its potential as an interpretable alternative to classic machine learning methods. Finally, we apply it to the widespread task of modelling the dynamics of gene regulatory networks. Using a recent benchmark, we show that Boolformer is competitive with state-of-the art genetic algorithms with a speedup of several orders of magnitude. Our code and models are available publicly.
Enlace al artículo
https://arxiv.org/abs/2309.12207
Leer más
https://x.com/stephanedascoli/status/1706235856778834015
Alinear grandes modelos multimodales con RLHF aumentado con hechos / Aligning Large Multimodal Models with Factually Augmented RLHF
Introducción del artículo
- Aplica RLHF aumentado con hechos para alinear grandes modelos multimodales. Este enfoque mitiga el reward hacking en RLHF y mejora el rendimiento en el dataset llava-bench hasta alcanzar el 94% del nivel de desempeño de GPT-4 solo de texto. #llm-alignment #multimodal #rlhf
Adapts factually augmented rlhf to aligning large multimodal models; this approach alleviates the reward hacking in rlhf and improves performance on the llava-bench dataset with the 94% performance level of the text-only gpt-4.
Resumen del artículo
- Los grandes modelos multimodales (LMM) se construyen sobre múltiples modalidades, y una mala alineación entre dos modalidades puede provocar “alucinaciones”, generando salidas de texto que no están fundamentadas en la información multimodal del contexto. Para abordar este problema de desalineación multimodal, adaptan el Reinforcement Learning from Human Feedback (RLHF) del dominio del texto a la tarea de alineación visión-lenguaje, donde se pide a anotadores humanos que comparen dos respuestas e identifiquen la más alucinada, y el modelo visión-lenguaje se entrena para maximizar recompensas humanas simuladas. Proponen un nuevo algoritmo de alineación llamado Factually Augmented RLHF, que refuerza el modelo de recompensa con información factual adicional, como captions de imágenes y opciones de selección múltiple con ground truth, lo que mitiga el fenómeno de reward hacking en RLHF y mejora aún más el rendimiento. También mejoraron los datos de entrenamiento generados por GPT-4 (para vision instruction tuning) con pares imagen-texto escritos previamente por humanos para mejorar las capacidades generales del modelo. Para evaluar el enfoque propuesto en escenarios reales, desarrollaron un nuevo benchmark de evaluación, MMHAL-BENCH, con un enfoque especial en penalizar las alucinaciones. Como el primer LMM entrenado con RLHF, su enfoque logró una mejora notable en el dataset LLaVA-Bench, alcanzando el 94% del nivel de rendimiento de GPT-4 solo de texto (mientras que los mejores métodos previos solo podían alcanzar el 87%), y una mejora del 60% en MMHAL-BENCH frente a otras líneas base. El código, el modelo y los datos son open source en https://llava-rlhf.github.io.
Large Multimodal Models (LMM) are built across modalities and the misalignment between two modalities can result in "hallucination", generating textual outputs that are not grounded by the multimodal information in context. To address the multimodal misalignment issue, we adapt the Reinforcement Learning from Human Feedback (RLHF) from the text domain to the task of vision-language alignment, where human annotators are asked to compare two responses and pinpoint the more hallucinated one, and the vision-language model is trained to maximize the simulated human rewards. We propose a new alignment algorithm called Factually Augmented RLHF that augments the reward model with additional factual information such as image captions and ground-truth multi-choice options, which alleviates the reward hacking phenomenon in RLHF and further improves the performance. We also enhance the GPT-4-generated training data (for vision instruction tuning) with previously available human-written image-text pairs to improve the general capabilities of our model. To evaluate the proposed approach in real-world scenarios, we develop a new evaluation benchmark MMHAL-BENCH with a special focus on penalizing hallucinations. As the first LMM trained with RLHF, our approach achieves remarkable improvement on the LLaVA-Bench dataset with the 94% performance level of the text-only GPT-4 (while previous best methods can only achieve the 87% level), and an improvement by 60% on MMHAL-BENCH over other baselines. We opensource our code, model, data at https://llava-rlhf.github.io.
Enlace al artículo
https://arxiv.org/abs/2309.14525
Leer más
https://x.com/arankomatsuzaki/status/1706839311306621182
Alineación de modelos de lenguaje grandes: una encuesta / Large Language Model Alignment: A Survey
Introducción del artículo
- Es un informe de encuesta integral sobre la alineación de LLM, que abarca temas como alineación externa, alineación interna, interpretabilidad mecanicista, ataques contra LLM alineados, evaluación de la alineación, direcciones futuras y discusión. #survey-paper #llm-alignment
> A comprehensive survey paper on llm alignment; topics include outer alignment, inner alignment, mechanistic interpretability, attacks on aligned llms, alignment evaluation, future directions, and discussions.
Resumen del artículo
- En los últimos años, los modelos de lenguaje grandes (LLM) han logrado avances notables. Estos avances, aunque han atraído una atención significativa, también han suscitado diversas preocupaciones. El potencial de estos modelos es innegablemente enorme; sin embargo, pueden generar textos imprecisos, engañosos o incluso perjudiciales. En consecuencia, se vuelve fundamental emplear técnicas de alineación para garantizar que estos modelos exhiban comportamientos coherentes con los valores humanos. Esta encuesta busca ofrecer una exploración extensa de las metodologías de alineación diseñadas para LLM, junto con la investigación existente sobre capacidades en este ámbito. Adoptando la perspectiva de la alineación de IA, clasificamos los métodos predominantes y las propuestas emergentes para la alineación de LLM en alineación externa e interna. También examinamos cuestiones relevantes, incluida la interpretabilidad de los modelos y sus posibles vulnerabilidades frente a ataques adversarios. Para evaluar la alineación de los LLM, presentamos una amplia variedad de benchmarks y metodologías de evaluación. Tras discutir el estado de la investigación sobre alineación para LLM, finalmente proyectamos una visión hacia el futuro, contemplando las prometedoras líneas de investigación que están por venir. Nuestra aspiración con esta encuesta va más allá de simplemente impulsar el interés de investigación en este campo. También buscamos cerrar la brecha entre la comunidad de investigación en alineación de IA y los investigadores enfocados en explorar las capacidades de los LLM, en favor de LLM que sean tanto capaces como seguros.
> Recent years have witnessed remarkable progress made in large language models (LLMs). Such advancements, while garnering significant attention, have concurrently elicited various concerns. The potential of these models is undeniably vast; however, they may yield texts that are imprecise, misleading, or even detrimental. Consequently, it becomes paramount to employ alignment techniques to ensure these models to exhibit behaviors consistent with human values. This survey endeavors to furnish an extensive exploration of alignment methodologies designed for LLMs, in conjunction with the extant capability research in this domain. Adopting the lens of AI alignment, we categorize the prevailing methods and emergent proposals for the alignment of LLMs into outer and inner alignment. We also probe into salient issues including the models' interpretability, and potential vulnerabilities to adversarial attacks. To assess LLM alignment, we present a wide variety of benchmarks and evaluation methodologies. After discussing the state of alignment research for LLMs, we finally cast a vision toward the future, contemplating the promising avenues of research that lie ahead. Our aspiration for this survey extends beyond merely spurring research interests in this realm. We also envision bridging the gap between the AI alignment research community and the researchers engrossed in the capability exploration of LLMs for both capable and safe LLMs.
Enlace al artículo
https://arxiv.org/abs/2309.15025
Leer más
https://x.com/omarsar0/status/1706845285064818905
Informe técnico de Qwen / Qwen Technical Report
Introducción del artículo
- Propone una serie de LLM que demuestran la fortaleza de RLHF en tareas relacionadas con el uso de herramientas y capacidades de planificación para crear agentes de lenguaje. #qwen-vl #rlhf
> Proposes a series of llms demonstrating the strength of rlhf on tasks involving tool use and planning capabilities for creating language agents.
Resumen del artículo
- Los modelos de lenguaje grandes (LLM) han revolucionado el campo de la inteligencia artificial, haciendo posibles tareas de procesamiento de lenguaje natural que antes se consideraban exclusivas de los humanos. En este artículo presentamos Qwen, la primera entrega de nuestra serie de modelos de lenguaje grandes. Qwen es una serie integral de modelos de lenguaje que abarca distintos modelos con diferentes cantidades de parámetros. Esto incluye Qwen, los modelos base de lenguaje preentrenados, y Qwen-Chat, los modelos de chat ajustados con técnicas de alineación humana. Los modelos base de lenguaje demuestran de forma consistente un rendimiento superior en una gran variedad de tareas downstream, y los modelos de chat, en particular los entrenados mediante Reinforcement Learning from Human Feedback (RLHF), son altamente competitivos. Los modelos de chat cuentan con capacidades avanzadas de uso de herramientas y planificación para crear aplicaciones de agentes, mostrando un rendimiento impresionante incluso frente a modelos de mayor tamaño en tareas complejas como el uso de un intérprete de código. Además, también desarrollaron modelos especializados en programación, Code-Qwen y Code-Qwen-Chat, así como un modelo enfocado en matemáticas, Math-Qwen-Chat, construidos sobre los modelos base de lenguaje. Estos modelos muestran un rendimiento notablemente mejor en comparación con los modelos de código abierto, aunque quedan ligeramente por detrás de los modelos propietarios.
> Large language models (LLMs) have revolutionized the field of artificial intelligence, enabling natural language processing tasks that were previously thought to be exclusive to humans. In this work, we introduce Qwen, the first installment of our large language model series. Qwen is a comprehensive language model series that encompasses distinct models with varying parameter counts. It includes Qwen, the base pretrained language models, and Qwen-Chat, the chat models finetuned with human alignment techniques. The base language models consistently demonstrate superior performance across a multitude of downstream tasks, and the chat models, particularly those trained using Reinforcement Learning from Human Feedback (RLHF), are highly competitive. The chat models possess advanced tool-use and planning capabilities for creating agent applications, showcasing impressive performance even when compared to bigger models on complex tasks like utilizing a code interpreter. Furthermore, we have developed coding-specialized models, Code-Qwen and Code-Qwen-Chat, as well as mathematics-focused models, Math-Qwen-Chat, which are built upon base language models. These models demonstrate significantly improved performance in comparison with open-source models, and slightly fall behind the proprietary models.
Enlace al artículo
https://arxiv.org/abs/2309.16609
Leer más
https://x.com/omarsar0/status/1707776749042364729
MentalLLaMA: análisis interpretable de salud mental en redes sociales con modelos de lenguaje grandes / MentalLLaMA: Interpretable Mental Health Analysis on Social Media with Large Language Models
Introducción del artículo
- Una serie open source de LLM para análisis interpretable de salud mental con capacidad de seguir instrucciones; además propone un conjunto de datos de instrucciones interpretable, multitarea y multifuente sobre salud mental en redes sociales con 105,000 muestras de datos. #medical #llm-for-clinical-task #llama
> An open-source llm series for interpretable mental health analysis with instruction-following capability; it also proposes a multi-task and multi-source interpretable mental health instruction dataset on social media with 105k data samples.
Resumen del artículo
- Con el desarrollo de las tecnologías web, los textos de redes sociales se están convirtiendo en una fuente rica para el análisis automático de salud mental. Como los métodos discriminativos tradicionales presentan el problema de una baja interpretabilidad, recientemente se han explorado los modelos de lenguaje de gran tamaño para el análisis interpretable de salud mental en redes sociales, con el objetivo de proporcionar explicaciones detalladas junto con las predicciones. Como resultado, se ha demostrado que ChatGPT puede generar explicaciones cercanas a las humanas para clasificaciones correctas. Sin embargo, los LLM todavía logran un rendimiento de clasificación insatisfactorio en esquemas de zero-shot/few-shot. El ajuste fino específico por dominio es una solución efectiva, pero enfrenta dos desafíos: 1) falta de datos de entrenamiento de alta calidad. 2) no se han publicado LLM de código abierto para análisis interpretable de salud mental que reduzcan el costo del ajuste fino. Para aliviar estos problemas, Facebook construyó el primer conjunto de datos de instrucciones interpretables de salud mental (IMHI) en redes sociales, multitarea y multifuente, con 105 mil muestras de datos. Los datos brutos de redes sociales se recopilan de 10 fuentes existentes que cubren 8 tareas de análisis de salud mental. Utilizan prompts few-shot escritos por expertos y etiquetas recopiladas para dar instrucciones a ChatGPT y obtener explicaciones de sus respuestas. Para garantizar la confiabilidad de las explicaciones, realizan evaluaciones automáticas y humanas estrictas sobre la exactitud, consistencia y calidad de los datos generados. Con base en el conjunto de datos IMHI y los modelos base LLaMA2, entrenan MentalLLaMA, la primera serie de LLM de código abierto para análisis interpretable de salud mental con capacidad de seguir instrucciones. También evalúan el rendimiento de MentalLLaMA en el benchmark de evaluación IMHI con 10 conjuntos de prueba, donde se examinan la exactitud de sus predicciones y la calidad de sus explicaciones. Como resultado, MentalLLaMA mostró una exactitud cercana a la de los métodos discriminativos de última generación y genera explicaciones de alta calidad.
> With the development of web technology, social media texts are becoming a rich source for automatic mental health analysis. As traditional discriminative methods bear the problem of low interpretability, the recent large language models have been explored for interpretable mental health analysis on social media, which aims to provide detailed explanations along with predictions. The results show that ChatGPT can generate approaching-human explanations for its correct classifications. However, LLMs still achieve unsatisfactory classification performance in a zero-shot/few-shot manner. Domain-specific finetuning is an effective solution, but faces 2 challenges: 1) lack of high-quality training data. 2) no open-source LLMs for interpretable mental health analysis were released to lower the finetuning cost. To alleviate these problems, we build the first multi-task and multi-source interpretable mental health instruction (IMHI) dataset on social media, with 105K data samples. The raw social media data are collected from 10 existing sources covering 8 mental health analysis tasks. We use expert-written few-shot prompts and collected labels to prompt ChatGPT and obtain explanations from its responses. To ensure the reliability of the explanations, we perform strict automatic and human evaluations on the correctness, consistency, and quality of generated data. Based on the IMHI dataset and LLaMA2 foundation models, we train MentalLLaMA, the first open-source LLM series for interpretable mental health analysis with instruction-following capability. We also evaluate the performance of MentalLLaMA on the IMHI evaluation benchmark with 10 test sets, where their correctness for making predictions and the quality of explanations are examined. The results show that MentalLLaMA approaches state-of-the-art discriminative methods in correctness and generates high-quality explanations.
Enlace al artículo
https://arxiv.org/abs/2309.13567
Leer más
https://x.com/SAnaniadou/status/1707668936634794442
Reforzar el razonamiento de cadena de pensamiento zero-shot en modelos de lenguaje de gran tamaño mediante lógica / Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models through Logic
Introducción al artículo
- Un nuevo marco neuro-simbólico para mejorar el razonamiento de cadena de pensamiento zero-shot en los LLM; aprovecha principios de lógica simbólica para verificar y revisar los procesos de razonamiento y así mejorar las capacidades de razonamiento de los LLM. #chain-of-thought
> A new neurosymbolic framework to improve zero-shot chain-of-thought reasoning in llms; leverages principles from symbolic logic to verify and revise reasoning processes to improve the reasoning capabilities of llms.
Resumen del artículo
- Los avances recientes en los modelos de lenguaje de gran escala han demostrado una notable capacidad de generalización en diversos dominios. Sin embargo, sus capacidades de razonamiento todavía tienen un amplio margen de mejora, especialmente cuando se enfrentan a escenarios que requieren razonamiento de múltiples pasos. Aunque los modelos de lenguaje de gran escala poseen un conocimiento extenso, su comportamiento, en particular en términos de razonamiento, a menudo no logra aprovechar ese conocimiento de manera efectiva para establecer un paradigma de pensamiento coherente. Los modelos de lenguaje generativos a veces presentan alucinaciones, ya que sus procedimientos de razonamiento no están restringidos por principios lógicos. Con el objetivo de mejorar la capacidad de razonamiento de cadena de pensamiento zero-shot de los modelos de lenguaje de gran escala, proponemos Logical Chain-of-Thought (LogiCoT), un marco neuro-simbólico que aprovecha principios de la lógica simbólica para verificar y revisar los procesos de razonamiento en consecuencia. Las evaluaciones experimentales realizadas en tareas de lenguaje de diversos dominios, incluidos aritmética, sentido común, razonamiento simbólico, inferencia causal y problemas sociales, demuestran la eficacia del paradigma de razonamiento mejorado mediante lógica.
> Recent advancements in large language models have showcased their remarkable generalizability across various domains. However, their reasoning abilities still have significant room for improvement, especially when confronted with scenarios requiring multi-step reasoning. Although large language models possess extensive knowledge, their behavior, particularly in terms of reasoning, often fails to effectively utilize this knowledge to establish a coherent thinking paradigm. Generative language models sometimes show hallucinations as their reasoning procedures are unconstrained by logical principles. Aiming to improve the zero-shot chain-of-thought reasoning ability of large language models, we propose Logical Chain-of-Thought (LogiCoT), a neurosymbolic framework that leverages principles from symbolic logic to verify and revise the reasoning processes accordingly. Experimental evaluations conducted on language tasks in diverse domains, including arithmetic, commonsense, symbolic, causal inference, and social problems, demonstrate the efficacy of the enhanced reasoning paradigm by logic.
Enlace del artículo
https://arxiv.org/abs/2309.13339
Leer más
https://x.com/omarsar0/status/1706711389803287019
Original
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-c24
2 comentarios
Guau... disfruté mucho leer esta publicación tan bien elaborada.
Gracias ^^;