[2025/01/13 ~ 01/19] Principales artículos de ML de esta semana (Top ML Papers of the Week)

Hemos traducido automáticamente un artículo sobre papers de ML publicados semanalmente por DAIR.AI.
La tendencia más destacada de los papers seleccionados esta semana es la intensa actividad de investigación en modelos de lenguaje grandes (LLM, Large Language Models) y en IA multimodal. Por ejemplo, papers como "Self-Adaptive LLMs", "Foundations of LLMs", "Enhancing RAG" y "VideoRAG" abordan temas relacionados con los LLM y el aprendizaje multimodal. Además, trabajos como "Imagine while Reasoning in Space" y "OmniThink" también exploran enfoques multimodales que intentan resolver problemas complejos utilizando distintos tipos de datos.
Esta tendencia indica que, dentro de la comunidad actual de investigación en IA, está creciendo tanto la importancia de los modelos de lenguaje como el esfuerzo por lograr una comprensión más integral mediante la combinación de diversos datos. Los LLM lideran el estado del arte en procesamiento de lenguaje natural (NLP), y parece estar extendiéndose la idea de que, para desarrollar aún más estas tecnologías, es necesario un enfoque integrado que aproveche datos multimodales. En particular, la IA multimodal está desempeñando un papel importante al combinar la comprensión a través de imágenes con la comprensión mediante lenguaje natural para resolver problemas más complejos.
En conclusión, los papers de esta semana muestran que el centro de la investigación en IA está concentrándose en los modelos de lenguaje grandes y en el aprendizaje multimodal. Esto sugiere que la IA ya no se limita simplemente al procesamiento de texto, sino que avanza hacia una integración con información visual para hacer posible una resolución de problemas más inteligente y compleja. Por lo tanto, se espera que estas investigaciones tengan un gran impacto en el desarrollo futuro de la tecnología de IA.

$\text{Transformer}^2$: LLM autoadaptativos / $\text{Transformer}^2$: Self-adaptive LLMs

Introducción al paper

Se presenta $\text{Transformer}^2$, un nuevo framework de autoadaptación que ajusta LLM en tiempo real para tareas no vistas mediante el ajuste selectivo de componentes singulares de sus matrices de pesos. Está construido en dos etapas principales: 1) un sistema de despacho que analiza e identifica las propiedades de la tarea entrante, y 2) una etapa que combina vectores "expertos", entrenados mediante aprendizaje por refuerzo, para generar comportamientos específicos para cada tarea. Se afirma que es más eficiente que LoRA con menos parámetros y que puede funcionar en diversas arquitecturas de LLM.

Introduces $\text{Transformer}^2$, a novel self-adaptation framework that adapts LLMs for unseen tasks in real-time by selectively adjusting singular components of their weight matrices; it’s built with two key phases: 1) a dispatch system that analyzes and identifies the properties of the incoming task, and 2) a step that combines "expert" vectors (trained via reinforcement learning) to create task-specific behaviors; claims to be more efficient than LoRA with fewer parameters and can works across different LLM architectures.

Resumen del paper (Abstract)

Los modelos de lenguaje grandes (LLM) autoadaptativos buscan resolver los desafíos que plantean los métodos tradicionales de fine-tuning, que suelen ser computacionalmente intensivos y estáticos en su capacidad para manejar tareas diversas. Aquí se presenta $\text{Transformer}^2$, un nuevo framework de autoadaptación que adapta LLM para tareas no vistas en tiempo real ajustando selectivamente solo los componentes singulares de sus matrices de pesos. Durante la inferencia, $\text{Transformer}^2$ emplea un mecanismo de dos pasadas. Primero, el sistema de despacho identifica las propiedades de la tarea y luego mezcla dinámicamente vectores "expertos" específicos de cada tarea, entrenados con aprendizaje por refuerzo, para obtener el comportamiento objetivo para el prompt entrante. Este método supera a enfoques ubicuos como LoRA, con menos parámetros y mayor eficiencia. $\text{Transformer}^2$ demuestra versatilidad en distintas arquitecturas y modalidades de LLM, incluidas tareas de visión-lenguaje. $\text{Transformer}^2$ representa un avance significativo, ya que ofrece una solución escalable y eficiente para mejorar la adaptabilidad y el rendimiento específico por tarea de los LLM, sentando las bases para sistemas de IA verdaderamente dinámicos y autoorganizados.

Self-adaptive large language models (LLMs) aim to solve the challenges posed by traditional fine-tuning methods, which are often computationally intensive and static in their ability to handle diverse tasks. We introduce $\text{Transformer}^2$, a novel self-adaptation framework that adapts LLMs for unseen tasks in real-time by selectively adjusting only the singular components of their weight matrices. During inference, $\text{Transformer}^2$ employs a two-pass mechanism: first, a dispatch system identifies the task properties, and then task-specific "expert" vectors, trained using reinforcement learning, are dynamically mixed to obtain targeted behavior for the incoming prompt. Our method outperforms ubiquitous approaches such as LoRA, with fewer parameters and greater efficiency. $\text{Transformer}^2$ demonstrates versatility across different LLM architectures and modalities, including vision-language tasks. $\text{Transformer}^2$ represents a significant leap forward, offering a scalable, efficient solution for enhancing the adaptability and task-specific performance of LLMs, paving the way for truly dynamic, self-organizing AI systems.

Enlace al paper

https://arxiv.org/abs/2501.06252

Leer más

https://discuss.pytorch.kr/t/…

https://x.com/hardmaru/status/1879331049383334187

MiniMax-01: modelos fundacionales que escalan a velocidad relámpago / MiniMax-01: Scaling Foundation Models with Lightning Attention

Introducción al paper

Presenta una nueva serie de modelos que integra Mixture-of-Experts, incluyendo un modelo con 32 expertos y 456 mil millones de parámetros, de los cuales 45.9 mil millones se activan para cada token; afirma igualar el rendimiento de modelos de última generación como GPT-4o y Claude-3.5-Sonnet, mientras ofrece una ventana de contexto 20 a 32 veces más larga; puede manejar ventanas de contexto de hasta 4 millones de tokens; integra atención lineal con un uso optimizado del hardware, lo que mejora la eficiencia y escalabilidad del LLM; también incluye un modelo de visión llamado MiniMax-VL-01, construido mediante entrenamiento continuo con 512 mil millones de tokens de visión-lenguaje.

Introduces a new series of models that integrate Mixture-of-Experts; introduces a model with 32 experts and 456B parameters, and 45.9B are activated for each token; claims match the performance of state-of-the-art models like GPT-4o and Claude-3.5-Sonnet while offering a 20-32x longer context window; it can handle context windows of up to 4 million tokens; it integrates linear attention with optimized hardware utilization which enhances the efficiency and scalability of the LLM; there is also a vision model called MiniMax-VL-01 built through continued training with 512 billion vision-language tokens.

Resumen del artículo (Abstract)

Presentamos la serie MiniMax-01, que incluye MiniMax-Text-01 y MiniMax-VL-01, comparable con modelos de primer nivel y a la vez con capacidades superiores para procesar contextos más largos. La clave está en lightning attention y su escalado eficiente. Para maximizar la capacidad computacional, la integramos con Mixture of Experts (MoE), creando un modelo con 32 expertos y un total de 456 mil millones de parámetros, de los cuales 45.9 mil millones se activan para cada token. Desarrollamos una estrategia de paralelización optimizada y técnicas altamente eficientes de solapamiento entre cómputo y comunicación para MoE y lightning attention. Este enfoque nos permite realizar entrenamiento e inferencia eficientes en modelos con cientos de miles de millones de parámetros a lo largo de contextos de millones de tokens. La ventana de contexto de MiniMax-Text-01 puede alcanzar hasta 1 millón de tokens durante el entrenamiento y extrapolarse a 4 millones de tokens durante la inferencia a un costo accesible. Nuestro modelo de visión-lenguaje, MiniMax-VL-01, fue construido mediante entrenamiento continuo con 512 mil millones de tokens de visión-lenguaje. Los experimentos, tanto en benchmarks estándar como internos, muestran que nuestros modelos igualan el rendimiento de modelos de última generación como GPT-4o y Claude-3.5-Sonnet, mientras ofrecen una ventana de contexto entre 20 y 32 veces más larga. Publicamos MiniMax-01 de forma abierta en https://github.com/MiniMax-AI.

We introduce MiniMax-01 series, including MiniMax-Text-01 and MiniMax-VL-01, which are comparable to top-tier models while offering superior capabilities in processing longer contexts. The core lies in lightning attention and its efficient scaling. To maximize computational capacity, we integrate it with Mixture of Experts (MoE), creating a model with 32 experts and 456 billion total parameters, of which 45.9 billion are activated for each token. We develop an optimized parallel strategy and highly efficient computation-communication overlap techniques for MoE and lightning attention. This approach enables us to conduct efficient training and inference on models with hundreds of billions of parameters across contexts spanning millions of tokens. The context window of MiniMax-Text-01 can reach up to 1 million tokens during training and extrapolate to 4 million tokens during inference at an affordable cost. Our vision-language model, MiniMax-VL-01 is built through continued training with 512 billion vision-language tokens. Experiments on both standard and in-house benchmarks show that our models match the performance of state-of-the-art models like GPT-4o and Claude-3.5-Sonnet while offering 20-32 times longer context window. We publicly release MiniMax-01 at https://github.com/MiniMax-AI.

Enlace del artículo

https://arxiv.org/abs/2501.08313

Leer más

https://github.com/MiniMax-AI

https://x.com/omarsar0/status/1879572512075587872

VideoRAG: generación aumentada por recuperación sobre corpus de video / VideoRAG: Retrieval-Augmented Generation over Video Corpus

Introducción del artículo

Un framework que mejora RAG aprovechando contenido de video como fuente externa de conocimiento; a diferencia de los enfoques de RAG existentes, que se centran principalmente en texto o imágenes, VideoRAG recupera dinámicamente videos relevantes según las consultas e incorpora tanto sus elementos visuales como textuales en el proceso de generación; el framework utiliza Large Video Language Models (LVLMs) para procesar directamente el contenido de video, lo que permite capturar con mayor eficacia dinámicas temporales, detalles espaciales y señales multimodales que las modalidades estáticas suelen no transmitir; para los videos que carecen de descripciones textuales, propone usar reconocimiento automático de voz para generar transcripciones, asegurando que se puedan aprovechar tanto la modalidad visual como la textual.

A framework that enhances RAG by leveraging video content as an external knowledge source; unlike existing RAG approaches that primarily focus on text or images, VideoRAG dynamically retrieves relevant videos based on queries and incorporates both their visual and textual elements into the generation process; the framework utilizes Large Video Language Models (LVLMs) to process video content directly, enabling more effective capture of temporal dynamics, spatial details, and multimodal cues that static modalities often fail to convey; for videos lacking textual descriptions, they propose using automatic speech recognition to generate transcripts, ensuring both visual and textual modalities can be leveraged.

Resumen del artículo (Abstract)

La generación aumentada por recuperación (RAG) es una estrategia poderosa para abordar el problema de generar salidas factualmente incorrectas en los modelos fundacionales al recuperar conocimiento externo relevante para las consultas e incorporarlo en su proceso de generación. Sin embargo, los enfoques de RAG existentes se han centrado principalmente en la información textual, y algunos avances recientes han comenzado a considerar imágenes, pero en gran medida pasan por alto los videos, una fuente rica de conocimiento multimodal capaz de representar eventos, procesos y detalles contextuales de forma más efectiva que cualquier otra modalidad. Aunque algunos estudios recientes exploran la integración de videos en el proceso de generación de respuestas, ya sea predefinen videos asociados a la consulta sin recuperarlos según la consulta, o convierten los videos en descripciones textuales sin aprovechar su riqueza multimodal. Para abordar estos problemas, presentamos VideoRAG, un nuevo framework que no solo recupera dinámicamente videos relevantes según su relación con las consultas, sino que también utiliza tanto la información visual como la textual de los videos en la generación de la salida. Además, para hacerlo operativo, implementamos el método en torno a los recientes avances en Large Video Language Models (LVLMs), que permiten procesar directamente el contenido de video para representarlo para la recuperación e integrar sin fricciones los videos recuperados junto con las consultas. Validamos experimentalmente la efectividad de VideoRAG y mostramos que supera a las líneas base relevantes.

Retrieval-Augmented Generation (RAG) is a powerful strategy to address the issue of generating factually incorrect outputs in foundation models by retrieving external knowledge relevant to queries and incorporating it into their generation process. However, existing RAG approaches have primarily focused on textual information, with some recent advancements beginning to consider images, and they largely overlook videos, a rich source of multimodal knowledge capable of representing events, processes, and contextual details more effectively than any other modality. While a few recent studies explore the integration of videos in the response generation process, they either predefine query-associated videos without retrieving them according to queries, or convert videos into the textual descriptions without harnessing their multimodal richness. To tackle these, we introduce VideoRAG, a novel framework that not only dynamically retrieves relevant videos based on their relevance with queries but also utilizes both visual and textual information of videos in the output generation. Further, to operationalize this, our method revolves around the recent advance of Large Video Language Models (LVLMs), which enable the direct processing of video content to represent it for retrieval and seamless integration of the retrieved videos jointly with queries. We experimentally validate the effectiveness of VideoRAG, showcasing that it is superior to relevant baselines.

Enlace al artículo

https://arxiv.org/abs/2501.05874

Leer más

https://x.com/omarsar0/status/1878827350315659421

Titans: aprender a memorizar en tiempo de prueba / Titans: Learning to Memorize at Test Time

Introducción al artículo

Introduce un módulo neuronal de memoria a largo plazo para memorizar el contexto histórico y ayudar a la atención a enfocarse en el contexto actual mientras aprovecha información lejana del pasado; el módulo de memoria neuronal actúa como una memoria de largo plazo, más persistente que usar solo atención (considerada más de corto plazo); Titan, basado en memoria neuronal, muestra buenos resultados en modelado de lenguaje, razonamiento de sentido común, genómica y tareas de series temporales.

Introduces a neural long-term memory module to memorize historical context and help attention to attend to the current context while utilizing long past information; the neural memory module acts as a long-term, more persistent memory than just using attention alone (considered more short-term); Titan, which is based on neural memory, shows good results in language modeling, common-sense reasoning, genomics, and time series tasks.

Resumen del artículo (Abstract)

Durante más de una década se ha llevado a cabo una amplia investigación sobre cómo aprovechar eficazmente los modelos recurrentes y la atención. Mientras que los modelos recurrentes buscan comprimir los datos en una memoria de tamaño fijo (llamada estado oculto), la atención permite atender a toda la ventana de contexto, capturando las dependencias directas de todos los tokens. Sin embargo, este modelado más preciso de las dependencias conlleva un costo cuadrático, lo que limita al modelo a un contexto de longitud fija. Presentamos un nuevo módulo de memoria neuronal de largo plazo que aprende a memorizar el contexto histórico y ayuda a la atención a enfocarse en el contexto actual mientras aprovecha información lejana del pasado. Mostramos que esta memoria neuronal tiene la ventaja de permitir un entrenamiento rápido y paralelizable, manteniendo al mismo tiempo una inferencia veloz. Desde la perspectiva de la memoria, sostenemos que la atención, debido a su contexto limitado pero a su modelado preciso de dependencias, funciona como una memoria de corto plazo, mientras que la memoria neuronal, gracias a su capacidad para memorizar datos, actúa como una memoria de largo plazo y más persistente. Con base en estos dos módulos, presentamos una nueva familia de arquitecturas llamada Titans y proponemos tres variantes para abordar cómo incorporar memoria de forma efectiva en esta arquitectura. Nuestros resultados experimentales en modelado de lenguaje, razonamiento de sentido común, genómica y tareas de series temporales muestran que Titans es más efectivo que Transformers y que los modelos recurrentes lineales modernos más recientes. Además, puede escalar de manera efectiva a ventanas de contexto de más de 2M con mayor precisión en tareas de needle-in-haystack en comparación con las líneas base.

Over more than a decade there has been an extensive research effort on how to effectively utilize recurrent models and attention. While recurrent models aim to compress the data into a fixed-size memory (called hidden state), attention allows attending to the entire context window, capturing the direct dependencies of all tokens. This more accurate modeling of dependencies, however, comes with a quadratic cost, limiting the model to a fixed-length context. We present a new neural long-term memory module that learns to memorize historical context and helps attention to attend to the current context while utilizing long past information. We show that this neural memory has the advantage of fast parallelizable training while maintaining a fast inference. From a memory perspective, we argue that attention due to its limited context but accurate dependency modeling performs as a short-term memory, while neural memory due to its ability to memorize the data, acts as a long-term, more persistent, memory. Based on these two modules, we introduce a new family of architectures, called Titans, and present three variants to address how one can effectively incorporate memory into this architecture. Our experimental results on language modeling, common-sense reasoning, genomics, and time series tasks show that Titans are more effective than Transformers and recent modern linear recurrent models. They further can effectively scale to larger than 2M context window size with higher accuracy in needle-in-haystack tasks compared to baselines.

Enlace del artículo

https://arxiv.org/abs/2501.00663

Leer más

https://x.com/omarsar0/status/1879896681010921742

Foundations of Large Language Models

Introducción del artículo

Una nueva encuesta sobre los fundamentos de los LLM que cubre áreas como el preentrenamiento, los prompts y los métodos de alineación.

New survey on the foundations of LLMs covering areas such as pre-training, prompting, and alignment methods.

Resumen del artículo (Abstract)

Este es un libro sobre modelos de lenguaje de gran tamaño. Como indica el título, se centra principalmente en conceptos fundamentales más que en una cobertura exhaustiva de todas las tecnologías de vanguardia. El libro está estructurado en cuatro capítulos principales, cada uno dedicado a un área clave: preentrenamiento, modelos generativos, técnicas de prompting y métodos de alineación. Está dirigido a estudiantes universitarios, profesionales y practicantes del procesamiento de lenguaje natural y campos relacionados, y puede servir como referencia para cualquier persona interesada en los modelos de lenguaje de gran tamaño.

This is a book about large language models. As indicated by the title, it primarily focuses on foundational concepts rather than comprehensive coverage of all cutting-edge technologies. The book is structured into four main chapters, each exploring a key area: pre-training, generative models, prompting techniques, and alignment methods. It is intended for college students, professionals, and practitioners in natural language processing and related fields, and can serve as a reference for anyone interested in large language models.

Enlace del artículo

https://arxiv.org/abs/2501.09223

Leer más

https://discuss.pytorch.kr/t/pdf-231p-feat-arxiv/5895

https://x.com/omarsar0/status/1880284477445767586

OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking

Introducción del artículo

Un nuevo framework que emula un proceso humano de expansión y reflexión iterativas; fue diseñado para simular el comportamiento cognitivo de los aprendices mientras profundizan su conocimiento; en comparación con RAG y el role-playing, OmniThink puede expandir las fronteras del conocimiento mediante reflexión y exploración continuas, lo que lo hace ideal para casos de uso que requieren generación de texto largo.

A new framework that emulates a human-like process of iterative expansion and reflection; it's built to simulate the cognitive behavior of learners as they deepen their knowledge; compared to RAG and role-playing, OmniThink can expand knowledge boundaries through continuous reflection and exploration; this makes it ideal for use cases that require long-form generation.

Resumen del artículo (Abstract)

La escritura automática con modelos de lenguaje grandes suele depender de la generación aumentada por recuperación. Sin embargo, estos enfoques siguen confinados dentro de los límites del alcance predefinido del modelo, lo que limita la generación de contenido con información rica. En particular, la información recuperada de forma básica tiende a carecer de profundidad y utilidad, además de presentar redundancia, lo que afecta negativamente la calidad de los artículos generados y produce resultados superficiales, repetitivos y poco originales. Para abordar estos problemas, se propone OmniThink, un framework de escritura automática que emula el proceso humano de expansión y reflexión iterativas. La idea central de OmniThink es simular el comportamiento cognitivo de los aprendices a medida que profundizan progresivamente su conocimiento sobre los temas. Los resultados experimentales muestran que OmniThink mejora la densidad de conocimiento de los artículos generados sin comprometer métricas como la coherencia y la profundidad. Las evaluaciones humanas y la retroalimentación de expertos destacan aún más el potencial de OmniThink para abordar desafíos del mundo real en la generación de artículos de formato largo.

Machine writing with large language models often relies on retrieval-augmented generation. However, these approaches remain confined within the boundaries of the model's predefined scope, limiting the generation of content with rich information. Specifically, vanilla-retrieved information tends to lack depth, utility, and suffers from redundancy, which negatively impacts the quality of generated articles, leading to shallow, repetitive, and unoriginal outputs. To address these issues, we propose OmniThink, a machine writing framework that emulates the human-like process of iterative expansion and reflection. The core idea behind OmniThink is to simulate the cognitive behavior of learners as they progressively deepen their knowledge of the topics. Experimental results demonstrate that OmniThink improves the knowledge density of generated articles without compromising metrics such as coherence and depth. Human evaluations and expert feedback further highlight the potential of OmniThink to address real-world challenges in the generation of long-form articles.

Enlace al artículo

https://arxiv.org/abs/2501.09751

Leer más

https://x.com/omarsar0/status/1880275861401923619

Mejora de la generación aumentada por recuperación: un estudio de mejores prácticas / Enhancing Retrieval-Augmented Generation: A Study of Best Practices

Presentación del artículo

Explora de forma sistemática los factores y métodos que mejoran los sistemas RAG, como las estrategias de recuperación, la expansión de consultas, el aprendizaje en contexto contrastivo, el diseño de prompts y el chunking.

Systematically explores the factors and methods that improve RAG systems such as retrieval strategies, query expansion, contrastive in-context learning, prompt design, and chunking.

Resumen del artículo (Abstract)

Los sistemas de generación aumentada por recuperación (RAG) han mostrado recientemente avances notables al integrar mecanismos de recuperación en los modelos de lenguaje, mejorando su capacidad para producir respuestas más precisas y contextualmente relevantes. Sin embargo, la influencia de los diversos componentes y configuraciones dentro de los sistemas RAG sigue estando poco explorada. Una comprensión integral de estos elementos es esencial para adaptar los sistemas RAG a tareas de recuperación complejas y garantizar un rendimiento óptimo en aplicaciones diversas. En este artículo, desarrollamos varios diseños avanzados de sistemas RAG que incorporan expansión de consultas, diversas estrategias novedosas de recuperación y un nuevo RAG con Contrastive In-Context Learning. Nuestro estudio investiga de forma sistemática factores clave, incluidos el tamaño del modelo de lenguaje, el diseño de prompts, el tamaño de los fragmentos de documento, el tamaño de la base de conocimiento, el stride de recuperación, las técnicas de expansión de consultas, las bases de conocimiento para Contrastive In-Context Learning, las bases de conocimiento multilingües y un Focus Mode que recupera contexto relevante a nivel de oración. A través de una experimentación extensa, ofrecemos un análisis detallado de cómo estos factores influyen en la calidad de las respuestas. Nuestros hallazgos brindan insights accionables para desarrollar sistemas RAG, logrando un equilibrio entre la riqueza contextual y la eficiencia de recuperación-generación, y allanando así el camino para frameworks RAG más adaptables y de mayor rendimiento en diversos escenarios del mundo real. Nuestro código y los detalles de implementación están disponibles públicamente.

Retrieval-Augmented Generation (RAG) systems have recently shown remarkable advancements by integrating retrieval mechanisms into language models, enhancing their ability to produce more accurate and contextually relevant responses. However, the influence of various components and configurations within RAG systems remains underexplored. A comprehensive understanding of these elements is essential for tailoring RAG systems to complex retrieval tasks and ensuring optimal performance across diverse applications. In this paper, we develop several advanced RAG system designs that incorporate query expansion, various novel retrieval strategies, and a novel Contrastive In-Context Learning RAG. Our study systematically investigates key factors, including language model size, prompt design, document chunk size, knowledge base size, retrieval stride, query expansion techniques, Contrastive In-Context Learning knowledge bases, multilingual knowledge bases, and Focus Mode retrieving relevant context at sentence-level. Through extensive experimentation, we provide a detailed analysis of how these factors influence response quality. Our findings offer actionable insights for developing RAG systems, striking a balance between contextual richness and retrieval-generation efficiency, thereby paving the way for more adaptable and high-performing RAG frameworks in diverse real-world scenarios. Our code and implementation details are publicly available.

Enlace al artículo

https://arxiv.org/abs/2501.07391

Leer más

https://x.com/omarsar0/status/1879178916021318029

AutoCBT: marco autónomo de múltiples agentes para terapia cognitivo-conductual en consejería psicológica / AutoCBT: An Autonomous Multi-agent Framework for Cognitive Behavioral Therapy in Psychological Counseling

Presentación del artículo

Se propone AutoCBT, un marco de múltiples agentes para terapia cognitivo-conductual. Este estudio propone un marco general de múltiples agentes que genera respuestas de alta calidad para escenarios de consejería psicológica de un solo turno, mejora la capacidad autónoma de cada agente mediante una combinación de enrutamiento dinámico, memoria y mecanismos de supervisión, y los resultados experimentales muestran que AutoCBT puede ofrecer servicios automatizados de consejería psicológica de alta calidad; AutoCBT mejora la calidad del diálogo en comparación con otros marcos de consejería basados únicamente en prompts.

Proposes a multi-agent framework, AutoCBT, for Cognitive Behavioral Therapy; the work proposes a general multi-agent framework that generates high-quality responses for single-turn psychological consultation scenarios; it uses a combination of dynamic routing, memory, and supervisory mechanisms to enhance the autonomous ability of each agent; experimental results show that AutoCBT can provide higher-quality automated psychological counseling services; AutoCBT improves dialogue quality compared to other purely prompt-based counseling frameworks.

Resumen del artículo (Abstract)

La consejería psicológica presencial tradicional sigue siendo principalmente un nicho, elegida a menudo por personas con problemas psicológicos, mientras que la consejería automatizada en línea ofrece una solución potencial para quienes dudan en buscar ayuda por sentimientos de vergüenza. La terapia cognitivo-conductual (CBT) es un enfoque esencial y ampliamente utilizado en la consejería psicológica. La llegada de los modelos de lenguaje grandes (LLM) y la tecnología de agentes hace posible el diagnóstico y tratamiento automatizados de CBT. Sin embargo, los sistemas actuales de CBT basados en LLM usan agentes con una estructura fija, lo que limita sus capacidades de autooptimización, o bien ofrecen sugerencias vacías y poco útiles debido a patrones de respuesta redundantes. En este trabajo, utilizamos modelos de consulta de una sola ronda tipo Quora y el modelo de consulta de una sola ronda YiXinLi para construir un marco general de agentes que genere respuestas de alta calidad para escenarios de consejería psicológica de un solo turno. Usamos un conjunto de datos bilingüe para evaluar la calidad de las consultas de respuesta única generadas por cada marco. Luego, incorporamos mecanismos de enrutamiento dinámico y supervisión inspirados en la consejería psicológica real para construir un marco autónomo de múltiples agentes orientado a CBT, demostrando su aplicabilidad general. Los resultados experimentales indican que AutoCBT puede proporcionar servicios automatizados de consejería psicológica de mayor calidad.

Traditional in-person psychological counseling remains primarily niche, often chosen by individuals with psychological issues, while online automated counseling offers a potential solution for those hesitant to seek help due to feelings of shame. Cognitive Behavioral Therapy (CBT) is an essential and widely used approach in psychological counseling. The advent of large language models (LLMs) and agent technology enables automatic CBT diagnosis and treatment. However, current LLM-based CBT systems use agents with a fixed structure, limiting their self-optimization capabilities, or providing hollow, unhelpful suggestions due to redundant response patterns. In this work, we utilize Quora-like and YiXinLi single-round consultation models to build a general agent framework that generates high-quality responses for single-turn psychological consultation scenarios. We use a bilingual dataset to evaluate the quality of single-response consultations generated by each framework. Then, we incorporate dynamic routing and supervisory mechanisms inspired by real psychological counseling to construct a CBT-oriented autonomous multi-agent framework, demonstrating its general applicability. Experimental results indicate that AutoCBT can provide higher-quality automated psychological counseling services.

Enlace del artículo

https://arxiv.org/abs/2501.09426

Leer más

https://x.com/omarsar0/status/1880283025595867631

Imagina mientras razonas en el espacio: visualización del pensamiento multimodal / Imagine while Reasoning in Space: Multimodal Visualization-of-Thought

Presentación del artículo

Se introduce MVoT (visualización multimodal del pensamiento), un nuevo marco de razonamiento que permite a los modelos de IA “pensar” tanto en texto como en imágenes, y mejora el prompting tradicional de cadena de pensamiento al permitir que los modelos generen representaciones visuales de sus pasos de razonamiento junto con explicaciones en texto; este marco se implementa en Chameleon-7B, un modelo de lenguaje multimodal, e introduce una “pérdida por discrepancia de tokens” para mejorar la calidad de las visualizaciones generadas; MVoT supera de manera significativa a los enfoques tradicionales, especialmente en escenarios complejos, logrando más del 90% de precisión en tareas de laberintos e instalación de impresoras.

Introduces MVoT (Multimodal Visualization-of-Thought), a new reasoning framework that enables AI models to "think" in both text and images; MVoT enhances the traditional Chain-of-Thought prompting by allowing models to generate visual representations of their reasoning steps alongside text explanations; the framework is implemented in Chameleon-7B, a multimodal language model, and introduces a "token discrepancy loss" to improve the quality of generated visualizations; MVoT significantly outperforms traditional approaches, especially in complex scenarios; MVoT achieves over 90% accuracy on maze and printer installation tasks.

Resumen del artículo (Abstract)

Se ha demostrado que el prompting de Chain-of-Thought (CoT) es muy eficaz para mejorar el razonamiento complejo en los Large Language Models (LLMs) y los Multimodal Large Language Models (MLLMs). Sin embargo, tiene dificultades en tareas complejas de razonamiento espacial. Aun así, la cognición humana no se limita solo al lenguaje, sino que se extiende para permitir una notable capacidad de pensar tanto con palabras como con imágenes. Inspirados en este mecanismo, proponemos un nuevo paradigma de razonamiento, Multimodal Visualization-of-Thought (MVoT). Este permite el pensamiento visual en los MLLMs al generar visualizaciones en imagen de sus trazas de razonamiento. Para garantizar visualizaciones de alta calidad, introducimos una pérdida por discrepancia de tokens en los MLLMs autorregresivos. Esta innovación mejora significativamente tanto la coherencia visual como la fidelidad. Validamos este enfoque mediante varias tareas dinámicas de razonamiento espacial. Los resultados experimentales muestran que MVoT ofrece un rendimiento competitivo en múltiples tareas. Además, presenta mejoras sólidas y confiables en los escenarios más desafiantes donde CoT falla. En última instancia, MVoT abre nuevas posibilidades para tareas complejas de razonamiento en las que el pensamiento visual puede complementar eficazmente el razonamiento verbal.

Chain-of-Thought (CoT) prompting has proven highly effective for enhancing complex reasoning in Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs). Yet, it struggles in complex spatial reasoning tasks. Nonetheless, human cognition extends beyond language alone, enabling the remarkable capability to think in both words and images. Inspired by this mechanism, we propose a new reasoning paradigm, Multimodal Visualization-of-Thought (MVoT). It enables visual thinking in MLLMs by generating image visualizations of their reasoning traces. To ensure high-quality visualization, we introduce token discrepancy loss into autoregressive MLLMs. This innovation significantly improves both visual coherence and fidelity. We validate this approach through several dynamic spatial reasoning tasks. Experimental results reveal that MVoT demonstrates competitive performance across tasks. Moreover, it exhibits robust and reliable improvements in the most challenging scenarios where CoT fails. Ultimately, MVoT establishes new possibilities for complex reasoning tasks where visual thinking can effectively complement verbal reasoning.

Enlace al artículo

https://arxiv.org/abs/2501.07542

Leer más

https://x.com/omarsar0/status/1879181711982129420

ChemAgent: mejora el razonamiento químico en grandes modelos de lenguaje con una biblioteca autoactualizable / ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning

Presentación del artículo

Presenta un nuevo marco diseñado para mejorar el rendimiento de los LLM en razonamiento químico mediante una biblioteca dinámica que se actualiza por sí sola; la biblioteca se desarrolla descomponiendo las tareas químicas en subtareas y compilándolas en una colección estructurada que puede consultarse en futuras consultas; cuando el sistema recibe un nuevo problema, vuelve a intentar y refina la información relevante de la biblioteca para permitir una descomposición de tareas más efectiva; la biblioteca se actualiza dinámicamente con nuevas subtareas y soluciones a medida que se encuentran y validan; los experimentos en SciBench demuestran que ChemAgent logra mejoras de rendimiento de hasta 46% (GPT-4), superando significativamente los métodos existentes.

Presents a new framework designed to improve the performance of LLMs on chemical reasoning through a dynamic, self-updating library; the library is developed by decomposing chemical tasks into sub-tasks and compiling them into a structured collection that can be referenced for future queries; when the system is given a new problem, it retries and refines relevant information from the library to enable more effective task decomposition; the library is dynamically updated with new sub-tasks and solutions as they are encountered and validated; experiments on SciBench demonstrate that ChemAgent achieves performance gains of up to 46% (GPT-4), significantly outperforming existing methods.

Resumen del artículo (Abstract)

El razonamiento químico suele implicar procesos complejos de múltiples pasos que exigen cálculos precisos, donde incluso errores menores pueden provocar fallas en cascada. Además, los modelos grandes de lenguaje (LLM) tienen dificultades para manejar fórmulas específicas del dominio, ejecutar con precisión los pasos de razonamiento e integrar código de forma efectiva al abordar tareas de razonamiento químico. Para resolver estos desafíos, Unity presenta ChemAgent, un nuevo framework diseñado para mejorar el rendimiento de los LLM mediante una biblioteca dinámica que se actualiza a sí misma. Esta biblioteca se desarrolla descomponiendo las tareas químicas en subtareas y compilando esas subtareas en una colección estructurada que puede consultarse en futuras consultas. Luego, cuando se presenta un nuevo problema, ChemAgent recupera y refina información pertinente de la biblioteca, a la que llama memoria, facilitando una descomposición eficaz de la tarea y la generación de soluciones. Este método diseña tres tipos de memoria y un componente de razonamiento mejorado por biblioteca, lo que permite que los LLM mejoren con el tiempo a través de la experiencia. Los resultados experimentales en cuatro conjuntos de datos de razonamiento químico de SciBench muestran que ChemAgent logra mejoras de rendimiento de hasta 46% (GPT-4), superando significativamente a los métodos existentes. Estos hallazgos sugieren un potencial considerable para futuras aplicaciones, incluidas tareas como el descubrimiento de fármacos y la ciencia de materiales. Puedes encontrar más detalles en https://github.com/gersteinlab/chemagent

Chemical reasoning usually involves complex, multi-step processes that demand precise calculations, where even minor errors can lead to cascading failures. Furthermore, large language models (LLMs) encounter difficulties handling domain-specific formulas, executing reasoning steps accurately, and integrating code effectively when tackling chemical reasoning tasks. To address these challenges, we present ChemAgent, a novel framework designed to improve the performance of LLMs through a dynamic, self-updating library. This library is developed by decomposing chemical tasks into sub-tasks and compiling these sub-tasks into a structured collection that can be referenced for future queries. Then, when presented with a new problem, ChemAgent retrieves and refines pertinent information from the library, which we call memory, facilitating effective task decomposition and the generation of solutions. Our method designs three types of memory and a library-enhanced reasoning component, enabling LLMs to improve over time through experience. Experimental results on four chemical reasoning datasets from SciBench demonstrate that ChemAgent achieves performance gains of up to 46% (GPT-4), significantly outperforming existing methods. Our findings suggest substantial potential for future applications, including tasks such as drug discovery and materials science. Our code can be found at https://github.com/gersteinlab/chemagent

Este artículo fue resumido con un modelo GPT, por lo que puede contener errores; por favor consulta también el texto original al final del artículo. Si mientras lees encuentras contenido extraño o incorrecto, te agradeceríamos que nos lo hicieras saber en los comentarios.* 🤗

⚠️Publicidad⚠️: ¿Te resultó útil este artículo recopilado por 🔥la comunidad de usuarios de PyTorch en Corea🇰🇷? Si te unes como miembro, te enviaremos los artículos principales por correo electrónico💌. (La opción predeterminada es Weekly, pero también puedes cambiarla a Daily.)

[2025/01/13 ~ 01/19] Principales artículos de ML de esta semana (Top ML Papers of the Week)

$\text{Transformer}^2$: LLM autoadaptativos / $\text{Transformer}^2$: Self-adaptive LLMs

Introducción al paper

Resumen del paper (Abstract)

Enlace al paper

Leer más

MiniMax-01: modelos fundacionales que escalan a velocidad relámpago / MiniMax-01: Scaling Foundation Models with Lightning Attention

Introducción al paper

Resumen del artículo (Abstract)

Enlace del artículo

Leer más

VideoRAG: generación aumentada por recuperación sobre corpus de video / VideoRAG: Retrieval-Augmented Generation over Video Corpus

Introducción del artículo

Resumen del artículo (Abstract)

Enlace al artículo

Leer más

Titans: aprender a memorizar en tiempo de prueba / Titans: Learning to Memorize at Test Time

Introducción al artículo

Resumen del artículo (Abstract)

Enlace del artículo

Leer más

Foundations of Large Language Models

Introducción del artículo

Resumen del artículo (Abstract)

Enlace del artículo

Leer más

OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking

Introducción del artículo

Resumen del artículo (Abstract)

Enlace al artículo

Leer más

Mejora de la generación aumentada por recuperación: un estudio de mejores prácticas / Enhancing Retrieval-Augmented Generation: A Study of Best Practices

Presentación del artículo

Resumen del artículo (Abstract)

Enlace al artículo

Leer más

AutoCBT: marco autónomo de múltiples agentes para terapia cognitivo-conductual en consejería psicológica / AutoCBT: An Autonomous Multi-agent Framework for Cognitive Behavioral Therapy in Psychological Counseling

Presentación del artículo

Resumen del artículo (Abstract)

Enlace del artículo

Leer más

Imagina mientras razonas en el espacio: visualización del pensamiento multimodal / Imagine while Reasoning in Space: Multimodal Visualization-of-Thought

Presentación del artículo

Resumen del artículo (Abstract)

Enlace al artículo

Leer más

ChemAgent: mejora el razonamiento químico en grandes modelos de lenguaje con una biblioteca autoactualizable / ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning

Presentación del artículo

Resumen del artículo (Abstract)

Enlace al artículo

Leer más

Texto original

Lecturas relacionadas

Aún no hay comentarios.