5 puntos por ninebow 2023-09-13 | Aún no hay comentarios. | Compartir por WhatsApp

Resumen

Hemos traducido automáticamente un artículo de DAIR.AI sobre artículos de ML publicados cada semana.
En esta ocasión, se observan muchos artículos sobre tecnologías de inteligencia artificial centradas principalmente en transformers (Transformer) y aprendizaje por refuerzo (Reinforcement Learning).

Transformers como máquinas de vectores de soporte / Transformers as Support Vector Machines

Introducción del artículo

  • Se descubrió que la geometría de optimización de la autoatención en los transformers está relacionada con el problema de SVM de margen duro, y también que el descenso por gradiente aplicado sin detención temprana conduce a regularización implícita y convergencia de la autoatención; este trabajo tiene el potencial de profundizar la comprensión de los modelos de lenguaje.
    > Finds that the optimization geometry of self-attention in transformers exhibits a connection to hard-margin svm problems; also finds that gradient descent applied without early-stopping leads to implicit regularization and convergence of self-attention; this work has the potential to deepen the understanding of language models.

Resumen del artículo

  • Desde su aparición en "Attention Is All You Need", la arquitectura transformer ha impulsado avances revolucionarios en NLP. La capa de atención dentro del transformer admite una secuencia de tokens de entrada $X$ y hace que interactúen mediante similitudes por pares calculadas como softmax $(XQK^\top X^\top)$, donde $(K,Q)$ son los parámetros entrenables de key-query. En este trabajo, establecemos una equivalencia formal entre la geometría de optimización de la autoatención y un problema de SVM de margen duro que separa los tokens de entrada óptimos de los no óptimos usando restricciones lineales sobre los productos externos de pares de tokens. Este formalismo nos permite caracterizar el sesgo implícito de transformers de una capa optimizados con descenso por gradiente: (1) Optimizar la capa de atención con regularización decreciente, parametrizada por $(K,Q)$, converge en dirección hacia una solución SVM que minimiza la norma nuclear del parámetro combinado $W=KQ^\top$. En cambio, parametrizar directamente con $W$ minimiza un objetivo de norma de Frobenius. Caracterizamos esta convergencia y destacamos que puede ocurrir hacia direcciones localmente óptimas en lugar de globales. (2) Como complemento, demostramos la convergencia direccional local/global del descenso por gradiente bajo condiciones geométricas adecuadas. De forma importante, mostramos que la sobreparametrización impulsa la convergencia global al garantizar la factibilidad del problema SVM y un paisaje de optimización benigno, libre de puntos estacionarios. (3) Aunque nuestra teoría se aplica principalmente a cabezales de predicción lineales, proponemos una equivalencia SVM más general que predice el sesgo implícito con cabezales no lineales. Nuestros hallazgos son aplicables a conjuntos de datos arbitrarios y su validez se verifica mediante experimentos. También presentamos varios problemas abiertos y direcciones de investigación. Creemos que estos hallazgos inspiran la interpretación de los transformers como una jerarquía de SVM que separa y selecciona tokens óptimos.
    > Since its inception in "Attention Is All You Need", transformer architecture has led to revolutionary advancements in NLP. The attention layer within the transformer admits a sequence of input tokens $X$ and makes them interact through pairwise similarities computed as softmax $(XQK^\top X^\top)$ , where $(K,Q)$ are the trainable key-query parameters. In this work, we establish a formal equivalence between the optimization geometry of self-attention and a hard-margin SVM problem that separates optimal input tokens from non-optimal tokens using linear constraints on the outer-products of token pairs. This formalism allows us to characterize the implicit bias of 1-layer transformers optimized with gradient descent: (1) Optimizing the attention layer with vanishing regularization, parameterized by $(K,Q)$, converges in direction to an SVM solution minimizing the nuclear norm of the combined parameter $W=KQ^\top$. Instead, directly parameterizing by $W$ minimizes a Frobenius norm objective. We characterize this convergence, highlighting that it can occur toward locally-optimal directions rather than global ones. (2) Complementing this, we prove the local/global directional convergence of gradient descent under suitable geometric conditions. Importantly, we show that over-parameterization catalyzes global convergence by ensuring the feasibility of the SVM problem and by guaranteeing a benign optimization landscape devoid of stationary points. (3) While our theory applies primarily to linear prediction heads, we propose a more general SVM equivalence that predicts the implicit bias with nonlinear heads. Our findings are applicable to arbitrary datasets and their validity is verified via experiments. We also introduce several open problems and research directions. We believe these findings inspire the interpretation of transformers as a hierarchy of SVMs that separates and selects optimal tokens.

Enlace del artículo

https://arxiv.org/abs/2308.16898

RLAIF: Escalando el aprendizaje por refuerzo a partir de retroalimentación humana con retroalimentación de IA / RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

Introducción del artículo

  • Se pone a prueba si RLAIF es una alternativa adecuada a RLHF comparando la eficacia de la retroalimentación humana frente a la de IA; se usan distintas técnicas para generar etiquetas de IA y realizar estudios de escalamiento para reportar configuraciones óptimas para generar preferencias alineadas; el hallazgo principal es que, en la tarea de resumen, los evaluadores humanos prefieren las generaciones tanto de RLAIF como de RLHF sobre un modelo SFT base en aproximadamente el 70% de los casos. #rlhf
    > Tests whether rlaif is a suitable alternative to rlhf by comparing the efficacy of human vs. ai feedback; uses different techniques to generate ai labels and conduct scaling studies to report optimal settings for generating aligned preferences; the main finding is that on the task of summarization, human evaluators prefer generations from both rlaif and rlhf over a baseline sft model in ∼70% of cases.

Resumen del artículo

  • El aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) es eficaz para alinear los modelos de lenguaje grandes (LLM) con las preferencias humanas, pero recopilar etiquetas de preferencia humana de alta calidad es un cuello de botella importante. Al comparar directamente RLHF con RLAIF (RL from AI Feedback), una técnica en la que un LLM ya disponible etiqueta las preferencias en lugar de humanos, se confirmó que ambas técnicas producen mejoras similares. En la tarea de resumen, los evaluadores humanos prefirieron las generaciones de RLAIF y RLHF frente a un modelo base ajustado con fine-tuning supervisado en alrededor del 70% de los casos. Además, cuando se les pidió evaluar resúmenes de RLAIF frente a RLHF, las personas mostraron la misma preferencia por ambos. Estos resultados sugieren que RLAIF puede ofrecer un rendimiento a nivel humano y proporcionar una posible solución a las limitaciones de escalabilidad de RLHF.
    > Reinforcement learning from human feedback (RLHF) is effective at aligning large language models (LLMs) to human preferences, but gathering high quality human preference labels is a key bottleneck. We conduct a head-to-head comparison of RLHF vs. RL from AI Feedback (RLAIF) - a technique where preferences are labeled by an off-the-shelf LLM in lieu of humans, and we find that they result in similar improvements. On the task of summarization, human evaluators prefer generations from both RLAIF and RLHF over a baseline supervised fine-tuned model in ~70% of cases. Furthermore, when asked to rate RLAIF vs. RLHF summaries, humans prefer both at equal rates. These results suggest that RLAIF can yield human-level performance, offering a potential solution to the scalability limitations of RLHF.

Enlace al artículo

https://arxiv.org/abs/2309.00267

Leer más

https://twitter.com/omarsar0/status/1699102486928265530

GPT puede resolver problemas matemáticos sin calculadora / GPT Can Solve Mathematical Problems Without a Calculator

Introducción del artículo

  • Muestra que, con suficientes datos de entrenamiento, un modelo de lenguaje de 2b puede realizar operaciones aritméticas de varios dígitos con 100% de precisión y sin fuga de datos; además, al hacer fine-tuning de GLM-10b sobre un dataset que incluye operaciones aritméticas adicionales de varios pasos y problemas matemáticos detallados, puede competir incluso con GPT-4 en un conjunto de prueba de 5 mil problemas matemáticos en chino. #mathematical-reasoning #wizardmath
    > Shows that with sufficient training data, a 2b language model can perform multi-digit arithmetic operations with 100% accuracy and without data leakage; it’s also competitive with gpt-4 on 5k samples chinese math problem test set when fine-tuned from glm-10b on a dataset containing additional multi-step arithmetic operations and detailed math problems.

Resumen del artículo

  • Estudios anteriores generalmente asumían que los modelos de lenguaje grandes no podían realizar con precisión operaciones aritméticas sin usar herramientas de calculadora, en particular multiplicaciones de más de 8 dígitos y operaciones con decimales y fracciones. Este artículo busca cuestionar esa idea equivocada. Con suficientes datos de entrenamiento, un modelo de lenguaje de 2 mil millones de parámetros puede realizar con precisión tareas aritméticas de varios dígitos con una exactitud cercana al 100% sin fuga de datos, superando ampliamente a GPT-4, cuya precisión en multiplicación de varios dígitos es de solo 4.3%. También demuestra que MathGLM, ajustado a partir de GLM-10B sobre un dataset con operaciones aritméticas adicionales de varios pasos y problemas matemáticos descritos en texto, alcanzó un rendimiento similar al de GPT-4 en un conjunto de prueba de 5,000 problemas matemáticos en chino.
    > Previous studies have typically assumed that large language models are unable to accurately perform arithmetic operations, particularly multiplication of >8 digits, and operations involving decimals and fractions, without the use of calculator tools. This paper aims to challenge this misconception. With sufficient training data, a 2 billion-parameter language model can accurately perform multi-digit arithmetic operations with almost 100% accuracy without data leakage, significantly surpassing GPT-4 (whose multi-digit multiplication accuracy is only 4.3%). We also demonstrate that our MathGLM, fine-tuned from GLM-10B on a dataset with additional multi-step arithmetic operations and math problems described in text, achieves similar performance to GPT-4 on a 5,000-samples Chinese math problem test set.

Enlace al artículo

https://arxiv.org/abs/2309.03241

Leer más

https://twitter.com/_akhaliq/status/1699951105927512399

Modelos de lenguaje grandes como optimizadores / Large Language Models as Optimizers

Introducción del artículo

  • Un enfoque en el que el problema de optimización se describe en lenguaje natural; luego se le indica a un LLM que genere iterativamente nuevas soluciones basadas en el problema definido y en las soluciones encontradas previamente; en cada paso de optimización, el objetivo es generar nuevos prompts que aumenten la precisión de prueba a partir de la trayectoria de prompts generados anteriormente; los prompts optimizados superan a los diseñados por humanos en GSM8K y Big-Bench Hard, a veces por más del 50% #optimizing
    > An approach where the optimization problem is described in natural language; an llm is then instructed to iteratively generate new solutions based on the defined problem and previously found solutions; at each optimization step, the goal is to generate new prompts that increase test accuracy based on the trajectory of previously generated prompts; the optimized prompts outperform human-designed prompts on gsm8k and big-bench hard, sometimes by over 50%

Resumen del artículo

  • La optimización está en todas partes. Aunque los algoritmos basados en derivadas han sido herramientas poderosas para diversos problemas, la ausencia de gradiente plantea desafíos en muchas aplicaciones del mundo real. En este trabajo, proponemos Optimization by PROmpting (OPRO), un enfoque simple y efectivo para aprovechar los modelos de lenguaje grandes (LLM) como optimizadores, donde la tarea de optimización se describe en lenguaje natural. En cada paso de optimización, el LLM genera nuevas soluciones a partir del prompt que contiene soluciones previamente generadas con sus valores; luego, las nuevas soluciones se evalúan y se agregan al prompt para el siguiente paso de optimización. Primero mostramos OPRO en regresión lineal y en el problema del viajante, y luego pasamos a la optimización de prompts, donde el objetivo es encontrar instrucciones que maximicen la precisión de la tarea. Con una variedad de LLM, demostramos que los mejores prompts optimizados por OPRO superan a los prompts diseñados por humanos hasta en un 8% en GSM8K y hasta en un 50% en tareas de Big-Bench Hard.
    > Optimization is ubiquitous. While derivative-based algorithms have been powerful tools for various problems, the absence of gradient imposes challenges on many real-world applications. In this work, we propose Optimization by PROmpting (OPRO), a simple and effective approach to leverage large language models (LLMs) as optimizers, where the optimization task is described in natural language. In each optimization step, the LLM generates new solutions from the prompt that contains previously generated solutions with their values, then the new solutions are evaluated and added to the prompt for the next optimization step. We first showcase OPRO on linear regression and traveling salesman problems, then move on to prompt optimization where the goal is to find instructions that maximize the task accuracy. With a variety of LLMs, we demonstrate that the best prompts optimized by OPRO outperform human-designed prompts by up to 8% on GSM8K, and by up to 50% on Big-Bench Hard tasks.

Enlace al artículo

https://arxiv.org/abs/2309.03409

Leer más

https://twitter.com/omarsar0/status/1700249035456598391

ImageBind-LLM: ajuste de instrucciones multimodal / ImageBind-LLM: Multi-modality Instruction Tuning

Introducción al artículo

  • Se presenta imagebind-llm, un método de ajuste de instrucciones multimodal para LLM mediante ImageBind. Este modelo puede responder a instrucciones de diversas modalidades, como audio, nubes de puntos 3D y video, incluyendo una alta calidad de generación de lenguaje, lo que se logra alineando el codificador visual de ImageBind con un LLM a través de una red de enlace entrenable. #imagebind
    > Presents imagebind-llm, a multimodality instruction tuning method of llms via imagebind; this model can respond to instructions of diverse modalities such as audio, 3d point clouds, and video, including high language generation quality; this is achieved by aligning imagebind’s visual encoder with an llm via learnable bind network.

Resumen del artículo

  • Presentamos ImageBind-LLM, un método de instruction tuning multimodal para modelos de lenguaje grandes (LLM) a través de ImageBind. Mientras que los trabajos previos se han enfocado principalmente en el instruction tuning de lenguaje e imagen, ImageBind-LLM puede responder a condiciones multimodales, incluyendo audio, nubes de puntos 3D, video y aritmética en el espacio de embeddings, usando solo entrenamiento de alineación imagen-texto. Durante el entrenamiento, adopta una red de enlace entrenable para alinear el espacio de embeddings entre LLaMA y el codificador de imágenes de ImageBind. Luego, las características de imagen transformadas por la red de enlace se agregan a los tokens de palabras en todas las capas de LLaMA, inyectando gradualmente instrucciones visuales mediante un mecanismo de compuerta con inicialización en cero y sin atención. Con la ayuda del embedding conjunto de ImageBind, un entrenamiento simple de imagen-texto permite que el modelo muestre capacidades superiores de seguimiento de instrucciones multimodales. Durante la inferencia, las entradas multimodales se suministran a los codificadores correspondientes de ImageBind y son procesadas por un modelo de caché visual propuesto para mejorar aún más los embeddings entre modalidades. El modelo de caché, que no requiere entrenamiento, recupera información de 3 millones de características de imagen extraídas por ImageBind, mitigando eficazmente la discrepancia de modalidad entre entrenamiento e inferencia. En particular, con este enfoque, ImageBind-LLM puede responder a instrucciones de diversas modalidades y demostrar una calidad significativa en la generación de lenguaje. El código está disponible en https://github.com/OpenGVLab/LLaMA-Adapter.
    > Presentamos ImageBind-LLM, un método de instruction tuning multimodal para modelos de lenguaje grandes (LLM) a través de ImageBind. Mientras que los trabajos existentes se enfocan principalmente en el instruction tuning de lenguaje e imagen, nuestro ImageBind-LLM puede responder a condiciones multimodales, incluyendo audio, nubes de puntos 3D, video y aritmética en su espacio de embeddings, usando solo entrenamiento de alineación imagen-texto. Durante el entrenamiento, adoptamos una red de enlace entrenable para alinear el espacio de embeddings entre LLaMA y el codificador de imágenes de ImageBind. Luego, las características de imagen transformadas por la red de enlace se agregan a los tokens de palabras de todas las capas de LLaMA, lo que inyecta progresivamente instrucciones visuales mediante un mecanismo de compuerta sin atención e inicializado en cero. Con la ayuda del embedding conjunto de ImageBind, el simple entrenamiento de imagen-texto permite que nuestro modelo exhiba capacidades superiores de seguimiento de instrucciones multimodales. Durante la inferencia, las entradas multimodales se envían a los codificadores correspondientes de ImageBind y son procesadas por un modelo de caché visual propuesto para una mejora adicional del embedding entre modalidades. El modelo de caché, que no requiere entrenamiento, recupera información de tres millones de características de imagen extraídas por ImageBind, lo que mitiga eficazmente la discrepancia de modalidad entre entrenamiento e inferencia. Cabe destacar que, con nuestro enfoque, ImageBind-LLM puede responder a instrucciones de modalidades diversas y demostrar una calidad significativa en la generación de lenguaje. El código está disponible en https://github.com/OpenGVLab/LLaMA-Adapter.

Enlace al artículo

https://arxiv.org/abs/2309.03905

Leer más

https://twitter.com/arankomatsuzaki/status/1699947731333345750

Explicación del grokking a través de la eficiencia de circuitos / Explaining grokking through circuit efficiency

Introducción al artículo

  • Tiene como objetivo explicar el comportamiento de grokking en redes neuronales y, en particular, predice y muestra dos comportamientos nuevos. El primero es el ungrokking, donde un modelo pasa de una generalización perfecta a la memorización cuando se sigue entrenando con un conjunto de datos más pequeño que el umbral crítico; el segundo es el semi-grokking, donde una red muestra una transición similar al grokking al entrenar una red inicializada aleatoriamente con el tamaño crítico del conjunto de datos. #grokking
    > Tiene como objetivo explicar el comportamiento de grokking en redes neuronales; específicamente, predice y muestra dos comportamientos novedosos: el primero es el ungrokking, donde un modelo pasa de una generalización perfecta a la memorización cuando se entrena más tiempo con un conjunto de datos más pequeño que el umbral crítico; el segundo es el semi-grokking, donde una red demuestra una transición similar al grokking al entrenar una red inicializada aleatoriamente con el tamaño crítico del conjunto de datos.

Resumen del artículo

  • Uno de los rompecabezas más sorprendentes en la generalización de redes neuronales es el "grokking": una red con precisión de entrenamiento perfecta pero mala generalización, al seguir entrenándose, hace la transición hacia una generalización perfecta. Proponemos que el grokking ocurre cuando la tarea admite una solución que generaliza y una solución que memoriza, donde la solución que generaliza es más lenta de aprender pero más eficiente, y produce logits más grandes con la misma norma de parámetros. Planteamos la hipótesis de que los circuitos de memorización se vuelven más ineficientes a medida que crece el conjunto de datos de entrenamiento, mientras que los circuitos de generalización no, lo que sugiere que existe un tamaño crítico del conjunto de datos en el que memorización y generalización son igual de eficientes. Hacemos cuatro predicciones nuevas sobre el grokking y, al confirmarlas, presentamos evidencia importante a favor de nuestra explicación. De manera especialmente llamativa, demostramos dos comportamientos nuevos y sorprendentes: ungrokking, en el que una red retrocede de una precisión de prueba perfecta a una baja precisión de prueba, y semi-grokking, en el que una red muestra una generalización tardía hacia una precisión de prueba parcial en lugar de perfecta.
    > One of the most surprising puzzles in neural network generalisation is grokking: a network with perfect training accuracy but poor generalisation will, upon further training, transition to perfect generalisation. We propose that grokking occurs when the task admits a generalising solution and a memorising solution, where the generalising solution is slower to learn but more efficient, producing larger logits with the same parameter norm. We hypothesise that memorising circuits become more inefficient with larger training datasets while generalising circuits do not, suggesting there is a critical dataset size at which memorisation and generalisation are equally efficient. We make and confirm four novel predictions about grokking, providing significant evidence in favour of our explanation. Most strikingly, we demonstrate two novel and surprising behaviours: ungrokking, in which a network regresses from perfect to low test accuracy, and semi-grokking, in which a network shows delayed generalisation to partial rather than perfect test accuracy.

Enlace al artículo

https://arxiv.org/abs/2309.02390

Leer más

https://twitter.com/VikrantVarma_/status/1699823229307699305

Engaño de IA: una encuesta sobre casos, riesgos y posibles soluciones / AI Deception: A Survey of Examples, Risks, and Potential Solutions

Introducción al artículo

  • Ofrece una encuesta de casos empíricos de engaño en IA. #survey paper
    > Provides a survey of empirical examples of ai deception.

Resumen del artículo

  • Este artículo sostiene que una variedad de sistemas de IA actuales han aprendido a engañar a los humanos. Definimos el engaño como la inducción sistemática de creencias falsas en la búsqueda de algún resultado distinto de la verdad. Primero, revisamos casos empíricos de engaño de IA, incluyendo tanto sistemas de IA de uso específico (como CICERO de Meta) construidos para situaciones competitivas concretas, como sistemas de IA de propósito general (como los modelos de lenguaje grandes). Luego detallamos varios riesgos derivados del engaño de IA, como fraude, manipulación electoral y pérdida de control sobre los sistemas de IA. Por último, describimos brevemente algunas posibles soluciones a los problemas planteados por el engaño de IA. Primero, los marcos regulatorios deberían imponer requisitos sólidos de evaluación de riesgos a los sistemas de IA capaces de engañar; segundo, los responsables de formular políticas deberían implementar leyes de "bot or not"; y, por último, deberían priorizar la financiación de investigación relevante, incluidas herramientas para detectar el engaño de IA y hacer que los sistemas de IA sean menos engañosos. Los responsables de políticas, los investigadores y el público en general deben trabajar de forma proactiva para evitar que el engaño de IA desestabilice las bases compartidas de nuestra sociedad.
    > This paper argues that a range of current AI systems have learned how to deceive humans. We define deception as the systematic inducement of false beliefs in the pursuit of some outcome other than the truth. We first survey empirical examples of AI deception, discussing both special-use AI systems (including Meta's CICERO) built for specific competitive situations, and general-purpose AI systems (such as large language models). Next, we detail several risks from AI deception, such as fraud, election tampering, and losing control of AI systems. Finally, we outline several potential solutions to the problems posed by AI deception: first, regulatory frameworks should subject AI systems that are capable of deception to robust risk-assessment requirements; second, policymakers should implement bot-or-not laws; and finally, policymakers should prioritize the funding of relevant research, including tools to detect AI deception and to make AI systems less deceptive. Policymakers, researchers, and the broader public should work proactively to prevent AI deception from destabilizing the shared foundations of our society.

Enlace al artículo

https://arxiv.org/abs/2308.14752

Leer más

https://twitter.com/DanHendrycks/status/1699437800301752332

FLM-101B: un LLM abierto y cómo entrenarlo con un presupuesto de $100K / FLM-101B: An Open LLM and How to Train It with $100K Budget

Introducción al artículo

  • En el caso de FLM-101B, un nuevo LLM abierto con 101 mil millones de parámetros y 0.31 TB de tokens que puede entrenarse con un presupuesto de 100 mil dólares, los autores analizan diversas estrategias de crecimiento y usan una estrategia agresiva que aumenta la cantidad de parámetros desde tamaños pequeños hasta grandes, reduciendo finalmente el costo en más de 50%. Es decir, se entrenan 3 modelos de forma secuencial, y cada uno hereda el conocimiento del modelo anterior más pequeño (16b -> 51b -> 101b) mientras logra un rendimiento competitivo.
    > A new open llm called flm-101b with 101b parameters and 0.31tb tokens which can be trained on a $100k budget; the authors analyze different growth strategies, growing the number of parameters from smaller sizes to large ones. they ultimately employ an aggressive strategy that reduces costs by >50%. in other words, three models are trained sequentially with each model inheriting knowledge from its smaller predecessor (16b -> 51b -> 101b) while achieving competitive performance.

Resumen del artículo

  • Los modelos de lenguaje a gran escala (LLM) han logrado un éxito notable en el procesamiento de lenguaje natural y en tareas multimodales. A pesar de estos logros, el desarrollo de los modelos de lenguaje grandes enfrenta dos desafíos principales: (i) el alto costo computacional y (ii) la dificultad de realizar evaluaciones justas y objetivas. Los LLM son extremadamente costosos, por lo que solo unas pocas grandes organizaciones pueden encargarse de su entrenamiento, lo que limita tanto las oportunidades de investigación como las de aplicación. Esto subraya la importancia de un entrenamiento de LLM eficiente en costos. En este artículo, se utiliza una estrategia de crecimiento para reducir de forma significativa el costo de entrenamiento de los LLM. Se demuestra que un LLM con 101 mil millones de parámetros y 0.31 TB de tokens puede entrenarse con un presupuesto de 100 mil dólares. Además, para complementar las evaluaciones existentes, que se centran más en capacidades orientadas al conocimiento, se adopta un paradigma de evaluación sistemático para medir el IQ de los LLM. Se introduce un benchmark que incluye evaluaciones sobre aspectos importantes de la inteligencia, como mapeo simbólico, comprensión de reglas, minería de patrones y resistencia a interferencias. Estas evaluaciones minimizan el posible impacto de la memorización. Los resultados experimentales muestran que FLM-101B, entrenado con un presupuesto de 100 mil dólares, logra un rendimiento comparable al de modelos potentes y bien conocidos, como GPT-3 y GLM-130B, especialmente en las evaluaciones del benchmark de IQ con contextos no vistos en los datos de entrenamiento. El checkpoint de FLM-101B se publicará como open source en https://huggingface.co/CofeAI/FLM-101B.
    > Large language models (LLMs) have achieved remarkable success in NLP and multimodal tasks. Despite these successes, their development faces two main challenges: (i) high computational cost; and (ii) difficulty in conducting fair and objective evaluations. LLMs are prohibitively expensive, making it feasible for only a few major players to undertake their training, thereby constraining both research and application opportunities. This underscores the importance of cost-effective LLM training. In this paper, we utilize a growth strategy to significantly reduce LLM training cost. We demonstrate that an LLM with 101B parameters and 0.31TB tokens can be trained on a $100K budget. We also adopt a systematic evaluation paradigm for the IQ evaluation of LLMs, in complement to existing evaluations that focus more on knowledge-oriented abilities. We introduce our benchmark including evaluations on important aspects of intelligence including symbolic mapping, itrule understanding, pattern mining, and anti-interference. Such evaluations minimize the potential impact of memorization. Experimental results show that our model FLM-101B, trained with a budget of $100K, achieves comparable performance to powerful and well-known models, eg GPT-3 and GLM-130B, especially in the IQ benchmark evaluations with contexts unseen in training data. The checkpoint of FLM-101B will be open-sourced at https://huggingface.co/CofeAI/FLM-101B.

Enlace al artículo

https://arxiv.org/abs/2309.03852

Lectura adicional

https://twitter.com/omarsar0/status/1700156132700963053

Arquitecturas cognitivas para agentes de lenguaje / Cognitive Architectures for Language Agents

Introducción del artículo

  • Propone un marco sistemático para comprender y construir agentes de lenguaje plenamente desarrollados, trazando paralelismos con sistemas de producción y arquitecturas cognitivas; el marco sistematiza diversos métodos para razonamiento, grounding, aprendizaje y toma de decisiones basados en lenguaje como instancias de agentes de lenguaje dentro del marco.
    > Proposes a systematic framework for understanding and building fully-fledged language agents drawing parallels from production systems and cognitive architectures; it systematizes diverse methods for llm-based reasoning, grounding, learning, and decision making as instantiations of language agents in the framework.

Resumen del artículo

  • Los esfuerzos recientes han incorporado modelos de lenguaje grandes (LLMs) con recursos externos (p. ej., Internet) o flujos de control internos (p. ej., encadenamiento de prompts) para tareas que requieren grounding o razonamiento. Sin embargo, estos esfuerzos han sido en gran medida fragmentarios y carecen de un marco sistemático para construir un agente de lenguaje plenamente desarrollado. Para abordar este desafío, nos basamos en la rica historia del diseño de agentes en la inteligencia artificial simbólica para desarrollar un plano para una nueva ola de agentes cognitivos de lenguaje. Primero, mostramos que los LLMs tienen muchas de las mismas propiedades que los sistemas de producción, y que los esfuerzos recientes por mejorar su grounding o razonamiento reflejan el desarrollo de arquitecturas cognitivas construidas en torno a sistemas de producción. Luego proponemos Cognitive Architectures for Language Agents (CoALA), un marco conceptual para sistematizar diversos métodos de razonamiento, grounding, aprendizaje y toma de decisiones basados en LLM como instanciaciones de agentes de lenguaje dentro del marco. Por último, usamos el marco CoALA para resaltar vacíos y proponer direcciones accionables hacia agentes de lenguaje más capaces en el futuro.
    > Recent efforts have incorporated large language models (LLMs) with external resources (e.g., the Internet) or internal control flows (e.g., prompt chaining) for tasks requiring grounding or reasoning. However, these efforts have largely been piecemeal, lacking a systematic framework for constructing a fully-fledged language agent. To address this challenge, we draw on the rich history of agent design in symbolic artificial intelligence to develop a blueprint for a new wave of cognitive language agents. We first show that LLMs have many of the same properties as production systems, and recent efforts to improve their grounding or reasoning mirror the development of cognitive architectures built around production systems. We then propose Cognitive Architectures for Language Agents (CoALA), a conceptual framework to systematize diverse methods for LLM-based reasoning, grounding, learning, and decision making as instantiations of language agents in the framework. Finally, we use the CoALA framework to highlight gaps and propose actionable directions toward more capable language agents in the future.

Enlace al artículo

https://arxiv.org/abs/2309.02427

Leer más

https://twitter.com/ShunyuYao12/status/1699396834983362690

Q-Transformer

Introducción al artículo

  • Un método de RL escalable para entrenar políticas multitarea a partir de grandes conjuntos de datos offline, aprovechando demostraciones humanas y datos recolectados de forma autónoma; muestra un buen rendimiento en un amplio y diverso conjunto de tareas de manipulación robótica del mundo real.
    > A scalable rl method for training multi-task policies from large offline datasets leveraging human demonstrations and autonomously collected data; shows good performance on a large diverse real-world robotic manipulation task suite.

Enlace al artículo

https://q-transformer.github.io/

Leer más

https://twitter.com/YevgenChebotar/status/1699909244743815677

Texto original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-b88


  • Este artículo es una explicación resumida automáticamente con un modelo GPT, por lo que puede contener errores; por favor consulta el texto original.
  • Si mientras lees encuentras contenido extraño o incorrecto, te agradeceremos que nos lo informes en los comentarios.

Aún no hay comentarios.

Aún no hay comentarios.