[2023/12/11 ~ 12/17] Los principales artículos de ML de esta semana (Top ML Papers of the Week)
(discuss.pytorch.kr)Resumen
-
Se ha realizado una traducción automática de los artículos sobre papers de ML que DAIR.AI publica cada semana.
-
Al revisar los papers seleccionados esta semana, destaca que la investigación sobre los "LLM (Large Language Models)" ocupa la mayor parte. En concreto, parece haberse avanzado en análisis sobre el uso y la mejora del rendimiento de los LLM en una amplia variedad de temas, como descubrimientos en matemáticas, problemas de generalización, aplicaciones en medicina y métodos de aprendizaje más allá de los datos humanos.
-
Esta tendencia refleja que, en los últimos años, el desarrollo de los LLM ha llamado especialmente la atención en el campo de la inteligencia artificial. En particular, con la aparición de grandes modelos de lenguaje como GPT-3 de OpenAI, se ha ampliado enormemente la posibilidad de aplicar estos modelos en distintos ámbitos. Esto sugiere que los LLM pueden desempeñar un papel importante no solo en el procesamiento de texto, sino también en la resolución de problemas complejos, y en los papers de esta semana se observa que su influencia se está extendiendo incluso a campos tradicionales como las matemáticas y la medicina. Además, la tendencia a priorizar la transparencia y la apertura subraya la importancia de la confiabilidad y la colaboración en la investigación y las aplicaciones.
-
Asimismo, papers como "Weak-to-strong Generalization" o "Beyond Human Data for LLMs" apuntan a investigaciones sobre la capacidad de generalización y las metodologías de aprendizaje de los LLM, lo que puede interpretarse como un intento de superar el entorno de aprendizaje actualmente limitado de estos modelos para desarrollar mecanismos de aprendizaje más potentes. Esta tendencia muestra que la investigación en LLM no solo busca mejorar el rendimiento, sino avanzar en una dirección orientada a incrementar de forma significativa la capacidad de generalización y la utilidad de los modelos.
LLM para descubrimientos en ciencias matemáticas / LLMs for Discoveries in Mathematical Sciences
Introducción al paper
- Uso de LLM para encontrar nuevas soluciones en matemáticas y ciencias de la computación; propone funsearch, que combina un LLM preentrenado con un evaluador sistemático y repite el proceso para convertir programas con baja puntuación en programas con alta puntuación que descubren nuevo conocimiento; uno de los hallazgos clave de este trabajo es que protegerse contra las alucinaciones de los LLM es importante para lograr descubrimientos matemáticos y resolver otros problemas del mundo real.
Uses llms to search for new solutions in mathematics & computer science; proposes funsearch which combines a pre-trained llm with a systematic evaluator and iterates over them to evolve low-scoring programs into high-scoring ones discovering new knowledge; one of the key findings in this work is that safeguarding against llm hallucinations is important to produce mathematical discoveries and other real-world problems.
Enlace al paper
https://www.nature.com/articles/s41586-023-06924-6
Leer más
https://x.com/GoogleDeepMind/status/1735332722208284797
Generalización de débil a fuerte / Weak-to-strong Generalization
Introducción al paper
- Estudia si la supervisión de modelos débiles puede extraer todas las capacidades de modelos más fuertes, y encuentra que al ajustar de forma ingenua modelos preentrenados potentes sobre etiquetas generadas por modelos débiles, estos pueden rendir mejor que sus supervisores débiles; además, informa que al ajustar GPT-4 con un supervisor del nivel de GPT-2 es posible recuperar un rendimiento cercano al nivel de GPT-3.5 en tareas de NLP.
Studies whether weak model supervision can elicit the full capabilities of stronger models; finds that when naively fine-tuning strong pretrained models on weak model generated labels they can perform better than their weak supervisors; reports that finetuning gpt-4 with a gpt-2-level supervisor it’s possible to recover close to gpt-3.5-level performance on nlp tasks.
Enlace al paper
https://cdn.openai.com/papers/weak-to-strong-generalization.pdf
Leer más
https://x.com/OpenAI/status/1735349718765715913
Audiobox / Audiobox
Introducción al paper
- Un modelo unificado basado en flow-matching capaz de generar diversas modalidades de audio; diseña prompts basados en descripciones y ejemplos para mejorar la capacidad de control y unificar los paradigmas de generación de voz y sonido; adapta un objetivo de infilling auto-supervisado para preentrenar con grandes cantidades de audio sin etiquetar; ofrece un buen rendimiento en generación de voz y sonido y abre nuevos métodos para generar audio con estilos vocales y acústicos novedosos.
A unified model based on flow-matching capable of generating various audio modalities; designs description-based and example-based prompting to enhance controllability and unify speech and sound generation paradigms; adapts a self-supervised infilling objective to pre-train on large quantities of unlabeled audio; performs well on speech and sound generation and unlocks new methods for generating audio with novel vocal and acoustic styles.
Enlace al paper
https://ai.meta.com/research/publications/…
Leer más
https://x.com/AIatMeta/status/1734257634008531453
Modelos de lenguaje matemático: una encuesta / Mathematical Language Models: A Survey
Introducción al paper
- Una encuesta sobre el progreso de los LLM en tareas matemáticas; cubre papers y recursos sobre investigación de LLM en torno a técnicas de prompting y tareas como la resolución de problemas matemáticos en lenguaje natural y la demostración de teoremas.
A survey on the progress of llms on mathematical tasks; covers papers and resources on llm research around prompting techniques and tasks such as math word problem-solving and theorem proving.
Resumen del paper
- En los últimos años ha habido avances notables en el uso de modelos de lenguaje (LM), incluidos los modelos de lenguaje preentrenados (PLM) y los modelos de lenguaje de gran escala (LLM), dentro del dominio de las matemáticas. Este artículo realiza un estudio integral sobre los LM matemáticos, clasificando sistemáticamente los esfuerzos de investigación clave desde dos perspectivas distintas: tareas y metodologías. El panorama revela una gran cantidad de LLM matemáticos propuestos, que además se dividen en aprendizaje por instrucciones, métodos basados en herramientas, técnicas fundamentales de CoT y metodologías avanzadas de CoT. Además, este estudio incluye la recopilación de más de 60 conjuntos de datos matemáticos, incluidos conjuntos de entrenamiento, de benchmark y aumentados. Al abordar los principales desafíos y delinear las trayectorias futuras dentro del campo de los LM matemáticos, este estudio se posiciona como un recurso valioso, preparado para facilitar e inspirar futuras innovaciones entre los investigadores dedicados a avanzar este dominio.
> In recent years, there has been remarkable progress in leveraging Language Models (LMs), encompassing Pre-trained Language Models (PLMs) and Large-scale Language Models (LLMs), within the domain of mathematics. This paper conducts a comprehensive survey of mathematical LMs, systematically categorizing pivotal research endeavors from two distinct perspectives: tasks and methodologies. The landscape reveals a large number of proposed mathematical LLMs, which are further delineated into instruction learning, tool-based methods, fundamental CoT techniques, and advanced CoT methodologies. In addition, our survey entails the compilation of over 60 mathematical datasets, including training datasets, benchmark datasets, and augmented datasets. Addressing the primary challenges and delineating future trajectories within the field of mathematical LMs, this survey is positioned as a valuable resource, poised to facilitate and inspire future innovation among researchers invested in advancing this domain.
Enlace al artículo
https://arxiv.org/abs/2312.07622
Leer más
https://x.com/omarsar0/status/1735323577392542084
LLM360: el camino hacia LLM open source totalmente transparentes / LLM360: Towards Fully Transparent Open-Source LLMs
Introducción del artículo
- Se propone LLM360 para apoyar la investigación en IA abierta y colaborativa al hacer que el proceso de entrenamiento de LLM de extremo a extremo sea transparente y reproducible, y se publican Amber y CrystalCoder, dos LLM de 7B parámetros preentrenados desde cero, incluyendo su código de entrenamiento, datos, checkpoints intermedios y análisis.
> Proposes llm360 to support open and collaborative ai research by making the end-to-end llm training process transparent and reproducible; releases 7b parameter llms pre-trained from scratch, amber and crystalcoder, including their training code, data, intermediate checkpoints, and analyses.
Resumen del artículo
- El reciente auge de los modelos de lenguaje de gran escala (LLM) open source, como LLaMA, Falcon y Mistral, ofrece diversas opciones para practicantes e investigadores de IA. Sin embargo, la mayoría de los LLM solo han publicado artefactos parciales, como los pesos finales del modelo o el código de inferencia, y los informes técnicos limitan cada vez más su alcance a decisiones de diseño de alto nivel y estadísticas superficiales. Estas decisiones frenan el progreso en el campo al reducir la transparencia sobre el entrenamiento de los LLM y obligar a los equipos a redescubrir muchos detalles del proceso de entrenamiento. Unity presenta LLM360, una iniciativa para hacer a los LLM completamente open source, que promueve poner a disposición de la comunidad todo el código y los datos de entrenamiento, los checkpoints del modelo y los resultados intermedios. El objetivo de LLM360 es apoyar la investigación en IA abierta y colaborativa haciendo que el proceso de entrenamiento de LLM de extremo a extremo sea transparente y reproducible para todos. Como primer paso de LLM360, Unity publica dos LLM de 7B parámetros preentrenados desde cero, Amber y CrystalCoder, incluyendo su código de entrenamiento, datos, checkpoints intermedios y análisis (en https://www.llm360.ai). Unity está comprometida con seguir ampliando los límites de los LLM a través de este esfuerzo open source. Hay modelos más grandes y potentes en desarrollo que se publicarán en el futuro.
> The recent surge in open-source Large Language Models (LLMs), such as LLaMA, Falcon, and Mistral, provides diverse options for AI practitioners and researchers. However, most LLMs have only released partial artifacts, such as the final model weights or inference code, and technical reports increasingly limit their scope to high-level design choices and surface statistics. These choices hinder progress in the field by degrading transparency into the training of LLMs and forcing teams to rediscover many details in the training process. We present LLM360, an initiative to fully open-source LLMs, which advocates for all training code and data, model checkpoints, and intermediate results to be made available to the community. The goal of LLM360 is to support open and collaborative AI research by making the end-to-end LLM training process transparent and reproducible by everyone. As a first step of LLM360, we release two 7B parameter LLMs pre-trained from scratch, Amber and CrystalCoder, including their training code, data, intermediate checkpoints, and analyses (at https://www.llm360.ai). We are committed to continually pushing the boundaries of LLMs through this open-source effort. More large-scale and stronger models are underway and will be released in the future.
Enlace al artículo
https://arxiv.org/abs/2312.06550
Leer más
https://x.com/omarsar0/status/1734591071575744820
Estudio sobre los modelos de lenguaje de gran escala en medicina: principios, aplicaciones y desafíos / A Survey of Large Language Models in Medicine: Principles, Applications, and Challenges
Introducción del artículo
- Una encuesta integral sobre machine learning en medicina (análisis de más de 300 artículos), que incluye una visión general de los principios, aplicaciones y desafíos que enfrenta el machine learning en este campo.
> A comprehensive survey (analyzing 300+ papers) on llms in medicine; includes an overview of the principles, applications, and challenges faced by llms in medicine.
Resumen del artículo
- Los modelos de lenguaje de gran escala (LLM), como ChatGPT, han recibido una gran atención debido a sus impresionantes capacidades de comprensión y generación del lenguaje humano. Por ello, la aplicación de LLM en medicina para apoyar a los médicos y la atención de pacientes está surgiendo como una prometedora línea de investigación tanto en inteligencia artificial como en medicina clínica. Para reflejar esta tendencia, esta encuesta ofrece una visión general integral de los principios, aplicaciones y desafíos que enfrentan los LLM en medicina. En particular, busca responder las siguientes preguntas: 1) ¿Cómo pueden construirse los LLM médicos? 2) ¿Cuál es el rendimiento downstream de los LLM médicos? 3) ¿Cómo pueden utilizarse los LLM médicos en la práctica clínica del mundo real? 4) ¿Qué desafíos surgen del uso de LLM médicos? y 5) ¿Cómo podemos construir y utilizar mejor los LLM médicos? En consecuencia, esta encuesta busca ofrecer perspectivas sobre las oportunidades y desafíos de los LLM en medicina y servir como un recurso valioso para construir LLM médicos prácticos y efectivos. Se puede encontrar una lista actualizada regularmente de guías prácticas sobre LLM médicos en https://github.com/AI-in-Health/MedLLMsPracticalGuide.
> Large language models (LLMs), such as ChatGPT, have received substantial attention due to their impressive human language understanding and generation capabilities. Therefore, the application of LLMs in medicine to assist physicians and patient care emerges as a promising research direction in both artificial intelligence and clinical medicine. To reflect this trend, this survey provides a comprehensive overview of the principles, applications, and challenges faced by LLMs in medicine. Specifically, we aim to address the following questions: 1) How can medical LLMs be built? 2) What are the downstream performances of medical LLMs? 3) How can medical LLMs be utilized in real-world clinical practice? 4) What challenges arise from the use of medical LLMs? and 5) How can we better construct and utilize medical LLMs? As a result, this survey aims to provide insights into the opportunities and challenges of LLMs in medicine and serve as a valuable resource for constructing practical and effective medical LLMs. A regularly updated list of practical guides on medical LLMs can be found at https://github.com/AI-in-Health/MedLLMsPracticalGuide.
Enlace del artículo
https://arxiv.org/abs/2311.05112
Leer más
https://x.com/omarsar0/status/1734599425568231513
Más allá de los datos humanos: ampliando el autoentrenamiento para la resolución de problemas con modelos de lenguaje / Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models
Presentación del artículo
- Propone un enfoque de autoentrenamiento con retroalimentación que puede reducir de forma sustancial la dependencia de datos generados por humanos; los datos generados por el modelo, combinados con una función de recompensa, mejoran el rendimiento del machine learning en tareas de resolución de problemas.
> Proposes an approach for self-training with feedback that can substantially reduce dependence on human-generated data; the model-generated data combined with a reward function improves the performance of llms on problem-solving tasks.
Resumen del artículo
- El ajuste fino de modelos de lenguaje (LM) con datos generados por humanos sigue siendo una práctica muy extendida. Sin embargo, el rendimiento de estos modelos suele estar limitado por la cantidad y diversidad de datos humanos de alta calidad. En este artículo, se explora si es posible ir más allá de los datos humanos en tareas donde se tiene acceso a retroalimentación escalar, por ejemplo, en problemas de matemáticas donde se puede verificar la respuesta correcta. Para ello, se estudia un método simple de autoentrenamiento basado en expectation-maximization, llamado ReST $^{EM}$, en el que (1) se generan muestras a partir del modelo y se filtran usando retroalimentación binaria, (2) se ajusta finamente el modelo con esas muestras y (3) se repite este proceso algunas veces. Al probarlo en benchmarks de razonamiento matemático avanzado MATH y de programación APPS usando modelos PaLM-2, se encontró que ReST $^{EM}$ escala favorablemente con el tamaño del modelo y supera significativamente al ajuste fino realizado solo con datos humanos. En conjunto, estos hallazgos sugieren que el autoentrenamiento con retroalimentación puede reducir de forma considerable la dependencia de datos generados por humanos.
> Fine-tuning language models(LMs) on human-generated data remains a prevalent practice. However, the performance of such models is often limited by the quantity and diversity of high-quality human data. In this paper, we explore whether we can go beyond human data on tasks where we have access to scalar feedback, for example, on math problems where one can verify correctness. To do so, we investigate a simple self-training method based on expectation-maximization, which we call ReST $^{EM}$, where we (1) generate samples from the model and filter them using binary feedback, (2) fine-tune the model on these samples, and (3) repeat this process a few times. Testing on advanced MATH reasoning and APPS coding benchmarks using PaLM-2 models, we find that ReST $^{EM}$ scales favorably with model size and significantly surpasses fine-tuning only on human data. Overall, our findings suggest self-training with feedback can substantially reduce dependence on human-generated data.
Enlace del artículo
https://arxiv.org/abs/2312.06585
Leer más
https://x.com/omarsar0/status/1734953578274386002
Gaussian-SLAM
Presentación del artículo
- Un método de SLAM neural RGBD capaz de reconstruir escenas del mundo real con fotorrealismo sin comprometer la velocidad ni la eficiencia; extiende los gaussianos 3D clásicos para la representación de escenas con el fin de superar las limitaciones de los métodos anteriores.
> A neural rgbd slam method capable of photorealistically reconstructing real-world scenes without compromising speed and efficiency; extends classical 3d gaussians for scene representation to overcome the limitations of the previous methods.
Enlace al artículo
https://vladimiryugay.github.io/gaussian_slam/
Leer más
https://x.com/vlyug/status/1734683948440252480
Pearl: un agente de aprendizaje por refuerzo listo para producción / Pearl: A Production-ready Reinforcement Learning Agent
Presentación del artículo
- Se presenta un nuevo paquete de software de agente de inteligencia artificial listo para producción que permite a investigadores y profesionales desarrollar agentes de IA de RL que se adapten a entornos con observabilidad limitada, retroalimentación escasa y alta estocasticidad.
> Introduces a new production-ready rl agent software package that enables researchers and practitioners to develop rl ai agents that adapt to environments with limited observability, sparse feedback, and high stochasticity.
Resumen del artículo
- El aprendizaje por refuerzo (RL) ofrece un marco versátil para alcanzar objetivos a largo plazo. Su generalidad permite formalizar una amplia gama de problemas que enfrentan los sistemas inteligentes del mundo real, como lidiar con recompensas diferidas, manejar observabilidad parcial, abordar el dilema entre exploración y explotación, utilizar datos offline para mejorar el rendimiento online y garantizar el cumplimiento de restricciones de seguridad. A pesar del progreso considerable de la comunidad de investigación en RL para abordar estos problemas, las bibliotecas open source de RL existentes tienden a centrarse en una parte limitada del pipeline de soluciones de RL, dejando otros aspectos en gran medida desatendidos. Este artículo presenta Pearl, un paquete de software de agente de RL listo para producción diseñado explícitamente para abarcar estos desafíos de forma modular. Además de presentar resultados preliminares de benchmarks, el artículo destaca casos de adopción de Pearl en la industria para demostrar que está listo para uso en producción. Pearl fue liberado como open source en Github en github.com/facebookresearch/pearl y su sitio web oficial está en pearlagent.github.io.
> Reinforcement Learning (RL) offers a versatile framework for achieving long-term goals. Its generality allows us to formalize a wide range of problems that real-world intelligent systems encounter, such as dealing with delayed rewards, handling partial observability, addressing the exploration and exploitation dilemma, utilizing offline data to improve online performance, and ensuring safety constraints are met. Despite considerable progress made by the RL research community in addressing these issues, existing open-source RL libraries tend to focus on a narrow portion of the RL solution pipeline, leaving other aspects largely unattended. This paper introduces Pearl, a Production-ready RL agent software package explicitly designed to embrace these challenges in a modular fashion. In addition to presenting preliminary benchmark results, this paper highlights Pearl's industry adoptions to demonstrate its readiness for production usage. Pearl is open sourced on Github at github.com/facebookresearch/pearl and its official website is located at pearlagent.github.io.
Enlace al artículo
https://arxiv.org/abs/2312.03814
Leer más
https://x.com/ZheqingZhu/status/1732880717263352149
Quip / Quip
Presentación del artículo
- Comprime los pesos de modelos entrenados en un formato de menor precisión para reducir los requisitos de memoria; el enfoque combina codebooks de retícula con procesamiento de incoherencia para crear modelos cuantizados de 2 bits; reduce significativamente la brecha entre los LLM cuantizados a 2 bits y los modelos no cuantizados de 16 bits.
> Compresses trained model weights into a lower precision format to reduce memory requirements; the approach combines lattice codebooks with incoherence processing to create 2 bit quantized models; significantly closes the gap between 2 bit quantized llms and unquantized 16 bit models.
Enlace al artículo
https://cornell-relaxml.github.io/quip-sharp/
Leer más
https://x.com/tsengalb99/status/1733222467953422702
Texto original
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-c22
Aún no hay comentarios.