03] Los principales artículos de ML de esta semana (Top ML Papers of the Week)

(discuss.pytorch.kr)

1 puntos por ninebow 2024-03-06 | Aún no hay comentarios. | Compartir por WhatsApp

Se ha traducido automáticamente el artículo sobre los papers de ML que DAIR.AI publica cada semana.
Al ver los papers seleccionados esta semana, parece que predominan las investigaciones centradas en los modelos de lenguaje a gran escala (Large Language Models, LLMs). Títulos como "Genie", "Mistral Large", "The Era of 1-bit LLMs", "Dataset for LLMs" y "PlanGPT" muestran un alto interés en el modelado de lenguaje y en enfoques para mejorarlo o aprovechar nuevos datasets. Esto podría deberse al rápido avance de las tecnologías de procesamiento de lenguaje en los últimos años y a que los modelos de lenguaje de gran escala están logrando un desempeño sobresaliente en diversas tareas de procesamiento de lenguaje natural.
Los modelos de lenguaje, especialmente los modelos de gran escala como GPT-4, se están aplicando en diversas industrias y áreas de investigación, y por eso está creciendo la demanda de nuevas técnicas que permitan entrenarlos de forma más eficiente, aplicarlos a datos más diversos e incluso mantener un alto rendimiento usando menos bits. Además, títulos como "On the Societal Impact of Open Foundation Models" sugieren que también se está investigando el impacto social de los modelos de lenguaje, lo que significa que no solo está aumentando el desarrollo tecnológico, sino también la conciencia sobre los cambios sociales y las responsabilidades que esto implica.
Por otro lado, también destacan títulos menos específicos como "LearnAct" o "EMO"; es posible que estos trabajos no se limiten a los modelos de lenguaje, sino que se enfoquen en aplicaciones más amplias o en avances teóricos. En general, esta semana confirma que las nuevas aproximaciones al modelado de lenguaje y las distintas investigaciones aplicadas que lo aprovechan se han consolidado como la tendencia central, lo cual puede verse como un reflejo del fuerte impulso de investigación y desarrollo en torno a diversos desafíos considerados importantes dentro del campo de la IA.

Genie: Entornos interactivos generativos / Genie: Generative Interactive Environments

Introducción al paper

Genie, un modelo fundacional entrenado con videos de internet y capaz de generar una variedad de mundos 2D con control de acciones a partir de un prompt de imagen, tiene 11B parámetros y está compuesto por un tokenizador de video espaciotemporal, un modelo dinámico autorregresivo y un modelo escalable de acciones latentes. A través del espacio de acciones latentes, permite que los agentes entrenados imiten comportamientos de videos no vistos, lo que lo hace prometedor para construir agentes más generalistas.

A foundation model trained from internet videos and with the ability to generate a variety of action-controllable 2d worlds given an image prompt; genie has 11b parameters and consists of a spatiotemporal video tokenizer, an autoregressive dynamic model, and a scalable latent action model; the latent action space enables training agents to imitate behaviors from unseen video which is promising for building more generalist agents.

Resumen del paper (Abstract)

Presentamos Genie, el primer entorno interactivo generativo entrenado de manera no supervisada a partir de videos de internet sin etiquetar. Se le puede pedir al modelo que genere una variedad infinita de mundos virtuales con control de acciones, descritos mediante texto, imágenes sintéticas, fotografías e incluso bocetos. Con 11B parámetros, Genie puede considerarse un modelo fundacional del mundo. Está compuesto por un tokenizador de video espaciotemporal, un modelo de dinámicas autorregresivo y un modelo de acciones latentes simple y escalable. Genie permite a los usuarios actuar en los entornos generados cuadro por cuadro, a pesar de haberse entrenado sin etiquetas de acciones reales ni otros requisitos específicos de dominio que suelen encontrarse en la literatura sobre world models. Además, el espacio de acciones latentes aprendido facilita el entrenamiento de agentes para imitar comportamientos de videos no vistos, abriendo el camino para entrenar a los agentes generalistas del futuro.

We introduce Genie, the first generative interactive environment trained in an unsupervised manner from unlabelled Internet videos. The model can be prompted to generate an endless variety of action-controllable virtual worlds described through text, synthetic images, photographs, and even sketches. At 11B parameters, Genie can be considered a foundation world model. It is comprised of a spatiotemporal video tokenizer, an autoregressive dynamics model, and a simple and scalable latent action model. Genie enables users to act in the generated environments on a frame-by-frame basis despite training without any ground-truth action labels or other domain-specific requirements typically found in the world model literature. Further the resulting learned latent action space facilitates training agents to imitate behaviors from unseen videos, opening the path for training generalist agents of the future.

Enlace del paper

https://arxiv.org/abs/2402.15391

Lectura adicional

https://discuss.pytorch.kr/t/…

https://sites.google.com/view/genie-2024/home

https://x.com/_rockt/status/1762026090262872161

Mistral Large / Mistral Large

Introducción al paper

Las características de este nuevo motor de lenguaje con sólidas capacidades multilingües, de razonamiento, matemáticas y generación de código son las siguientes: 1) ventana de contexto de 32k tokens, 2) capacidades multilingües nativas, 3) fuerte desempeño en benchmarks de razonamiento, conocimiento, matemáticas y coding, y 4) soporte nativo para function calling y formato JSON.

A new llm with strong multilingual, reasoning, maths, and code generation capabilities; features include: 1) 32k tokens context window, 2) native multilingual capacities, 3) strong abilities in reasoning, knowledge, maths, and coding benchmarks, and 4) function calling and json format natively supported.

Enlace del paper

https://mistral.ai/news/mistral-large/

Lectura adicional

https://discuss.pytorch.kr/t/…

https://x.com/omarsar0/status/1762140818654064721

La era de los LLM de 1 bit: todos los modelos de lenguaje grandes están en 1.58 bits / The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Introducción al paper

Presenta una variante de LLM de 1 bit de alto rendimiento y costo eficiente llamada BitNet b1.58, en la que todos los parámetros son ternarios {-1, 0, 1}. Dado el mismo tamaño de modelo y los mismos tokens de entrenamiento, BitNet b1.58 puede igualar la perplejidad y el rendimiento en tareas de un LLM Transformer de precisión completa (es decir, fp16); las ventajas de este LLM de 1 bit son mejoras significativas en latencia, memoria, rendimiento y consumo de energía.

Introduces a high-performing and cost-effective 1-bit llm variant called bitnet b1.58 where every parameter is a ternary {-1, 0, 1}; given the same model size and training tokens, bitnet b1.58 can match the perplexity and task performance of a full precision transformer llm (i.e., fp16); the benefits of this 1-bit llm are significantly better latency, memory, throughout, and energy consumption.

Resumen del artículo (Abstract)

Investigaciones recientes, como BitNet, están allanando el camino para una nueva era de modelos de lenguaje grandes (LLMs) de 1 bit. En este trabajo, presentamos una variante de LLM de 1 bit, llamada BitNet b1.58, en la que cada parámetro individual (o peso) del LLM es ternario {-1, 0, 1}. Iguala a un LLM Transformer de precisión completa (es decir, FP16 o BF16) con el mismo tamaño de modelo y los mismos tokens de entrenamiento tanto en perplejidad como en rendimiento en tareas finales, mientras que resulta significativamente más rentable en términos de latencia, memoria, throughput y consumo de energía. Más profundamente, el LLM de 1.58 bits define una nueva ley de escalado y una nueva receta para entrenar nuevas generaciones de LLMs que sean tanto de alto rendimiento como costo eficientes. Además, habilita un nuevo paradigma de cómputo y abre la puerta al diseño de hardware específico optimizado para LLMs de 1 bit.

Recent research, such as BitNet, is paving the way for a new era of 1-bit Large Language Models (LLMs). In this work, we introduce a 1-bit LLM variant, namely BitNet b1.58, in which every single parameter (or weight) of the LLM is ternary {-1, 0, 1}. It matches the full-precision (i.e., FP16 or BF16) Transformer LLM with the same model size and training tokens in terms of both perplexity and end-task performance, while being significantly more cost-effective in terms of latency, memory, throughput, and energy consumption. More profoundly, the 1.58-bit LLM defines a new scaling law and recipe for training new generations of LLMs that are both high-performance and cost-effective. Furthermore, it enables a new computation paradigm and opens the door for designing specific hardware optimized for 1-bit LLMs.

Enlace al artículo

https://arxiv.org/abs/2402.17764

Leer más

https://x.com/_akhaliq/status/1762729757454618720

Datasets para modelos de lenguaje grandes: un estudio integral / Datasets for Large Language Models: A Comprehensive Survey

Introducción al artículo

Una visión general integral (más de 180 páginas) y un análisis de los datasets para LLMs.

A comprehensive overview (180+ pages) and analysis of llm datasets.

Resumen del artículo (Abstract)

Este artículo inicia una exploración de los datasets de Large Language Models (LLM), que desempeñan un papel crucial en los notables avances de los LLM. Los datasets funcionan como la infraestructura fundamental, comparable a un sistema de raíces que sostiene y nutre el desarrollo de los LLM. En consecuencia, el análisis de estos datasets surge como un tema crítico de investigación. Para abordar la actual falta de una visión integral y un análisis exhaustivo de los datasets de LLM, y para obtener perspectivas sobre su estado actual y sus tendencias futuras, esta encuesta consolida y clasifica los aspectos fundamentales de los datasets de LLM desde cinco perspectivas: (1) corpus de preentrenamiento, (2) datasets de ajuste fino por instrucciones, (3) datasets de preferencias, (4) datasets de evaluación y (5) datasets tradicionales de procesamiento de lenguaje natural (NLP). Esta encuesta arroja luz sobre los desafíos actuales y señala posibles direcciones para futuras investigaciones. Además, también ofrece una revisión integral de los recursos de datasets disponibles en la actualidad, incluyendo estadísticas de 444 datasets, que cubren 8 categorías de idiomas y abarcan 32 dominios. En las estadísticas de los datasets se integra información de 20 dimensiones. El volumen total de datos analizado supera los 774.5 TB para los corpus de preentrenamiento y los 700 millones de instancias para los demás datasets. Nuestro objetivo es presentar el panorama completo de los datasets de texto para LLM, sirviendo como una referencia integral para los investigadores de este campo y contribuyendo a estudios futuros. Los recursos relacionados están disponibles en https://github.com/lmmlzn/Awesome-LLMs-Datasets.

This paper embarks on an exploration into the Large Language Model (LLM) datasets, which play a crucial role in the remarkable advancements of LLMs. The datasets serve as the foundational infrastructure analogous to a root system that sustains and nurtures the development of LLMs. Consequently, examination of these datasets emerges as a critical topic in research. In order to address the current lack of a comprehensive overview and thorough analysis of LLM datasets, and to gain insights into their current status and future trends, this survey consolidates and categorizes the fundamental aspects of LLM datasets from five perspectives: (1) Pre-training Corpora; (2) Instruction Fine-tuning Datasets; (3) Preference Datasets; (4) Evaluation Datasets; (5) Traditional Natural Language Processing (NLP) Datasets. The survey sheds light on the prevailing challenges and points out potential avenues for future investigation. Additionally, a comprehensive review of the existing available dataset resources is also provided, including statistics from 444 datasets, covering 8 language categories and spanning 32 domains. Information from 20 dimensions is incorporated into the dataset statistics. The total data size surveyed surpasses 774.5 TB for pre-training corpora and 700M instances for other datasets. We aim to present the entire landscape of LLM text datasets, serving as a comprehensive reference for researchers in this field and contributing to future studies. Related resources are available at: https://github.com/lmmlzn/Awesome-LLMs-Datasets.

Enlace al artículo

https://arxiv.org/abs/2402.18041

Leer más

https://github.com/lmmlzn/Awesome-LLMs-Datasets

https://x.com/omarsar0/status/1763233452852134001

Potenciando las capacidades de los agentes de grandes modelos de lenguaje mediante aprendizaje de acciones / Empowering Large Language Model Agents through Action Learning

Introducción al artículo

Explora el aprendizaje abierto de acciones para agentes de lenguaje mediante una estrategia de aprendizaje iterativo que crea y mejora acciones usando funciones de Python; en cada iteración, el framework propuesto (learnact) amplía el espacio de acciones y mejora la efectividad de las acciones al revisar y actualizar las acciones disponibles con base en la retroalimentación de ejecución; tras aprender en entornos de planificación robótica y Alfworld, se confirmó una mejora del 32% en el rendimiento del agente en Alfworld frente a ReAct+Reflexion.

Explores open-action learning for language agents through an iterative learning strategy that creates and improves actions using python functions; on each iteration, the proposed framework (learnact) expands the action space and enhances action effectiveness by revising and updating available actions based on execution feedback; the learnact framework was tested on robotic planning and alfworld environments; it improves agent performance by 32% in alfworld compared to react+reflexion.

Resumen(Abstract)

Aunque recientemente ha aumentado el interés por los agentes de modelos de lenguaje grandes (LLM), siguen teniendo limitaciones en su capacidad de aprender mediante prueba y error, un elemento clave del comportamiento inteligente. Este estudio sostiene que la capacidad de aprender nuevas acciones a partir de la experiencia es fundamental para impulsar el aprendizaje de los agentes LLM. Mientras que los humanos expanden de forma natural su espacio de acciones y desarrollan habilidades mediante el aprendizaje experiencial, los agentes LLM suelen operar dentro de espacios de acción fijos, lo que limita su potencial de crecimiento. Para abordar este problema, este trabajo explora el aprendizaje de acciones abiertas para agentes de lenguaje. Presenta LearnAct, un framework con una estrategia de aprendizaje iterativa que genera y mejora acciones en forma de funciones de Python. En cada iteración, el LLM modifica y actualiza las acciones disponibles con base en los errores identificados en tareas de entrenamiento fallidas, mejorando así la efectividad de las acciones. Según la evaluación experimental en entornos de planificación robótica y Alfworld, después de aprender a partir de unas cuantas instancias de tareas de entrenamiento, este enfoque de aprendizaje de acciones abiertas mejora notablemente el rendimiento del agente en ese tipo de tareas (por ejemplo, un 32% en AlfWorld en comparación con ReAct+Reflexion). Este resultado subraya la importancia del aprendizaje empírico de acciones para desarrollar agentes LLM más inteligentes.

Large Language Model (LLM) Agents have recently garnered increasing interest yet they are limited in their ability to learn from trial and error, a key element of intelligent behavior. In this work, we argue that the capacity to learn new actions from experience is fundamental to the advancement of learning in LLM agents. While humans naturally expand their action spaces and develop skills through experiential learning, LLM agents typically operate within fixed action spaces, limiting their potential for growth. To address these challenges, our study explores open-action learning for language agents. We introduce a framework LearnAct with an iterative learning strategy to create and improve actions in the form of Python functions. In each iteration, LLM revises and updates the currently available actions based on the errors identified in unsuccessful training tasks, thereby enhancing action effectiveness. Our experimental evaluations across Robotic Planning and Alfworld environments reveal that after learning on a few training task instances, our approach to open-action learning markedly improves agent performance for the type of task (by 32 percent in AlfWorld compared to ReAct+Reflexion, for instance) highlighting the importance of experiential action learning in the development of more intelligent LLM agents.

Enlace al artículo

https://arxiv.org/abs/2402.15809

Leer más

https://x.com/omarsar0/status/1762533498492010761

EMO: Emote Portrait Alive - Generación de videos de retrato expresivos con un modelo de difusión Audio2Video bajo condiciones débiles / EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

Introducción del artículo

EMO, un nuevo framework para generar video expresivo que utiliza un enfoque de síntesis directa de Audio-to-Video mediante un modelo de difusión Audio-to-Video, puede crear videos convincentes de personas hablando y cantando en varios estilos sin necesidad de modelos 3D intermedios ni puntos de referencia faciales, y ofrece un rendimiento superior a los métodos existentes en términos de expresividad y realismo.

A new framework for generating expressive video by utilizing a direct audio-to-video synthesis approach; by leveraging an audio2video diffusion model it bypasses the need for intermediate 3d models or facial landmarks; emo can produce convincing speaking videos and singing videos in various styles while outperforming existing methods in terms of expressiveness and realism.

Resumen del artículo (Abstract)

Este estudio aborda el desafío de mejorar el realismo y la expresividad en la generación de videos de cabezas parlantes, centrándose en la relación dinámica y sutil entre las señales de audio y los movimientos faciales. Identifica las limitaciones de las técnicas tradicionales, que a menudo no logran capturar todo el espectro de las expresiones humanas ni la singularidad de los estilos faciales individuales. Para resolver estos problemas, propone EMO, un nuevo framework que utiliza un enfoque de síntesis directa de audio a video, sin necesidad de modelos 3D intermedios ni puntos de referencia faciales. Este método garantiza transiciones fluidas entre fotogramas y una preservación consistente de la identidad a lo largo del video, lo que da como resultado animaciones muy expresivas y realistas. Los resultados experimentales muestran que EMO puede producir no solo videos convincentes de personas hablando, sino también videos de canto en diversos estilos, superando ampliamente a las metodologías de vanguardia existentes en términos de expresividad y realismo.

In this work, we tackle the challenge of enhancing the realism and expressiveness in talking head video generation by focusing on the dynamic and nuanced relationship between audio cues and facial movements. We identify the limitations of traditional techniques that often fail to capture the full spectrum of human expressions and the uniqueness of individual facial styles. To address these issues, we propose EMO, a novel framework that utilizes a direct audio-to-video synthesis approach, bypassing the need for intermediate 3D models or facial landmarks. Our method ensures seamless frame transitions and consistent identity preservation throughout the video, resulting in highly expressive and lifelike animations. Experimental results demonsrate that EMO is able to produce not only convincing speaking videos but also singing videos in various styles, significantly outperforming existing state-of-the-art methodologies in terms of expressiveness and realism.

Enlace al artículo

https://arxiv.org/abs/2402.17485

Leer más

https://x.com/_akhaliq/status/1762686465777999932

Impacto social de los modelos fundacionales abiertos / On the Societal Impact of Open Foundation Models

Introducción al artículo

Un artículo de postura centrado en los modelos fundacionales abiertos y su impacto, beneficios y riesgos; propone un marco de evaluación de riesgos para analizar el riesgo y explica por qué el riesgo marginal de los modelos fundacionales abiertos es bajo en algunos casos; además, ofrece una evaluación más fundamentada del impacto social de los modelos fundacionales abiertos.

A position paper with a focus on open foundation models and their impact, benefits, and risks; proposes a risk assessment framework for analyzing risk and explains why the marginal risk of open foundation models is low in some cases; it also offers a more grounded assessment of the societal impact of open foundation models.

Enlace al artículo

https://crfm.stanford.edu/open-fms/

Leer más

https://x.com/sayashk/status/1762508812370551207

StarCoder 2 / StarCoder 2

Introducción al artículo

Una familia abierta de modelos de machine learning para código con tres tamaños distintos (3b, 7b y 15b); el modelo de 15b fue entrenado con 14 billones de tokens y más de 600 lenguajes de programación, con una ventana de contexto de 16k tokens y usando un objetivo de fill-in-the-middle; iguala a modelos de 33b+ en muchas evaluaciones como autocompletado de código, razonamiento sobre código y razonamiento matemático asistido mediante PAL.

A family of open llms for code with three different sizes (3b, 7b, and 15b); the 15b model was trained on 14 trillion tokens and 600+ programming languages with a context window of 16k token and employing a fill-in-the-middle objective; it matches 33b+ models on many evaluation like code completion, code reasoning, and math reasoning aided through pal.

Enlace al artículo

https://huggingface.co/blog/starcoder2

Leer más

https://x.com/_philschmid/status/1762843489220296881

Modelos de lenguaje de gran escala (LLM) sobre datos tabulares: predicción, generación y comprensión - artículo de encuesta / Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding - A Survey

Introducción al artículo

Presenta una visión general de los LLM para tareas con datos tabulares, incluidas técnicas clave, métricas, conjuntos de datos, modelos y enfoques de optimización; también aborda limitaciones e ideas inexploradas, junto con perspectivas para futuras líneas de investigación.

An overview of llms for tabular data tasks including key techniques, metrics, datasets, models, and optimization approaches; it covers limitations and unexplored ideas with insights for future research directions.

Resumen(Abstract)

Los recientes avances decisivos en el modelado de lenguaje a gran escala han facilitado la exploración rigurosa de su aplicación en diversas tareas relacionadas con el modelado de datos tabulares, como predicción, síntesis de datos tabulares, preguntas y respuestas, y comprensión de tablas. Cada tarea presenta desafíos y oportunidades únicas. Sin embargo, actualmente falta una revisión integral que resuma y compare las técnicas clave, métricas, conjuntos de datos, modelos y enfoques de optimización en esta área de investigación. Esta encuesta busca cerrar esa brecha al consolidar los avances recientes en estas áreas, ofreciendo una revisión exhaustiva y una taxonomía de los conjuntos de datos, métricas y metodologías utilizadas. Identifica fortalezas, limitaciones, territorios inexplorados y vacíos en la literatura existente, al tiempo que proporciona algunas perspectivas sobre futuras direcciones de investigación en este campo vital y de rápida evolución. También ofrece referencias de código y conjuntos de datos relevantes. A través de esta revisión integral, esperamos brindar a los lectores interesados referencias pertinentes y perspectivas valiosas, dotándolos de las herramientas y conocimientos necesarios para navegar eficazmente y abordar los desafíos actuales en el campo.

Recent breakthroughs in large language modeling have facilitated rigorous exploration of their application in diverse tasks related to tabular data modeling, such as prediction, tabular data synthesis, question answering, and table understanding. Each task presents unique challenges and opportunities. However, there is currently a lack of comprehensive review that summarizes and compares the key techniques, metrics, datasets, models, and optimization approaches in this research domain. This survey aims to address this gap by consolidating recent progress in these areas, offering a thorough survey and taxonomy of the datasets, metrics, and methodologies utilized. It identifies strengths, limitations, unexplored territories, and gaps in the existing literature, while providing some insights for future research directions in this vital and rapidly evolving field. It also provides relevant code and datasets references. Through this comprehensive review, we hope to provide interested readers with pertinent references and insightful perspectives, empowering them with the necessary tools and knowledge to effectively navigate and address the prevailing challenges in the field.

Enlace al artículo

https://arxiv.org/abs/2402.17944

Leer más

https://x.com/omarsar0/status/1763187964501254492

PlanGPT: mejora de la planificación urbana con un modelo de lenguaje personalizado y recuperación eficiente / PlanGPT: Enhancing Urban Planning with Tailored Language Model and Efficient Retrieval

Introducción al artículo

Muestra cómo aprovechar los LLM y combinar múltiples enfoques como recuperación aumentada, fine-tuning, uso de herramientas y más; el framework propuesto se aplica a la planificación urbana y espacial, pero contiene muchas perspectivas y consejos prácticos que también se aplican a otros dominios.

Shows how to leverage llms and combine multiple approaches like retrieval augmentation, fine-tuning, tool usage, and more; the proposed framework is applied to urban and spatial planning but there are a lot of insights and practical tips that apply to other domains.

Resumen(Abstract)

En el campo de la planificación urbana, los modelos de lenguaje grandes de propósito general a menudo tienen dificultades para satisfacer las necesidades específicas de los planificadores. Tareas como la generación de textos de planificación urbana, la recuperación de información relacionada y la evaluación de documentos de planificación presentan desafíos únicos. Para mejorar la eficiencia de los profesionales urbanos y superar estos obstáculos, presentamos PlanGPT, el primer modelo de lenguaje grande especializado y adaptado a la planificación urbana y espacial. Desarrollado mediante la colaboración con instituciones como la Sociedad China de Planificación Urbana, PlanGPT aprovecha un marco personalizado de recuperación de bases de datos locales, el ajuste fino de modelos base específico del dominio y capacidades avanzadas de herramientas. Las pruebas empíricas demuestran que PlanGPT ha alcanzado un rendimiento avanzado, ofreciendo respuestas de calidad superior ajustadas con precisión a las complejidades de la planificación urbana.

In the field of urban planning, general-purpose large language models often struggle to meet the specific needs of planners. Tasks like generating urban planning texts, retrieving related information, and evaluating planning documents pose unique challenges. To enhance the efficiency of urban professionals and overcome these obstacles, we introduce PlanGPT, the first specialized Large Language Model tailored for urban and spatial planning. Developed through collaborative efforts with institutions like the Chinese Academy of Urban Planning, PlanGPT leverages a customized local database retrieval framework, domain-specific fine-tuning of base models, and advanced tooling capabilities. Empirical tests demonstrate that PlanGPT has achieved advanced performance, delivering responses of superior quality precisely tailored to the intricacies of urban planning.

Este artículo fue resumido con un modelo GPT, por lo que podría contener errores; por favor, consulta también la fuente original al final del texto. Si encuentras contenido extraño o incorrecto mientras lees, te agradeceremos que lo indiques en los comentarios.

⚠️Publicidad⚠️: ¿Te resultó útil este artículo recopilado por la comunidad de usuarios de PyTorch en Corea? Si te registras como miembro, te enviaremos los artículos principales por correo electrónico. (La opción predeterminada es Weekly, pero también puedes cambiarla a Daily.)

[2024/02/26 ~ 03/03] Los principales artículos de ML de esta semana (Top ML Papers of the Week)

Genie: Entornos interactivos generativos / Genie: Generative Interactive Environments

Introducción al paper

Resumen del paper (Abstract)

Enlace del paper

Lectura adicional

Mistral Large / Mistral Large

Introducción al paper

Enlace del paper

Lectura adicional

La era de los LLM de 1 bit: todos los modelos de lenguaje grandes están en 1.58 bits / The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Introducción al paper

Resumen del artículo (Abstract)

Enlace al artículo

Leer más

Datasets para modelos de lenguaje grandes: un estudio integral / Datasets for Large Language Models: A Comprehensive Survey

Introducción al artículo

Resumen del artículo (Abstract)

Enlace al artículo

Leer más

Potenciando las capacidades de los agentes de grandes modelos de lenguaje mediante aprendizaje de acciones / Empowering Large Language Model Agents through Action Learning

Introducción al artículo

Resumen(Abstract)

Enlace al artículo

Leer más

EMO: Emote Portrait Alive - Generación de videos de retrato expresivos con un modelo de difusión Audio2Video bajo condiciones débiles / EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

Introducción del artículo

Resumen del artículo (Abstract)

Enlace al artículo

Leer más

Impacto social de los modelos fundacionales abiertos / On the Societal Impact of Open Foundation Models

Introducción al artículo

Enlace al artículo

Leer más

StarCoder 2 / StarCoder 2

Introducción al artículo

Enlace al artículo

Leer más

Modelos de lenguaje de gran escala (LLM) sobre datos tabulares: predicción, generación y comprensión - artículo de encuesta / Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding - A Survey

Introducción al artículo

Resumen(Abstract)

Enlace al artículo

Leer más

PlanGPT: mejora de la planificación urbana con un modelo de lenguaje personalizado y recuperación eficiente / PlanGPT: Enhancing Urban Planning with Tailored Language Model and Efficient Retrieval

Introducción al artículo

Resumen(Abstract)

Enlace al artículo

Leer más

Fuente original

Lecturas relacionadas

Aún no hay comentarios.