2 puntos por ninebow 2024-02-19 | Aún no hay comentarios. | Compartir por WhatsApp

Resumen

  • Hemos traducido automáticamente los textos sobre papers de ML que DAIR.AI publica cada semana.

  • Los papers seleccionados esta semana reflejan las últimas tendencias de investigación en procesamiento de lenguaje natural, redes neuronales profundas y aprendizaje por refuerzo. Además, destacaron papers relacionados con tecnologías de procesamiento de lenguaje natural (NLP). Además, términos como "World Model" y "neural network trainability" parecen estar vinculados con aspectos teóricos del aprendizaje por refuerzo o de las redes neuronales profundas.

  • En el campo de la IA, hay un gran interés en el progreso de los modelos de lenguaje a gran escala. Esto se debe a que, después de que modelos como GPT-3 mostraron un rendimiento impresionante en diversas tareas basadas en lenguaje, el procesamiento de lenguaje natural se ha convertido en un tema clave tanto en la investigación teórica como en la aplicación práctica. Los modelos de lenguaje a gran escala pueden emplearse en diversas tareas de NLP como traducción, resumen, respuesta a preguntas y escritura generativa, y existe una intensa actividad de investigación para comprender y mejorar estos modelos.

  • Además, conceptos como "neural network trainability" y "World Model" sugieren investigación sobre nuevas técnicas para entrenar redes neuronales de forma más efectiva y modelar entornos más complejos. En el aprendizaje por refuerzo, el foco está en desarrollar la capacidad de los agentes para resolver problemas más complejos mediante modelos de entorno más sofisticados, y esto también es una tendencia importante en la investigación actual de IA.

  • Este texto fue elaborado con un modelo GPT, por lo que puede contener errores; te sugerimos revisar también el original en la parte inferior del artículo. Si al leerlo encuentras algo raro o incorrecto, te agradecería que lo compartas en los comentarios.


Sora de OpenAI

Presentación del paper

  • Es un modelo de IA de texto a video capaz de crear escenas realistas e imaginativas de hasta un minuto a partir de instrucciones de texto; puede generar escenas complejas con múltiples personajes, diferentes tipos de movimiento y fondos, y entender cómo se relacionan entre sí, y cuenta con funciones como crear múltiples tomas dentro de un único video manteniendo la persistencia de los personajes y del estilo visual.

    A text-to-video ai model that can create videos of up to a minute of realistic and imaginative scenes given text instructions; it can generate complex scenes with multiple characters, different motion types, and backgrounds, and understand how they relate to each other; other capabilities include creating multiple shots within a single video with persistence across characters and visual style.

Enlace del paper

https://openai.com/research/…

Lectura adicional

https://discuss.pytorch.kr/t/gn-openai-sora-ai/3519

https://x.com/OpenAI/status/1758192957386342435


Gemini 1.5 / Gemini 1.5

Presentación del paper

  • Un modelo multimodal de mezcla de expertos eficiente computacionalmente que se centra en capacidades como recuperar y razonar sobre contenido de formato largo; puede razonar sobre documentos largos con potencialmente millones de tokens, incluyendo horas de video y audio, y mejora el rendimiento de frontera en QA de documentos largos, QA de video largo y ASR de contexto largo. Gemini 1.5 pro iguala o supera a Gemini 1.0 ultra en benchmarks estándar y logra una recuperación casi perfecta (>99%) con al menos 10 millones de tokens, un avance significativo frente a otros llms de contexto largo.

    A compute-efficient multimodal mixture-of-experts model that focuses on capabilities such as recalling and reasoning over long-form content; it can reason over long documents potentially containing millions of tokens, including hours of video and audio; improves the state-of-the-art performance in long-document qa, long-video qa, and long-context asr. gemini 1.5 pro matches or outperforms gemini 1.0 ultra across standard benchmarks and achieves near-perfect retrieval (>99%) up to at least 10 million tokens, a significant advancement compared to other long-context llms.

Enlace del paper

https://storage.googleapis.com/deepmind-media/gemini/…

Lectura adicional

https://discuss.pytorch.kr/t/gn-gemini-1-5/3518

https://x.com/omarsar0/status/1758151923612483839


V-JEPA

Presentación del paper

  • Una colección de modelos de visión entrenados con un objetivo de predicción de características usando 2 millones de videos; depende del aprendizaje auto-supervisado y no utiliza encoders de imagen preentrenados, texto, ejemplos negativos, reconstrucción ni otras fuentes de supervisión; afirma lograr representaciones visuales versátiles que funcionan bien tanto en tareas basadas en movimiento como en tareas basadas en apariencia, sin adaptar los parámetros del modelo.

    A collection of vision models trained on a feature prediction objective using 2 million videos; relies on self-supervised learning and doesn’t use pretrained image encoders, text, negative examples, reconstruction, or other supervision sources; claims to achieve versatile visual representations that perform well on both motion and appearance-based tasks, without adaption of the model’s parameters.

Resumen del paper (Abstract)

Este trabajo explora la predicción de características como objetivo independiente para el aprendizaje no supervisado desde video y presenta V-JEPA, una colección de modelos de visión entrenados únicamente con un objetivo de predicción de características, sin usar encoders de imagen preentrenados, texto, ejemplos negativos, reconstrucción ni otras fuentes de supervisión. Los modelos se entrenan con 2 millones de videos recopilados de conjuntos de datos públicos y se evalúan en tareas posteriores de imagen y video. Nuestros resultados muestran que aprender prediciendo características de video permite obtener representaciones visuales versátiles que funcionan bien tanto en tareas basadas en movimiento como en apariencia, sin ajustar los parámetros del modelo; por ejemplo, nuestro modelo más grande, un ViT-H/16 entrenado solo con videos, alcanza 81.9% en Kinetics-400, 72.2% en Something-Something-v2 y 77.9% en ImageNet1K usando un backbone congelado.

Este trabajo explora la predicción de características como objetivo autónomo para el aprendizaje no supervisado a partir de video y presenta V-JEPA, una colección de modelos de visión entrenados únicamente con un objetivo de predicción de características, sin usar encoders de imagen preentrenados, texto, ejemplos negativos, reconstrucción u otras fuentes de supervisión. Los modelos se entrenan con 2 millones de videos recopilados de conjuntos de datos públicos y se evalúan en tareas posteriores de imagen y video. Nuestros resultados muestran que aprender al predecir características de video conduce a representaciones visuales versátiles que rinden bien en tareas basadas tanto en movimiento como en apariencia, sin adaptar los parámetros del modelo; por ejemplo, usando un backbone congelado, nuestro modelo más grande, un ViT-H/16 entrenado solo con videos, obtiene 81.9% en Kinetics-400, 72.2% en Something-Something-v2 y 77.9% en ImageNet1K.

Enlace del paper

https://ai.meta.com/research/publications/…

Lectura adicional

https://ai.meta.com/blog/…

https://github.com/facebookresearch/jepa

https://x.com/AIatMeta/status/1758176023588577326


LWM (Large World Model): modelo que usa RingAttention para video y lenguaje de un millón de longitud / World Model on Million-Length Video And Language With RingAttention

Presentación del paper

  • Un modelo multimodal de propósito general con contexto de 1M entrenado con RingAttention en videos largos y libros; establece nuevos benchmarks en tareas de recuperación difíciles y en la comprensión de videos largos; usa masked sequence packing para mezclar diferentes longitudes de secuencia, ponderación de pérdida y un conjunto de datos de QA generado por el modelo para chat de secuencias largas; y libera como código abierto una familia de modelos de 7B parámetros capaz de procesar textos y videos de más de 1M tokens.

    Un modelo multimodal de propósito general con contexto de 1M entrenado en videos largos y libros con RingAttention; establece nuevos benchmarks en tareas de recuperación difíciles y en comprensión de videos largos; usa masked sequence packing para combinar diferentes longitudes de secuencia, ponderación de pérdida y un conjunto de datos de QA generado por el modelo para chat de secuencia larga; libera como código abierto una familia de modelos de 7B parámetros capaces de procesar texto y videos de más de 1M tokens.

Resumen (Abstract)

  • Los modelos de lenguaje actuales tienen dificultades para entender aspectos del mundo que no se pueden describir fácilmente con palabras y presentan problemas con tareas complejas y de formato largo. Las secuencias de video aportan información temporal valiosa que no está presente en el lenguaje ni en imágenes estáticas, por lo que resultan atractivas para modelarlas conjuntamente con el lenguaje. Estos modelos podrían desarrollar una comprensión tanto del conocimiento textual humano como del mundo físico, lo que habilitaría capacidades de IA más amplias para asistir a las personas. Sin embargo, aprender a partir de millones de secuencias de tokens de video y lenguaje plantea retos por restricciones de memoria, complejidad computacional y conjuntos de datos limitados. Para abordar estos desafíos, recopilamos un dataset de gran escala con videos y libros diversos, usamos la técnica RingAttention para entrenar de forma escalable en secuencias largas y aumentamos gradualmente el tamaño del contexto de 4K a 1 millón de tokens. Este trabajo realiza las siguientes aportaciones: (a) el contexto más grande de red neuronal: entrenamos uno de los transformers de mayor contexto en secuencias largas de video y lenguaje, estableciendo nuevos benchmarks en tareas de recuperación difíciles y en la comprensión de videos largos. (b) soluciones para superar los desafíos del entrenamiento visión-lenguaje, incluyendo el uso de empaquetado de secuencias enmascaradas para mezclar diferentes longitudes de secuencia, ponderación de pérdidas para equilibrar lenguaje y visión, y un dataset de QA generado por el modelo para chat de secuencias largas. (c) una implementación altamente optimizada con RingAttention, empaquetado de secuencias enmascaradas y otras características clave para entrenar secuencias multimodales de longitud de millones. (d) publicamos completamente como código abierto una familia de modelos de 7B parámetros capaz de procesar documentos de texto largos (LWM-Text, LWM-Text-Chat) y videos (LWM, LWM-Chat) de más de 1 millón de tokens. Este trabajo allana el camino para entrenar sobre conjuntos de datos masivos de video y lenguaje largos para desarrollar comprensión del conocimiento humano y del mundo multimodal, y capacidades más amplias.

    Current language models fall short in understanding aspects of the world not easily described in words, and struggle with complex, long-form tasks. Video sequences offer valuable temporal information absent in language and static images, making them attractive for joint modeling with language. Such models could develop an understanding of both human textual knowledge and the physical world, enabling broader AI capabilities for assisting humans. However, learning from millions of tokens of video and language sequences poses challenges due to memory constraints, computational complexity, and limited datasets. To address these challenges, we curate a large dataset of diverse videos and books, utilize the RingAttention technique to scalably train on long sequences, and gradually increase context size from 4K to 1M tokens. This paper makes the following contributions: (a) Largest context size neural network: We train one of the largest context size transformers on long video and language sequences, setting new benchmarks in difficult retrieval tasks and long video understanding. (b) Solutions for overcoming vision-language training challenges, including using masked sequence packing for mixing different sequence lengths, loss weighting to balance language and vision, and model-generated QA dataset for long sequence chat. (c) A highly-optimized implementation with RingAttention, masked sequence packing, and other key features for training on millions-length multimodal sequences. (d) Fully open-sourced a family of 7B parameter models capable of processing long text documents (LWM-Text, LWM-Text-Chat) and videos (LWM, LWM-Chat) of over 1M tokens. This work paves the way for training on massive datasets of long video and language to develop understanding of both human knowledge and the multimodal world, and broader capabilities.

Enlaces del paper

https://arxiv.org/abs/2402.08268

Más lecturas

https://largeworldmodel.github.io/

https://huggingface.co/LargeWorldModel

https://x.com/haoliuhl/status/1757828392362389999


La frontera de la entrenabilidad de las redes neuronales es fractal / The boundary of neural network trainability is fractal

Presentación del paper

  • Descubrimos que la frontera entre las configuraciones de hiperparámetros de una red neuronal entrenable y no entrenable es fractal; observamos paisajes de hiperparámetros fractales para cada configuración de red neuronal y para redes profundas lineales; y además observamos que los mejores hiperparámetros en términos de rendimiento se encuentran en el borde de la estabilidad.

    Finds that the boundary between trainable and untrainable neural network hyperparameter configurations is fractal; observes fractal hyperparameter landscapes for every neural network configuration and deep linear networks; also observes that the best-performing hyperparameters are at the end of stability.

Resumen (Abstract)

  • Por ejemplo, algunos fractales asociados con los conjuntos de Mandelbrot y Julia cuadrático se calculan al iterar una función y definir el límite entre hiperparámetros para los que la serie resultante diverge o permanece acotada. El entrenamiento de redes neuronales ocurre de forma similar: también aplica repetidamente una función de actualización (por ejemplo, pasos repetidos de descenso de gradiente), puede producir comportamiento convergente o divergente y puede ser extremadamente sensible a cambios pequeños en los hiperparámetros. Inspirados por estas similitudes, se examina experimentalmente la frontera entre hiperparámetros de redes neuronales que llevan a entrenamiento estable y entrenamiento divergente. Encontramos que esta frontera tiene una forma fractal a lo largo de más de diez décadas de escala en todas las configuraciones probadas.

    Some fractals -- for instance those associated with the Mandelbrot and quadratic Julia sets -- are computed by iterating a function, and identifying the boundary between hyperparameters for which the resulting series diverges or remains bounded. Neural network training similarly involves iterating an update function (e.g. repeated steps of gradient descent), can result in convergent or divergent behavior, and can be extremely sensitive to small changes in hyperparameters. Motivated by these similarities, we experimentally examine the boundary between neural network hyperparameters that lead to stable and divergent training. We find that this boundary is fractal over more than ten decades of scale in all tested configurations.

Enlace del paper

https://arxiv.org/abs/2402.06184

Lectura adicional

https://x.com/jaschasd/status/1756930242965606582


OS-Copilot: Hacia agentes de computadora generalistas mediante auto-mejora / OS-Copilot: Towards Generalist Computer Agents with Self-Improvement

Introducción del paper

  • Un marco para construir agentes de computadora generalistas que interactúen con elementos clave de un sistema operativo como Linux o macOS; además propone un agente encarnado que se auto-mejora para automatizar tareas informáticas generales. Este agente supera en un 35% a los métodos anteriores en el benchmark de asistentes de IA general (GAIA).

    a framework to build generalist computer agents that interface with key elements of an operating system like linux or macos; it also proposes a self-improving embodied agent for automating general computer tasks; this agent outperforms the previous methods by 35% on the general ai assistants (gaia) benchmark.

Resumen (Abstract)

  • La interacción autónoma con la computadora ha sido un problema de larga data con gran potencial, y la reciente proliferación de modelos de lenguaje a gran escala (LLM) ha acelerado significativamente el progreso en la construcción de agentes digitales. Sin embargo, la mayoría de estos agentes están diseñados para interactuar con un dominio estrecho, como un software o un sitio web específico. Ese enfoque limitado restringe su aplicabilidad para tareas informáticas generales. Con este fin, presentamos OS-Copilot, un marco para construir agentes generalistas capaces de interactuar con elementos integrales del sistema operativo (OS), incluyendo la web, terminales de código, archivos, multimedia y varias aplicaciones de terceros. Utilizamos OS-Copilot para crear FRIDAY, un agente encarnado de auto-mejora para automatizar tareas informáticas generales. En GAIA, un benchmark de asistentes de IA general, FRIDAY supera a los métodos anteriores en un 35%, demostrando una fuerte capacidad de generalización a aplicaciones no vistas mediante habilidades acumuladas en tareas previas. También presentamos evidencia numérica y cuantitativa de que FRIDAY aprende a controlar y auto-mejorarse en Excel y PowerPoint con supervisión mínima. Nuestro marco OS-Copilot y los hallazgos empíricos brindan infraestructura y perspectivas para futuras investigaciones hacia agentes de computadora más capaces y de propósito general.

    Autonomous interaction with the computer has been a longstanding challenge with great potential, and the recent proliferation of large language models (LLMs) has markedly accelerated progress in building digital agents. However, most of these agents are designed to interact with a narrow domain, such as a specific software or website. This narrow focus constrains their applicability for general computer tasks. To this end, we introduce OS-Copilot, a framework to build generalist agents capable of interfacing with comprehensive elements in an operating system (OS), including the web, code terminals, files, multimedia, and various third-party applications. We use OS-Copilot to create FRIDAY, a self-improving embodied agent for automating general computer tasks. On GAIA, a general AI assistants benchmark, FRIDAY outperforms previous methods by 35%, showcasing strong generalization to unseen applications via accumulated skills from previous tasks. We also present numerical and quantitative evidence that FRIDAY learns to control and self-improve on Excel and Powerpoint with minimal supervision. Our OS-Copilot framework and empirical findings provide infrastructure and insights for future research toward more capable and general-purpose computer agents.

Enlace del paper

https://arxiv.org/abs/2402.07456

Lectura adicional

https://x.com/omarsar0/status/1757443594976206885


TestGen-LLM: Mejora automatizada de pruebas unitarias con modelos de lenguaje a gran escala en Meta / Automated Unit Test Improvement using Large Language Models at Meta

Introducción del paper

  • Tras una evaluación en productos de Reels y Stories de Instagram, reportan que el 75% de los casos de prueba de TestGen-LLM se construyeron correctamente, el 57% pasó de forma estable y la cobertura aumentó en un 25%.

    Uses llms to automatically improve existing human-written tests; reports that after an evaluation on reels and stories products for instagram, 75% of testgen-llm's test cases were built correctly, 57% passed reliably, and 25% increased coverage.

Resumen (Abstract)

  • Este paper describe la herramienta TestGen-LLM de Meta, que utiliza LLM para mejorar automáticamente pruebas existentes escritas por humanos. TestGen-LLM verifica que las clases de prueba generadas superen con éxito una serie de filtros que garantizan una mejora medible sobre la suite de pruebas original, eliminando así problemas causados por alucinaciones de LLM. También explica cómo se implementa TestGen-LLM en los test-a-thons de Meta para las plataformas Instagram y Facebook. En una evaluación sobre los productos Reels y Stories de Instagram, el 75% de los casos de prueba de TestGen-LLM se construyeron correctamente, el 57% pasó de forma confiable y el 25% aumentó la cobertura. Durante los test-a-thons de Meta de Instagram y Facebook, esta solución mejoró el 11.5% de todas las clases a las que se aplicó y el 73% de las recomendaciones fue aceptado para despliegue en producción por los ingenieros de software de Meta. Creemos que este es el primer informe sobre el despliegue a escala industrial de código generado por LLM respaldado por estas garantías de mejora del código.

    This paper describes Meta's TestGen-LLM tool, which uses LLMs to automatically improve existing human-written tests. TestGen-LLM verifies that its generated test classes successfully clear a set of filters that assure measurable improvement over the original test suite, thereby eliminating problems due to LLM hallucination. We describe the deployment of TestGen-LLM at Meta test-a-thons for the Instagram and Facebook platforms. In an evaluation on Reels and Stories products for Instagram, 75% of TestGen-LLM's test cases built correctly, 57% passed reliably, and 25% increased coverage. During Meta's Instagram and Facebook test-a-thons, it improved 11.5% of all classes to which it was applied, with 73% of its recommendations being accepted for production deployment by Meta software engineers. We believe this is the first report on industrial scale deployment of LLM-generated code backed by such assurances of code improvement.

Enlace del paper

https://arxiv.org/abs/2402.09171

Lectura adicional

https://x.com/nathanbenaich/status/1758036247115608317


ChemLLM: Modelo de lenguaje de gran escala para química / ChemLLM: A Chemical Large Language Model

Descripción del paper

  • Se trata de un LLM dedicado para tareas relacionadas con la química, que afirma ofrecer mejor rendimiento que GPT-3.5 en tareas clave como conversión de nombres, descripción molecular y predicción de reacciones, y además superar a GPT-4 en dos de estas tareas.

    A dedicated llm trained for chemistry-related tasks; claims to outperform gpt-3.5 on principal tasks such as name conversion, molecular caption, and reaction prediction; it also surpasses gpt-4 on two of these tasks.

Resumen del paper (Abstract)

  • Los modelos de lenguaje de gran escala (LLM) han logrado avances notables en química, incluyendo la predicción de propiedades moleculares, la generación de moléculas y el diseño de protocolos experimentales, entre otros campos. Sin embargo, la comunidad carece de un modelo basado en diálogo diseñado específicamente para química. Este problema surge en gran medida porque la mayoría de los datos químicos y el conocimiento científico se almacenan principalmente en bases de datos estructuradas, y el uso directo de estos datos estructurados compromete la capacidad del modelo para mantener un diálogo coherente. Para resolver esto, se desarrolló un nuevo método de construcción de instrucciones basado en plantillas que transforma el conocimiento estructurado en diálogo en texto plano, haciéndolo apto para el entrenamiento de modelos de lenguaje. Aprovechando este enfoque, se desarrolló ChemLLM, el primer gran modelo de lenguaje dedicado a la química, capaz de realizar con interacción conversacional fluida una amplia gama de tareas en toda la disciplina química. ChemLLM supera a GPT-3.5 en las tres tareas principales de química, esto es, conversión de nombres, descripción molecular y predicción de reacciones, y supera a GPT-4 en dos de ellas. Sorprendentemente, ChemLLM también muestra una adaptabilidad excepcional a tareas matemáticas y físicas relacionadas, pese a haber sido entrenado principalmente en corpus centrados en química. Además, ChemLLM demuestra dominio en tareas especializadas de NLP dentro de la química, como la traducción de literatura y la programación quimioinformática. ChemLLM abre una nueva vía de exploración en la investigación química, y nuestro método de integrar conocimiento químico estructurado en sistemas de diálogo abre un nuevo horizonte para desarrollar LLM en diversas áreas científicas. El código, los conjuntos de datos y los pesos del modelo están disponibles públicamente en hf.co/AI4Chem/ChemLLM-7B-Chat.

    Los modelos de lenguaje de gran escala (LLM) han hecho un progreso impresionante en aplicaciones de química, incluyendo la predicción de propiedades moleculares, la generación de moléculas, el diseño de protocolos experimentales, entre otros. Sin embargo, la comunidad carece de un modelo basado en diálogo diseñado específicamente para química. El desafío surge porque la mayor parte de los datos químicos y el conocimiento científico se almacenan principalmente en bases de datos estructuradas, y el uso directo de estos datos estructurados perjudica la capacidad del modelo para mantener un diálogo coherente. Para abordar este problema, desarrollamos un nuevo método de construcción de instrucciones basado en plantillas que transforma el conocimiento estructurado en diálogo simple, haciéndolo adecuado para el entrenamiento de modelos de lenguaje. Gracias a este enfoque, desarrollamos ChemLLM, el primer gran modelo de lenguaje dedicado a la química, capaz de realizar diversas tareas en todo el ámbito químico con una interacción conversacional fluida. ChemLLM supera a GPT-3.5 en las tres tareas principales de química, a saber, conversión de nombres, descripción molecular y predicción de reacciones, y supera a GPT-4 en dos de ellas. Sorprendentemente, ChemLLM también muestra una capacidad de adaptación excepcional para tareas matemáticas y físicas relacionadas pese a haber sido entrenado principalmente con corpus centrados en química. Además, ChemLLM demuestra competencia en tareas especializadas de NLP dentro de la química, como la traducción de literatura y la programación quimioinformática. ChemLLM abre una nueva vía para la exploración dentro de estudios químicos, mientras que nuestro método para integrar conocimiento químico estructurado en sistemas de diálogo abre un nuevo frente para el desarrollo de LLM en diversos campos científicos. Los códigos, los conjuntos de datos y los pesos del modelo están disponibles públicamente en hf.co/AI4Chem/ChemLLM-7B-Chat.

Enlaces del paper

https://arxiv.org/abs/2402.06852

Más información

https://hf.co/AI4Chem/ChemLLM-7B-Chat

https://x.com/omarsar0/status/1757246740539773165


Modelos de lenguaje de gran escala: revisión / Large Language Models: A Survey

Presentación del paper

  • Revisa tres familias populares de LLM (GPT, Llama, PaLM) y sus características, contribuciones y limitaciones; resume las capacidades y las técnicas desarrolladas para construir y potenciar LLM; también discute los conjuntos de datos más utilizados para el entrenamiento, el ajuste fino y la evaluación de LLM, y las métricas de evaluación de LLM; y concluye con los desafíos abiertos y las direcciones de investigación futuras.

    Revisa tres familias populares de llms (gpt, llama, palm), sus características, contribuciones y limitaciones; incluye un resumen de las capacidades y técnicas desarrolladas para construir y potenciar LLM; también analiza conjuntos de datos populares para entrenamiento, ajuste fino y evaluación de LLM, y métricas de evaluación de LLM; concluye con desafíos abiertos y futuras direcciones de investigación.

Resumen del paper (Abstract)

  • Los modelos de lenguaje de gran escala (LLM) han recibido mucha atención desde el lanzamiento de ChatGPT en noviembre de 2022 por su fuerte desempeño en una amplia gama de tareas de lenguaje natural. La capacidad de comprensión y generación lingüística de propósito general de los LLM se adquiere al entrenar miles de millones de parámetros del modelo con enormes cantidades de datos de texto, tal como predicen las leyes de escalamiento \cite{kaplan2020scaling,hoffmann2022training}. Aunque el campo de investigación de los LLM es muy reciente, está evolucionando rápidamente de muchas maneras. En este trabajo revisamos algunos de los LLM más destacados, incluidas tres familias populares de LLM (GPT, LLaMA, PaLM), y discutimos sus características, contribuciones y limitaciones. También ofrecemos una visión general de las técnicas desarrolladas para construir y potenciar los LLM. Luego examinamos los conjuntos de datos populares preparados para el entrenamiento, ajuste fino y evaluación de LLM, revisamos las métricas de evaluación más utilizadas y comparamos el rendimiento de varios LLM populares en un conjunto representativo de benchmarks. Finalmente, concluimos el documento discutiendo los desafíos abiertos y las futuras direcciones de investigación.

    Large Language Models (LLMs) have drawn a lot of attention due to their strong performance on a wide range of natural language tasks, since the release of ChatGPT in November 2022. LLMs' ability of general-purpose language understanding and generation is acquired by training billions of model's parameters on massive amounts of text data, as predicted by scaling laws \cite{kaplan2020scaling,hoffmann2022training}. The research area of LLMs, while very recent, is evolving rapidly in many different ways. In this paper, we review some of the most prominent LLMs, including three popular LLM families (GPT, LLaMA, PaLM), and discuss their characteristics, contributions and limitations. We also give an overview of techniques developed to build, and augment LLMs. We then survey popular datasets prepared for LLM training, fine-tuning, and evaluation, review widely used LLM evaluation metrics, and compare the performance of several popular LLMs on a set of representative benchmarks. Finally, we conclude the paper by discussing open challenges and future research directions.

Enlace del paper

https://arxiv.org/abs/2402.06196

Leer más

https://x.com/omarsar0/status/1757049645119799804


Los agentes de LLM pueden hackear sitios web de forma autónoma / LLM Agents can Autonomously Hack Websites

Introducción del paper

  • Muestra que los agentes de LLM pueden hackear sitios web automáticamente y realizar tareas como inyecciones SQL sin retroalimentación humana o conocimiento explícito previo de la vulnerabilidad. Esto es posible gracias al uso de herramientas y a la capacidad de contexto extendido de un LLM; y se muestra que GPT-4 puede llevar a cabo estos hacks, incluyendo encontrar vulnerabilidades en sitios web reales, pero que los modelos de código abierto no muestran estas capacidades.

    Shows that llm agents can automatically hack websites and perform tasks like sql injections without human feedback or explicit knowledge about the vulnerability beforehand; this is enabled by an llm’s tool usage and long context capabilities; shows that gpt-4 is capable of such hacks, including finding vulnerabilities in websites in the wild; open-source models did not show the same capabilities.

Resumen (Abstract)

  • En los últimos años, los modelos de lenguaje de gran escala (LLM) se han vuelto cada vez más capaces y ahora pueden interactuar con herramientas (es decir, invocar funciones), leer documentos y llamarse recursivamente a sí mismos. Como resultado, estos LLM ahora pueden funcionar de forma autónoma como agentes. Con el aumento de las capacidades de estos agentes, trabajos recientes han especulado sobre cómo afectarían la ciberseguridad. Sin embargo, no se sabe mucho sobre las capacidades ofensivas de los agentes LLM. En este trabajo, mostramos que los agentes LLM pueden hackear sitios web de forma autónoma, realizando tareas tan complejas como la extracción ciega de esquemas de bases de datos e inyecciones SQL sin retroalimentación humana. Importante: el agente no necesita conocer la vulnerabilidad con antelación. Esta capacidad está habilitada de forma exclusiva por modelos frontier con alta capacidad de uso de herramientas y aprovechamiento de contexto extendido. Es decir, mostramos que GPT-4 es capaz de dichos ataques, pero los modelos de código abierto existentes no lo son. Finalmente, mostramos que GPT-4 puede encontrar vulnerabilidades de forma autónoma en sitios web en vivo. Nuestros hallazgos plantean dudas sobre el despliegue masivo de LLM.

    In recent years, large language models (LLMs) have become increasingly capable and can now interact with tools (i.e., call functions), read documents, and recursively call themselves. As a result, these LLMs can now function autonomously as agents. With the rise in capabilities of these agents, recent work has speculated on how LLM agents would affect cybersecurity. However, not much is known about the offensive capabilities of LLM agents. In this work, we show that LLM agents can autonomously hack websites, performing tasks as complex as blind database schema extraction and SQL injections without human feedback. Importantly, the agent does not need to know the vulnerability beforehand. This capability is uniquely enabled by frontier models that are highly capable of tool use and leveraging extended context. Namely, we show that GPT-4 is capable of such hacks, but existing open-source models are not. Finally, we show that GPT-4 is capable of autonomously finding vulnerabilities in websites in the wild. Our findings raise questions about the widespread deployment of LLMs.

Enlace del paper

https://arxiv.org/abs/2402.06664v1

Leer más

https://x.com/emollick/status/1757937829340967240


Original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-325


⚠️Anuncio⚠️: ¿Te resultó útil este artículo compilado por el grupo PyTorch Korea User Group? Si te registras como miembro, te enviaremos por correo electrónico las entradas principales. (La configuración predeterminada es semanal, pero también puedes cambiarla a diario).

Aún no hay comentarios.

Aún no hay comentarios.