conjuntos de datos

xguru · 2024-06-21T09:46:01+09:00

Meta Fundamental AI Research (FAIR) publicó nuevos resultados de investigación Incluyen 6 resultados centrados en los temas clave de innovación, creatividad, eficiencia y responsabilidad Meta Chameleon Un modelo de arquitectura unificada que puede recibir texto e imágenes como entrada y producir una combinación de texto e imágenes como salida Como procesa texto e imágenes usando tokenización en lugar de entrenamiento basado en diffusion, permite un enfoque unificado y facilita el diseño, mantenimiento y escalado Se publicaron, bajo una licencia solo para investigación, los componentes principales de los modelos Chameleon 7B y 34B El modelo de generación de imágenes aún no se ha publicado Multi-Token Prediction Se propone un nuevo enfoque que predice varias palabras a la vez, en lugar del método tradicional de predecir una palabra por vez Mejora el rendimiento del modelo y la eficiencia del entrenamiento, y además aumenta la velocidad Se publicó un modelo preentrenado para autocompletado de código bajo una licencia no comercial/solo para investigación JASCO (Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation) Un modelo de generación de música a partir de texto que convierte prompts de texto en clips musicales Puede recibir varias entradas, como acordes o beats específicos, para controlar mejor la salida musical generada Aplica information bottleneck layer y temporal blurring para extraer información relacionada con controles específicos Según la evaluación, la calidad de generación es similar a la del modelo de referencia, pero permite un control mucho más diverso Se publicaron el paper de investigación y una página de muestras; más adelante también se publicarán el código de inferencia y el modelo preentrenado AudioSeal Una técnica de marca de agua de audio para detectar voz generada por IA Puede identificar con precisión las partes generadas por IA dentro de clips de audio más largos Mejora la velocidad y la eficiencia usando un método de detección local en lugar de algoritmos de decodificación complejos existentes Se publica bajo licencia comercial, como parte de una investigación para prevenir el uso indebido de diversas herramientas de IA generativa Apoyo a la publicación del conjunto de datos PRISM Para mejorar los LLM, es importante recibir retroalimentación de personas diversas En la comunidad de investigación han surgido dudas sobre los métodos, dominios y objetivos del proceso de retroalimentación Meta apoya la publicación del conjunto de datos PRISM, que mapea la demografía social y las preferencias de 1,500 participantes diversos de 75 países El conjunto de datos mapea las preferencias y la retroalimentación detallada de cada persona sobre 8,011 conversaciones en tiempo real con 21 LLM Esperan fomentar una participación más amplia en el desarrollo de IA y un enfoque de diseño tecnológico más inclusivo Medición y mejora de las brechas geográficas en sistemas de generación de texto a imagen Es importante que los modelos de texto a imagen funcionen bien para todas las personas y reflejen la diversidad geográfica y cultural del mundo Desarrollaron una métrica automática llamada "DIG In" para evaluar posibles brechas geográficas Reunieron más de 65,000 anotaciones y más de 20 respuestas de encuestas para estudiar cómo las personas perciben la representación geográfica Descubrieron que las personas reconocen la representación geográfica usando componentes específicos dentro de la imagen, más que la imagen completa Con base en esto, exploran formas de mejorar la diversidad de las salidas de los modelos de texto a imagen Introdujeron Contextualized Vendi Score guidance para aumentar la diversidad representacional de las muestras generadas, manteniendo la calidad de imagen y la consistencia entre prompt y generación

(ai.meta.com)

3 puntos por xguru 2024-06-21 | Aún no hay comentarios. | Compartir por WhatsApp

Meta Fundamental AI Research (FAIR) publicó nuevos resultados de investigación
Incluyen 6 resultados centrados en los temas clave de innovación, creatividad, eficiencia y responsabilidad

Meta Chameleon

Un modelo de arquitectura unificada que puede recibir texto e imágenes como entrada y producir una combinación de texto e imágenes como salida
- Como procesa texto e imágenes usando tokenización en lugar de entrenamiento basado en diffusion, permite un enfoque unificado y facilita el diseño, mantenimiento y escalado
- Se publicaron, bajo una licencia solo para investigación, los componentes principales de los modelos Chameleon 7B y 34B
- El modelo de generación de imágenes aún no se ha publicado

Multi-Token Prediction

Se propone un nuevo enfoque que predice varias palabras a la vez, en lugar del método tradicional de predecir una palabra por vez
- Mejora el rendimiento del modelo y la eficiencia del entrenamiento, y además aumenta la velocidad
- Se publicó un modelo preentrenado para autocompletado de código bajo una licencia no comercial/solo para investigación

JASCO (Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation)

Un modelo de generación de música a partir de texto que convierte prompts de texto en clips musicales
- Puede recibir varias entradas, como acordes o beats específicos, para controlar mejor la salida musical generada
- Aplica information bottleneck layer y temporal blurring para extraer información relacionada con controles específicos
- Según la evaluación, la calidad de generación es similar a la del modelo de referencia, pero permite un control mucho más diverso
- Se publicaron el paper de investigación y una página de muestras; más adelante también se publicarán el código de inferencia y el modelo preentrenado

AudioSeal

Una técnica de marca de agua de audio para detectar voz generada por IA
- Puede identificar con precisión las partes generadas por IA dentro de clips de audio más largos
- Mejora la velocidad y la eficiencia usando un método de detección local en lugar de algoritmos de decodificación complejos existentes
- Se publica bajo licencia comercial, como parte de una investigación para prevenir el uso indebido de diversas herramientas de IA generativa

Apoyo a la publicación del conjunto de datos PRISM

Para mejorar los LLM, es importante recibir retroalimentación de personas diversas
- En la comunidad de investigación han surgido dudas sobre los métodos, dominios y objetivos del proceso de retroalimentación
- Meta apoya la publicación del conjunto de datos PRISM, que mapea la demografía social y las preferencias de 1,500 participantes diversos de 75 países
- El conjunto de datos mapea las preferencias y la retroalimentación detallada de cada persona sobre 8,011 conversaciones en tiempo real con 21 LLM
- Esperan fomentar una participación más amplia en el desarrollo de IA y un enfoque de diseño tecnológico más inclusivo

Medición y mejora de las brechas geográficas en sistemas de generación de texto a imagen

Es importante que los modelos de texto a imagen funcionen bien para todas las personas y reflejen la diversidad geográfica y cultural del mundo
- Desarrollaron una métrica automática llamada "DIG In" para evaluar posibles brechas geográficas
- Reunieron más de 65,000 anotaciones y más de 20 respuestas de encuestas para estudiar cómo las personas perciben la representación geográfica
- Descubrieron que las personas reconocen la representación geográfica usando componentes específicos dentro de la imagen, más que la imagen completa
- Con base en esto, exploran formas de mejorar la diversidad de las salidas de los modelos de texto a imagen
- Introdujeron Contextualized Vendi Score guidance para aumentar la diversidad representacional de las muestras generadas, manteniendo la calidad de imagen y la consistencia entre prompt y generación