- Meta Fundamental AI Research (FAIR) publicó nuevos resultados de investigación
- Incluyen 6 resultados centrados en los temas clave de innovación, creatividad, eficiencia y responsabilidad
Meta Chameleon
- Un modelo de arquitectura unificada que puede recibir texto e imágenes como entrada y producir una combinación de texto e imágenes como salida
- Como procesa texto e imágenes usando tokenización en lugar de entrenamiento basado en diffusion, permite un enfoque unificado y facilita el diseño, mantenimiento y escalado
- Se publicaron, bajo una licencia solo para investigación, los componentes principales de los modelos Chameleon 7B y 34B
- El modelo de generación de imágenes aún no se ha publicado
Multi-Token Prediction
- Se propone un nuevo enfoque que predice varias palabras a la vez, en lugar del método tradicional de predecir una palabra por vez
- Mejora el rendimiento del modelo y la eficiencia del entrenamiento, y además aumenta la velocidad
- Se publicó un modelo preentrenado para autocompletado de código bajo una licencia no comercial/solo para investigación
JASCO (Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation)
- Un modelo de generación de música a partir de texto que convierte prompts de texto en clips musicales
- Puede recibir varias entradas, como acordes o beats específicos, para controlar mejor la salida musical generada
- Aplica information bottleneck layer y temporal blurring para extraer información relacionada con controles específicos
- Según la evaluación, la calidad de generación es similar a la del modelo de referencia, pero permite un control mucho más diverso
- Se publicaron el paper de investigación y una página de muestras; más adelante también se publicarán el código de inferencia y el modelo preentrenado
AudioSeal
- Una técnica de marca de agua de audio para detectar voz generada por IA
- Puede identificar con precisión las partes generadas por IA dentro de clips de audio más largos
- Mejora la velocidad y la eficiencia usando un método de detección local en lugar de algoritmos de decodificación complejos existentes
- Se publica bajo licencia comercial, como parte de una investigación para prevenir el uso indebido de diversas herramientas de IA generativa
Apoyo a la publicación del conjunto de datos PRISM
- Para mejorar los LLM, es importante recibir retroalimentación de personas diversas
- En la comunidad de investigación han surgido dudas sobre los métodos, dominios y objetivos del proceso de retroalimentación
- Meta apoya la publicación del conjunto de datos PRISM, que mapea la demografía social y las preferencias de 1,500 participantes diversos de 75 países
- El conjunto de datos mapea las preferencias y la retroalimentación detallada de cada persona sobre 8,011 conversaciones en tiempo real con 21 LLM
- Esperan fomentar una participación más amplia en el desarrollo de IA y un enfoque de diseño tecnológico más inclusivo
Medición y mejora de las brechas geográficas en sistemas de generación de texto a imagen
- Es importante que los modelos de texto a imagen funcionen bien para todas las personas y reflejen la diversidad geográfica y cultural del mundo
- Desarrollaron una métrica automática llamada "DIG In" para evaluar posibles brechas geográficas
- Reunieron más de 65,000 anotaciones y más de 20 respuestas de encuestas para estudiar cómo las personas perciben la representación geográfica
- Descubrieron que las personas reconocen la representación geográfica usando componentes específicos dentro de la imagen, más que la imagen completa
- Con base en esto, exploran formas de mejorar la diversidad de las salidas de los modelos de texto a imagen
- Introdujeron Contextualized Vendi Score guidance para aumentar la diversidad representacional de las muestras generadas, manteniendo la calidad de imagen y la consistencia entre prompt y generación
Aún no hay comentarios.