3 puntos por xguru 2024-06-21 | Aún no hay comentarios. | Compartir por WhatsApp
  • Meta Fundamental AI Research (FAIR) publicó nuevos resultados de investigación
  • Incluyen 6 resultados centrados en los temas clave de innovación, creatividad, eficiencia y responsabilidad

Meta Chameleon

  • Un modelo de arquitectura unificada que puede recibir texto e imágenes como entrada y producir una combinación de texto e imágenes como salida
    • Como procesa texto e imágenes usando tokenización en lugar de entrenamiento basado en diffusion, permite un enfoque unificado y facilita el diseño, mantenimiento y escalado
    • Se publicaron, bajo una licencia solo para investigación, los componentes principales de los modelos Chameleon 7B y 34B
    • El modelo de generación de imágenes aún no se ha publicado

Multi-Token Prediction

  • Se propone un nuevo enfoque que predice varias palabras a la vez, en lugar del método tradicional de predecir una palabra por vez
    • Mejora el rendimiento del modelo y la eficiencia del entrenamiento, y además aumenta la velocidad
    • Se publicó un modelo preentrenado para autocompletado de código bajo una licencia no comercial/solo para investigación

JASCO (Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation)

  • Un modelo de generación de música a partir de texto que convierte prompts de texto en clips musicales
    • Puede recibir varias entradas, como acordes o beats específicos, para controlar mejor la salida musical generada
    • Aplica information bottleneck layer y temporal blurring para extraer información relacionada con controles específicos
    • Según la evaluación, la calidad de generación es similar a la del modelo de referencia, pero permite un control mucho más diverso
    • Se publicaron el paper de investigación y una página de muestras; más adelante también se publicarán el código de inferencia y el modelo preentrenado

AudioSeal

  • Una técnica de marca de agua de audio para detectar voz generada por IA
    • Puede identificar con precisión las partes generadas por IA dentro de clips de audio más largos
    • Mejora la velocidad y la eficiencia usando un método de detección local en lugar de algoritmos de decodificación complejos existentes
    • Se publica bajo licencia comercial, como parte de una investigación para prevenir el uso indebido de diversas herramientas de IA generativa

Apoyo a la publicación del conjunto de datos PRISM

  • Para mejorar los LLM, es importante recibir retroalimentación de personas diversas
    • En la comunidad de investigación han surgido dudas sobre los métodos, dominios y objetivos del proceso de retroalimentación
    • Meta apoya la publicación del conjunto de datos PRISM, que mapea la demografía social y las preferencias de 1,500 participantes diversos de 75 países
    • El conjunto de datos mapea las preferencias y la retroalimentación detallada de cada persona sobre 8,011 conversaciones en tiempo real con 21 LLM
    • Esperan fomentar una participación más amplia en el desarrollo de IA y un enfoque de diseño tecnológico más inclusivo

Medición y mejora de las brechas geográficas en sistemas de generación de texto a imagen

  • Es importante que los modelos de texto a imagen funcionen bien para todas las personas y reflejen la diversidad geográfica y cultural del mundo
    • Desarrollaron una métrica automática llamada "DIG In" para evaluar posibles brechas geográficas
    • Reunieron más de 65,000 anotaciones y más de 20 respuestas de encuestas para estudiar cómo las personas perciben la representación geográfica
    • Descubrieron que las personas reconocen la representación geográfica usando componentes específicos dentro de la imagen, más que la imagen completa
    • Con base en esto, exploran formas de mejorar la diversidad de las salidas de los modelos de texto a imagen
    • Introdujeron Contextualized Vendi Score guidance para aumentar la diversidad representacional de las muestras generadas, manteniendo la calidad de imagen y la consistencia entre prompt y generación

Aún no hay comentarios.

Aún no hay comentarios.