3 puntos por xguru 2024-11-27 | Aún no hay comentarios. | Compartir por WhatsApp
  • Modelo de IA para generación de sonido, "Fugatto", que permite controlar la salida de audio usando texto
    • Puede realizar diversas tareas como generación musical, cambio de entonación o emoción en la voz, y agregar o eliminar instrumentos de música existente
    • También puede generar sonidos completamente nuevos que nunca antes se habían escuchado
  • Fugatto puede generar o transformar música, voz y sonidos ambientales a partir de texto o archivos de audio
    • Fue diseñado para entender y generar sonidos de forma similar a la humana
    • "Permite aprendizaje multitarea no supervisado, liberando nuevo potencial en la escala de datos y de modelos"

Diversos casos de uso

  • Producción musical: permite experimentar y modificar al instante el estilo de una canción, la voz y los instrumentos
  • Publicidad: optimiza campañas adaptando la voz según la región o la situación
  • Aprendizaje de idiomas: ofrece contenido de aprendizaje personalizado con la voz que el usuario elija
  • Desarrollo de videojuegos: transforma o genera nuevos recursos de audio según la situación del juego
  • Crear sonidos nuevos: como la "silla de aguacate" de la IA de generación de imágenes
    • Por ejemplo, puede generar el sonido de una trompeta ladrando como un perro (bark) o de un saxofón maullando como un gato (meow)
    • También puede realizar tareas para las que no fue preentrenado, como generar voces cantadas de alta calidad a partir de prompts de texto mediante ajuste fino y una pequeña cantidad de datos de canciones

Ofrece Artistic Control (control artístico) al usuario

  • Funciones de control orientadas al usuario
    • Combina múltiples instrucciones mediante la tecnología ComposableART
    • Permite ajustar en detalle las instrucciones de texto: por ejemplo, combinar un acento francés con una emoción triste
    • Controla la evolución del sonido con interpolación temporal: por ejemplo, generar un paisaje lluvioso en el que el trueno se va desvaneciendo gradualmente
  • Ofrece al usuario una libertad sin precedentes para crear sonidos

Características técnicas

  • Modelo de IA generativa entrenado con 250 millones de parámetros usando sistemas NVIDIA DGX y GPUs H100
  • Refuerzo del soporte multilingüe y de acentos gracias a la colaboración de un equipo de investigación multinacional
  • Se creó un conjunto de entrenamiento con millones de muestras de audio
    • Se mejoró el rendimiento mediante un nuevo análisis de las relaciones entre los datos
  • Obtener los datos de entrenamiento y escalar el modelo tomó más de un año
  • Se sorprendieron al lograr generar música con el primer prompt de texto, y una demo que combinaba música electrónica con ladridos de perro provocó carcajadas y confirmó las posibilidades a futuro

Aún no hay comentarios.

Aún no hay comentarios.