Nvidia presenta Fugatto, un modelo flexible de IA para generación de sonido
(blogs.nvidia.com)- Modelo de IA para generación de sonido, "Fugatto", que permite controlar la salida de audio usando texto
- Puede realizar diversas tareas como generación musical, cambio de entonación o emoción en la voz, y agregar o eliminar instrumentos de música existente
- También puede generar sonidos completamente nuevos que nunca antes se habían escuchado
- Fugatto puede generar o transformar música, voz y sonidos ambientales a partir de texto o archivos de audio
- Fue diseñado para entender y generar sonidos de forma similar a la humana
-
"Permite aprendizaje multitarea no supervisado, liberando nuevo potencial en la escala de datos y de modelos"
Diversos casos de uso
- Producción musical: permite experimentar y modificar al instante el estilo de una canción, la voz y los instrumentos
- Publicidad: optimiza campañas adaptando la voz según la región o la situación
- Aprendizaje de idiomas: ofrece contenido de aprendizaje personalizado con la voz que el usuario elija
- Desarrollo de videojuegos: transforma o genera nuevos recursos de audio según la situación del juego
- Crear sonidos nuevos: como la "silla de aguacate" de la IA de generación de imágenes
- Por ejemplo, puede generar el sonido de una trompeta ladrando como un perro (
bark) o de un saxofón maullando como un gato (meow) - También puede realizar tareas para las que no fue preentrenado, como generar voces cantadas de alta calidad a partir de prompts de texto mediante ajuste fino y una pequeña cantidad de datos de canciones
- Por ejemplo, puede generar el sonido de una trompeta ladrando como un perro (
Ofrece Artistic Control (control artístico) al usuario
- Funciones de control orientadas al usuario
- Combina múltiples instrucciones mediante la tecnología ComposableART
- Permite ajustar en detalle las instrucciones de texto: por ejemplo, combinar un acento francés con una emoción triste
- Controla la evolución del sonido con interpolación temporal: por ejemplo, generar un paisaje lluvioso en el que el trueno se va desvaneciendo gradualmente
- Ofrece al usuario una libertad sin precedentes para crear sonidos
Características técnicas
- Modelo de IA generativa entrenado con 250 millones de parámetros usando sistemas NVIDIA DGX y GPUs H100
- Refuerzo del soporte multilingüe y de acentos gracias a la colaboración de un equipo de investigación multinacional
- Se creó un conjunto de entrenamiento con millones de muestras de audio
- Se mejoró el rendimiento mediante un nuevo análisis de las relaciones entre los datos
- Obtener los datos de entrenamiento y escalar el modelo tomó más de un año
- Se sorprendieron al lograr generar música con el primer prompt de texto, y una demo que combinaba música electrónica con ladridos de perro provocó carcajadas y confirmó las posibilidades a futuro
Aún no hay comentarios.