Nvidia presenta Fugatto, un modelo flexible de IA para generación de sonido

xguru · 2024-11-27T11:20:01+09:00

Modelo de IA para generación de sonido, "Fugatto", que permite controlar la salida de audio usando texto Puede realizar diversas tareas como generación musical, cambio de entonación o emoción en la voz, y agregar o eliminar instrumentos de música existente También puede generar sonidos completamente nuevos que nunca antes se habían escuchado Fugatto puede generar o transformar música, voz y sonidos ambientales a partir de texto o archivos de audio Fue diseñado para entender y generar sonidos de forma similar a la humana "Permite aprendizaje multitarea no supervisado, liberando nuevo potencial en la escala de datos y de modelos" Diversos casos de uso Producción musical: permite experimentar y modificar al instante el estilo de una canción, la voz y los instrumentos Publicidad: optimiza campañas adaptando la voz según la región o la situación Aprendizaje de idiomas: ofrece contenido de aprendizaje personalizado con la voz que el usuario elija Desarrollo de videojuegos: transforma o genera nuevos recursos de audio según la situación del juego Crear sonidos nuevos: como la "silla de aguacate" de la IA de generación de imágenes Por ejemplo, puede generar el sonido de una trompeta ladrando como un perro (bark) o de un saxofón maullando como un gato (meow) También puede realizar tareas para las que no fue preentrenado, como generar voces cantadas de alta calidad a partir de prompts de texto mediante ajuste fino y una pequeña cantidad de datos de canciones Ofrece Artistic Control (control artístico) al usuario Funciones de control orientadas al usuario Combina múltiples instrucciones mediante la tecnología ComposableART Permite ajustar en detalle las instrucciones de texto: por ejemplo, combinar un acento francés con una emoción triste Controla la evolución del sonido con interpolación temporal: por ejemplo, generar un paisaje lluvioso en el que el trueno se va desvaneciendo gradualmente Ofrece al usuario una libertad sin precedentes para crear sonidos Características técnicas Modelo de IA generativa entrenado con 250 millones de parámetros usando sistemas NVIDIA DGX y GPUs H100 Refuerzo del soporte multilingüe y de acentos gracias a la colaboración de un equipo de investigación multinacional Se creó un conjunto de entrenamiento con millones de muestras de audio Se mejoró el rendimiento mediante un nuevo análisis de las relaciones entre los datos Obtener los datos de entrenamiento y escalar el modelo tomó más de un año Se sorprendieron al lograr generar música con el primer prompt de texto, y una demo que combinaba música electrónica con ladridos de perro provocó carcajadas y confirmó las posibilidades a futuro

(blogs.nvidia.com)

3 puntos por xguru 2024-11-27 | Aún no hay comentarios. | Compartir por WhatsApp

Modelo de IA para generación de sonido, "Fugatto", que permite controlar la salida de audio usando texto
- Puede realizar diversas tareas como generación musical, cambio de entonación o emoción en la voz, y agregar o eliminar instrumentos de música existente
- También puede generar sonidos completamente nuevos que nunca antes se habían escuchado
Fugatto puede generar o transformar música, voz y sonidos ambientales a partir de texto o archivos de audio
- Fue diseñado para entender y generar sonidos de forma similar a la humana
- "Permite aprendizaje multitarea no supervisado, liberando nuevo potencial en la escala de datos y de modelos"

Diversos casos de uso

Producción musical: permite experimentar y modificar al instante el estilo de una canción, la voz y los instrumentos
Publicidad: optimiza campañas adaptando la voz según la región o la situación
Aprendizaje de idiomas: ofrece contenido de aprendizaje personalizado con la voz que el usuario elija
Desarrollo de videojuegos: transforma o genera nuevos recursos de audio según la situación del juego
Crear sonidos nuevos: como la "silla de aguacate" de la IA de generación de imágenes
- Por ejemplo, puede generar el sonido de una trompeta ladrando como un perro (bark) o de un saxofón maullando como un gato (meow)
- También puede realizar tareas para las que no fue preentrenado, como generar voces cantadas de alta calidad a partir de prompts de texto mediante ajuste fino y una pequeña cantidad de datos de canciones

Ofrece Artistic Control (control artístico) al usuario

Funciones de control orientadas al usuario
- Combina múltiples instrucciones mediante la tecnología ComposableART
- Permite ajustar en detalle las instrucciones de texto: por ejemplo, combinar un acento francés con una emoción triste
- Controla la evolución del sonido con interpolación temporal: por ejemplo, generar un paisaje lluvioso en el que el trueno se va desvaneciendo gradualmente
Ofrece al usuario una libertad sin precedentes para crear sonidos

Características técnicas

Modelo de IA generativa entrenado con 250 millones de parámetros usando sistemas NVIDIA DGX y GPUs H100
Refuerzo del soporte multilingüe y de acentos gracias a la colaboración de un equipo de investigación multinacional
Se creó un conjunto de entrenamiento con millones de muestras de audio
- Se mejoró el rendimiento mediante un nuevo análisis de las relaciones entre los datos
Obtener los datos de entrenamiento y escalar el modelo tomó más de un año
Se sorprendieron al lograr generar música con el primer prompt de texto, y una demo que combinaba música electrónica con ladridos de perro provocó carcajadas y confirmó las posibilidades a futuro

Nvidia presenta Fugatto, un modelo flexible de IA para generación de sonido

Diversos casos de uso

Ofrece Artistic Control (control artístico) al usuario

Características técnicas

Lecturas relacionadas

Aún no hay comentarios.