Stable Audio - difusión de audio latente con control temporal rápido

Modelo de difusión latente (Latent Diffusion Model)
- Un modelo de difusión que opera en el espacio de codificación latente de un autoencoder preentrenado
- Mejora en gran medida la velocidad de entrenamiento e inferencia de los modelos de difusión
Uno de los principales problemas al generar audio con modelos de difusión es que, por lo general, estos se entrenan para producir salidas de tamaño fijo
- Si se entrena con clips de audio de 30 segundos, solo puede generar audio en unidades de 30 segundos
- Esto se vuelve problemático cuando se intenta entrenar y generar audios con longitudes muy variables, como al crear una canción completa
Los modelos de difusión de audio tienden a entrenarse tomando fragmentos de audio recortados aleatoriamente de archivos largos y luego recortándolos o rellenándolos para ajustarlos a la longitud de entrenamiento del modelo de difusión
En música, esto hace que el modelo tienda a generar secciones arbitrarias de canciones que comienzan o terminan a la mitad de una frase musical
Stable Audio es un modelo de difusión latente para audio condicionado no solo por la longitud del archivo de audio y el tiempo de inicio, sino también por metadatos de texto
- Esta función de control temporal permite generar audio de una longitud especificada, hasta el tamaño de la ventana de entrenamiento
El modelo Stable Audio, que utiliza técnicas modernas de muestreo por difusión, puede generar 95 segundos de audio estéreo a una frecuencia de muestreo de 44.1 kHz en menos de 1 segundo en una GPU NVIDIA A100
Desarrollado por Harmonai, el laboratorio de investigación de audio generativo de Stability AI
Basado en el modelo U-Net de 907M (907 millones) de parámetros utilizado en Moûsai
El modelo Stable Audio fue entrenado con un conjunto de datos compuesto por más de 800,000 archivos de audio, que incluyen música, efectos de sonido y stems de instrumentos individuales proporcionados por el importante proveedor musical AudioSparx
Como trabajo futuro, planean mejorar la arquitectura del modelo, el conjunto de datos y el procedimiento de entrenamiento para mejorar la calidad de salida, la capacidad de control, la velocidad de inferencia y la duración de salida
Harmonai planea publicar modelos de código abierto basados en Stable Audio y código de entrenamiento para entrenar modelos de generación de audio

1 comentarios

GN⁺ 2023-09-14

Comentarios de Hacker News

Este artículo analiza 'Stable Audio', una tecnología de difusión de audio latente con condicionamiento temporal rápido.
Algunos usuarios consideran que la música de piano solo generada es limpia e interesante, y sugieren que podría convertirse fácilmente en partituras para usarla de forma más flexible.
En los campos del audio y lo visual, existe demanda de que la IA genere salidas más estructuradas o simbólicas, como capas o pinceladas en imágenes, o pistas de composición en música.
En particular, algunos usuarios con formación musical no quedaron impresionados por las piezas musicales generadas y las calificaron como repetitivas y poco imaginativas.
Esta tecnología podría tener potencial para generar música de fondo en juegos u otras aplicaciones donde la música de alta calidad no sea la prioridad.
Un usuario sugirió que esta tecnología podría usarse en Spotify para generar música adaptada a los gustos personales.
Hay interés en saber si el modelo admite o "entiende" conceptos de audio espacial, por ejemplo, un sonido de alarma que se mueve en círculo.
Algunos usuarios expresaron la necesidad de una tecnología que pueda aceptar entradas como melodías, progresiones de acordes o datos de interpretación, lo que sugiere el potencial de una nueva generación de herramientas de audio.
Algunos usuarios señalaron un efecto de "valle inquietante" en los ejemplos de audio, lo que significa que el sonido parece mezclado y carece de una voz musical clara.
A pesar de estas críticas, algunos usuarios expresaron agradecimiento por la existencia de esta tecnología, en contraste con las burlas previas de empresas como Google y Meta.

Stable Audio - difusión de audio latente con control temporal rápido

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News