- Modelo de difusión latente (Latent Diffusion Model)
- Un modelo de difusión que opera en el espacio de codificación latente de un autoencoder preentrenado
- Mejora en gran medida la velocidad de entrenamiento e inferencia de los modelos de difusión
- Uno de los principales problemas al generar audio con modelos de difusión es que, por lo general, estos se entrenan para producir salidas de tamaño fijo
- Si se entrena con clips de audio de 30 segundos, solo puede generar audio en unidades de 30 segundos
- Esto se vuelve problemático cuando se intenta entrenar y generar audios con longitudes muy variables, como al crear una canción completa
- Los modelos de difusión de audio tienden a entrenarse tomando fragmentos de audio recortados aleatoriamente de archivos largos y luego recortándolos o rellenándolos para ajustarlos a la longitud de entrenamiento del modelo de difusión
- En música, esto hace que el modelo tienda a generar secciones arbitrarias de canciones que comienzan o terminan a la mitad de una frase musical
- Stable Audio es un modelo de difusión latente para audio condicionado no solo por la longitud del archivo de audio y el tiempo de inicio, sino también por metadatos de texto
- Esta función de control temporal permite generar audio de una longitud especificada, hasta el tamaño de la ventana de entrenamiento
- El modelo Stable Audio, que utiliza técnicas modernas de muestreo por difusión, puede generar 95 segundos de audio estéreo a una frecuencia de muestreo de 44.1 kHz en menos de 1 segundo en una GPU NVIDIA A100
- Desarrollado por Harmonai, el laboratorio de investigación de audio generativo de Stability AI
- Basado en el modelo U-Net de 907M (907 millones) de parámetros utilizado en Moûsai
- El modelo Stable Audio fue entrenado con un conjunto de datos compuesto por más de 800,000 archivos de audio, que incluyen música, efectos de sonido y stems de instrumentos individuales proporcionados por el importante proveedor musical AudioSparx
- Como trabajo futuro, planean mejorar la arquitectura del modelo, el conjunto de datos y el procedimiento de entrenamiento para mejorar la calidad de salida, la capacidad de control, la velocidad de inferencia y la duración de salida
- Harmonai planea publicar modelos de código abierto basados en Stable Audio y código de entrenamiento para entrenar modelos de generación de audio
1 comentarios
Comentarios de Hacker News