5 puntos por GN⁺ 2023-09-14 | 1 comentarios | Compartir por WhatsApp
  • Modelo de difusión latente (Latent Diffusion Model)
    • Un modelo de difusión que opera en el espacio de codificación latente de un autoencoder preentrenado
    • Mejora en gran medida la velocidad de entrenamiento e inferencia de los modelos de difusión
  • Uno de los principales problemas al generar audio con modelos de difusión es que, por lo general, estos se entrenan para producir salidas de tamaño fijo
    • Si se entrena con clips de audio de 30 segundos, solo puede generar audio en unidades de 30 segundos
    • Esto se vuelve problemático cuando se intenta entrenar y generar audios con longitudes muy variables, como al crear una canción completa
  • Los modelos de difusión de audio tienden a entrenarse tomando fragmentos de audio recortados aleatoriamente de archivos largos y luego recortándolos o rellenándolos para ajustarlos a la longitud de entrenamiento del modelo de difusión
  • En música, esto hace que el modelo tienda a generar secciones arbitrarias de canciones que comienzan o terminan a la mitad de una frase musical
  • Stable Audio es un modelo de difusión latente para audio condicionado no solo por la longitud del archivo de audio y el tiempo de inicio, sino también por metadatos de texto
    • Esta función de control temporal permite generar audio de una longitud especificada, hasta el tamaño de la ventana de entrenamiento
  • El modelo Stable Audio, que utiliza técnicas modernas de muestreo por difusión, puede generar 95 segundos de audio estéreo a una frecuencia de muestreo de 44.1 kHz en menos de 1 segundo en una GPU NVIDIA A100
  • Desarrollado por Harmonai, el laboratorio de investigación de audio generativo de Stability AI
  • Basado en el modelo U-Net de 907M (907 millones) de parámetros utilizado en Moûsai
  • El modelo Stable Audio fue entrenado con un conjunto de datos compuesto por más de 800,000 archivos de audio, que incluyen música, efectos de sonido y stems de instrumentos individuales proporcionados por el importante proveedor musical AudioSparx
  • Como trabajo futuro, planean mejorar la arquitectura del modelo, el conjunto de datos y el procedimiento de entrenamiento para mejorar la calidad de salida, la capacidad de control, la velocidad de inferencia y la duración de salida
  • Harmonai planea publicar modelos de código abierto basados en Stable Audio y código de entrenamiento para entrenar modelos de generación de audio

1 comentarios

 
GN⁺ 2023-09-14
Comentarios de Hacker News
  • Este artículo analiza 'Stable Audio', una tecnología de difusión de audio latente con condicionamiento temporal rápido.
  • Algunos usuarios consideran que la música de piano solo generada es limpia e interesante, y sugieren que podría convertirse fácilmente en partituras para usarla de forma más flexible.
  • En los campos del audio y lo visual, existe demanda de que la IA genere salidas más estructuradas o simbólicas, como capas o pinceladas en imágenes, o pistas de composición en música.
  • En particular, algunos usuarios con formación musical no quedaron impresionados por las piezas musicales generadas y las calificaron como repetitivas y poco imaginativas.
  • Esta tecnología podría tener potencial para generar música de fondo en juegos u otras aplicaciones donde la música de alta calidad no sea la prioridad.
  • Un usuario sugirió que esta tecnología podría usarse en Spotify para generar música adaptada a los gustos personales.
  • Hay interés en saber si el modelo admite o "entiende" conceptos de audio espacial, por ejemplo, un sonido de alarma que se mueve en círculo.
  • Algunos usuarios expresaron la necesidad de una tecnología que pueda aceptar entradas como melodías, progresiones de acordes o datos de interpretación, lo que sugiere el potencial de una nueva generación de herramientas de audio.
  • Algunos usuarios señalaron un efecto de "valle inquietante" en los ejemplos de audio, lo que significa que el sonido parece mezclado y carece de una voz musical clara.
  • A pesar de estas críticas, algunos usuarios expresaron agradecimiento por la existencia de esta tecnología, en contraste con las burlas previas de empresas como Google y Meta.