Demo de Stable Audio
(stability-ai.github.io)- El demo de Stable Audio muestra con ejemplos de audio cómo un solo modelo genera tanto música de larga duración como efectos de sonido en estéreo a 44.1 kHz
- La generación musical se enfoca en crear distintos géneros y ambientes solo con prompts, como Berlin techno, uplifting acoustic loop, disco, spa lobby meditation y drum solo
- Los efectos de sonido cubren door slam, sports car, motorbike, fireworks y cave footsteps, y usan junto con el prompt frases como "high-quality, stereo"
- Los ejemplos comparativos están organizados para poder escuchar en paralelo los resultados de MusicGen-large, MusicGen-stereo, AudioLDM2 y Audiogen-medium con base en prompts de MusicCaps y AudioCaps
- Los ejemplos de reconstrucción del autoencoder permiten comprobar la fidelidad del audio comparando la grabación original con el resultado tras pasar por el modelo
Demo de Stable Audio y ejemplos de generación
- El sitio del demo puede no funcionar correctamente en Safari, por lo que se recomienda usar Google Chrome para la mejor experiencia
- Como materiales relacionados ofrece
arXiv,stable-audio-toolsystable-audio-metricsarXiv: artículo de Stable Audiostable-audio-tools: código para reproducir Stable Audiostable-audio-metrics: código para evaluar Stable Audio
- El modelo puede generar música estéreo de larga duración con longitud variable a 44.1 kHz
- Entre los prompts de ejemplo se incluyen Berlin techno, uplifting acoustic loop, disco, calm meditation music y drum solo
- Algunos prompts también especifican BPM, instrumentos, ambiente, estilo regional y si debe ser loop o no
- El mismo modelo también genera efectos de sonido estéreo a 44.1 kHz
- Entre los prompts de ejemplo se incluyen door slam, sports car passing by, motorbike passing by, fireworks y reverberant footsteps inside a large rocky cave
- Se indica que a los prompts de efectos de sonido se les añadió “high-quality, stereo” y que este enfoque suele ayudar en general
Comparación de modelos y reconstrucción del autoencoder
- La comparación de música de larga duración está organizada con base en prompts de MusicCaps
- Stable Audio: stereo, 44.1kHz
- MusicGen-large: mono, 32kHz
- MusicGen-stereo: stereo, 32kHz
- AudioLDM2: mono, 48kHz
- Los prompts y audios usados en la comparación se utilizaron en el estudio cualitativo reportado en el artículo
- La comparación de efectos de sonido usa prompts de AudioCaps
- Stable Audio: stereo, 44.1kHz
- Audiogen-medium: mono, 32kHz
- AudioLDM2: mono, 48kHz
- Los prompts de AudioCaps elegidos aleatoriamente no requieren un gran movimiento estéreo, por lo que los resultados se renderizan de forma relativamente no espacial
- La sección de autoencoder ofrece comparaciones de reconstrucción para evaluar la fidelidad del audio
- A la izquierda se coloca la grabación ground truth y a la derecha el resultado de pasar esa grabación ground truth por el autoencoder
- El resultado de la reconstrucción es bastante transparente y muy cercano al ground truth
1 comentarios
Opiniones en Hacker News
Curiosamente, Ed Newton-Rex, quien había sido contratado para crear Stable Audio, renunció poco después del lanzamiento por preocupaciones sobre derechos de autor y datos de entrenamiento.
Luego fundó https://www.fairlytrained.org/
Referencia: https://x.com/ednewtonrex
Incluso si un titular de derechos tiene decenas o cientos de millones de elementos de biblioteca, como imágenes o fragmentos de audio, con menos de mil millones de tokens de texto en un gran repositorio el rendimiento del codificador de un modelo generativo de texto a medio objetivo sería demasiado bajo. Esto también incluye Firefly de Adobe.
También es un malentendido creer que tener muchos datos similares en esas bibliotecas sea especialmente útil. Sin un codificador de texto potente, la mayoría de los modelos de texto a medio objetivo producirán resultados que se ven o suenan muy promedio.
La forma más sencilla de despejar estas sospechas es publicar la estructura del modelo.
En cualquier caso, aunque todo eso fuera cierto, la razón misma por la que hablamos de modelos de difusión y prestamos atención al trabajo de Fairly Trained es que alguien los entrenó con datos sin licencia explícita.
Era un puesto importante, pero “contratado para crear” hace pensar en un desarrollador líder o un investigador.
Su salida se entiende mejor si se considera que era un fundador con trayectoria musical.
O quizá eso era parte del proceso necesario para su propio modelo de negocio de certificación.
No lo veo distinto de que un artista haga música influenciado por la música que escuchó durante toda su vida. En el fondo es exactamente lo mismo, y la música o el arte no se pueden crear en el vacío.
Warning: This website may not function properly on Safari. For the best experience, please use Google Chrome.Se siente como si hubiéramos dado la vuelta completa hasta la época de Internet Explorer en los 90. Esta vez, al menos, la diferencia es que el navegador dominante es de código abierto.
Ojalá alguien hiciera para Chrome un botón GIF animado que diga “Best viewed with Google Chrome”.
Ver botón: https://indiscipline.github.io/post/best-viewed-in-google-ch...
Al igual que con Stable Diffusion, en este modelo los prompts de texto probablemente sean la forma más difícil de controlar para obtener resultados útiles.
Es fácil imaginar usar MIDI como entrada junto con ControlNet para convertirlo, en la práctica, en un sintetizador neuronal.
En cambio, es mejor enfocarse en usar IA para ayudar el proceso del artista en varias etapas de la producción musical.
Comparado con los modelos musicales más recientes, MusicGen y MusicLM, esto es increíblemente bueno. Parece que también hay una página de producto para usarlo por suscripción, al estilo Midjourney: https://www.stableaudio.com/
Lamentablemente no es un modelo con pesos publicados y tampoco parece haber API. Genera audio desde una UI con suscripción mensual, no es algo que un desarrollador pueda integrar o envolver.
Me pregunto por qué no queda simplemente incluido en la cláusula de “productos comerciales con menos de 100 mil usuarios activos mensuales” y tiene una cláusula aparte.
El ritmo de avance de los modelos es muy rápido, así que parece que será un año bastante importante para la música.
Creo que todavía hace falta una etapa en la que la IA primero aprenda cómo suena una biblioteca de sonidos de alta calidad y luego aplique esa capacidad aprendida para disparar los sonidos de esa biblioteca mediante MIDI.
Así se podría obtener tanto la creatividad de la IA musical como una calidad de audio perfecta.
No sé qué dataset o arquitectura podría aplicarse para algo así, pero sería realmente interesante.
No quiero restarle mérito al avance de acá; sí es impresionante.
Desde la perspectiva de un baterista, un “solo de batería” está entre las cosas más aburridas, y tiene sonidos raros mezclados. Al final dependerá del público al que apunte.
Como referencia, en el estado actual los efectos de sonido tampoco me suenan realistas.
Aun así, el progreso es grande y es un buen trabajo.
Por esa cualidad de parecer aleatorio pero no serlo del todo, salen patrones rítmicos bastante poco convencionales. Me gustaría poder meter síncopas así en el momento.
No me pidan transcribirlo a partitura.
La consistencia del tempo es excelente. Eso sí, el ruido innecesario y las resonancias aleatorias de los platillos muestran los límites del modelo.
Ya existen millones de pistas de música de librería y efectos de sonido que suenan muchísimo mejor. Para competir con eso haría falta una inversión enorme en IA generativa, y a diferencia del texto o las imágenes, no parece que tenga sentido económico.
Suena más o menos como alguien golpeando la batería al azar siguiendo el tempo.
En cambio, cosas tipo música de ascensor las hace más o menos bien, lo cual también encaja con lo esperado.
Es interesante que publiquen el código y guías amables para entrenar, pero no el modelo.
Es casi como si estuvieran rogándoles a personas anónimas que conecten el cargador de datos a sus cuentas de Apple Music y lo dejen correr a gusto. Por supuesto, nadie está sugiriendo que hagan eso.
Me ilusionó por un momento la idea de generar efectos de sonido, pero esos “pasos” son increíblemente malos.
¿Es correcto que no hay pesos públicos? Cuesta encontrar dónde dicen una cosa u otra.
Edit: Ah, no sabía que este comentario iba a ser polémico. Me habría gustado que respondieran la pregunta antes de votar negativo, pero bueno.
Referencia: https://github.com/Stability-AI/stable-audio-tools
“A los prompts de efectos de sonido normalmente les agregamos ‘high-quality, stereo’ porque suele ayudar.”
Es gracioso descubrir que si a un LLM simplemente le pides amablemente que produzca mejores resultados, la salida mejora.
Como siempre con las computadoras, hacen no lo que pretendíamos, sino lo que pedimos.