Demo de audio estable
(stability-ai.github.io)Aviso
- Es posible que este sitio web no funcione correctamente en Safari, y se recomienda usar Google Chrome para obtener la mejor experiencia.
Generación de audio estable
- El modelo puede generar música estéreo de 44.1kHz en varias duraciones, con ejemplos como techno de Berlín, rave, caja de ritmos, sintetizador y música de atmósfera oscura.
- A diferencia del modelo de última generación anterior, este modelo también puede generar efectos de sonido estéreo de 44.1kHz, con ejemplos como el sonido de una puerta al cerrarse, un deportivo o una motocicleta pasando, fuegos artificiales y pasos dentro de una cueva.
- Todos los ejemplos de este sitio web fueron creados con el mismo modelo, que puede generar tanto música como efectos de sonido en estéreo de 44.1kHz.
Generación prolongada de música estéreo: comparación con tecnología de punta
- Es posible evaluar la calidad de audio mediante la comparación entre el modelo que genera música con mandolina y silbidos, guitarra y flauta combinados, y otros modelos.
- También se compara la generación de música comercial con melodía de piano, redobles de caja, patrones de bombo, hi-hat, aplausos y una melodía principal de sintetizador.
Efectos de sonido: comparación con tecnología de punta
- Es posible evaluar la calidad de audio mediante la comparación entre el modelo que genera clics de motor, sonidos de altas revoluciones y pájaros gorjeando fuertemente, y otros modelos.
- Los prompts seleccionados no requieren un gran movimiento estéreo, por lo que muestran resultados de renderizado relativamente no espaciales.
Autoencoder: reconstrucción
- Para evaluar la fidelidad del audio, se compara la grabación original con la grabación después de pasar por el autoencoder.
- La reconstrucción del autoencoder es muy similar al original, a un nivel casi transparente.
Opinión de GN⁺
- Esta tecnología representa un avance importante en el campo de la generación de música y efectos de sonido, y destaca especialmente por su capacidad para generar sonido estéreo de alta calidad.
- La comparación con los modelos más recientes permite evaluar objetivamente la calidad de audio superior de este modelo, por lo que se espera que sea una herramienta útil para creadores de contenido de audio.
- La comparación de reconstrucción mediante autoencoder muestra que esta tecnología puede restaurar el audio original con gran precisión, lo que sugiere su potencial de uso en aplicaciones sensibles a la calidad del sonido.
1 comentarios
Opinión de Hacker News
Ed Newton-Rex renunció poco después del lanzamiento de Stable Audio debido a preocupaciones sobre los derechos de autor y los datos de entrenamiento.
La situación de los 90 y de Internet Explorer se está repitiendo, pero esta vez es positivo que el navegador dominante sea de código abierto.
Al igual que con Stable Diffusion, los prompts de texto probablemente serán la forma más difícil de controlar para obtener resultados útiles.
Stable Audio es muy superior a los modelos musicales SOTA actuales (MusicGen, MusicLM).
Sigue haciendo falta una etapa en la que la IA aprenda bibliotecas de sonido de alta calidad y, a través de MIDI, active los sonidos de esa biblioteca.
Como baterista, el "solo de batería" es aburrido, mezcla sonidos extraños y todavía no suena realista.
El código y las instrucciones de entrenamiento fueron publicados, pero el modelo no.
Es curioso haber descubierto que agregar el prompt "alta calidad, estéreo" por lo general ayuda.
La idea de generar efectos de sonido pareció interesante por un momento, pero los "sonidos de pasos" son muy malos.
Se puede generar música muy distintiva e interesante con el prompt "música enérgica, violín, voces, orquesta, piano, minimalismo, John Adams, Nixon in China".