1 puntos por GN⁺ 2024-02-14 | 1 comentarios | Compartir por WhatsApp

Aviso

  • Es posible que este sitio web no funcione correctamente en Safari, y se recomienda usar Google Chrome para obtener la mejor experiencia.

Generación de audio estable

  • El modelo puede generar música estéreo de 44.1kHz en varias duraciones, con ejemplos como techno de Berlín, rave, caja de ritmos, sintetizador y música de atmósfera oscura.
  • A diferencia del modelo de última generación anterior, este modelo también puede generar efectos de sonido estéreo de 44.1kHz, con ejemplos como el sonido de una puerta al cerrarse, un deportivo o una motocicleta pasando, fuegos artificiales y pasos dentro de una cueva.
  • Todos los ejemplos de este sitio web fueron creados con el mismo modelo, que puede generar tanto música como efectos de sonido en estéreo de 44.1kHz.

Generación prolongada de música estéreo: comparación con tecnología de punta

  • Es posible evaluar la calidad de audio mediante la comparación entre el modelo que genera música con mandolina y silbidos, guitarra y flauta combinados, y otros modelos.
  • También se compara la generación de música comercial con melodía de piano, redobles de caja, patrones de bombo, hi-hat, aplausos y una melodía principal de sintetizador.

Efectos de sonido: comparación con tecnología de punta

  • Es posible evaluar la calidad de audio mediante la comparación entre el modelo que genera clics de motor, sonidos de altas revoluciones y pájaros gorjeando fuertemente, y otros modelos.
  • Los prompts seleccionados no requieren un gran movimiento estéreo, por lo que muestran resultados de renderizado relativamente no espaciales.

Autoencoder: reconstrucción

  • Para evaluar la fidelidad del audio, se compara la grabación original con la grabación después de pasar por el autoencoder.
  • La reconstrucción del autoencoder es muy similar al original, a un nivel casi transparente.

Opinión de GN⁺

  • Esta tecnología representa un avance importante en el campo de la generación de música y efectos de sonido, y destaca especialmente por su capacidad para generar sonido estéreo de alta calidad.
  • La comparación con los modelos más recientes permite evaluar objetivamente la calidad de audio superior de este modelo, por lo que se espera que sea una herramienta útil para creadores de contenido de audio.
  • La comparación de reconstrucción mediante autoencoder muestra que esta tecnología puede restaurar el audio original con gran precisión, lo que sugiere su potencial de uso en aplicaciones sensibles a la calidad del sonido.

1 comentarios

 
GN⁺ 2024-02-14
Opinión de Hacker News
  • Ed Newton-Rex renunció poco después del lanzamiento de Stable Audio debido a preocupaciones sobre los derechos de autor y los datos de entrenamiento.

    En Safari, es posible que el sitio web no funcione correctamente. Para la mejor experiencia, se recomienda usar Google Chrome.

  • La situación de los 90 y de Internet Explorer se está repitiendo, pero esta vez es positivo que el navegador dominante sea de código abierto.

    • Alguien pide que le hagan un botón GIF animado que diga que lo mejor es verlo solo en Chrome.
  • Al igual que con Stable Diffusion, los prompts de texto probablemente serán la forma más difícil de controlar para obtener resultados útiles.

    • Se espera poder obtener un sintetizador neuronal usando MIDI como entrada.
  • Stable Audio es muy superior a los modelos musicales SOTA actuales (MusicGen, MusicLM).

    • Se puede usar suscribiéndose en la página del producto Stable Audio, pero no ofrece una API que los desarrolladores puedan integrar o aprovechar.
  • Sigue haciendo falta una etapa en la que la IA aprenda bibliotecas de sonido de alta calidad y, a través de MIDI, active los sonidos de esa biblioteca.

    • Con eso, la calidad de audio podría ser perfecta y al mismo tiempo mantener la creatividad de la IA musical.
  • Como baterista, el "solo de batería" es aburrido, mezcla sonidos extraños y todavía no suena realista.

    • Aun así, el avance logrado es enorme e impresionante.
  • El código y las instrucciones de entrenamiento fueron publicados, pero el modelo no.

    • En la práctica, eso equivale a invitar a usuarios anónimos a experimentar conectando un cargador de datos a una cuenta de Apple Music.
  • Es curioso haber descubierto que agregar el prompt "alta calidad, estéreo" por lo general ayuda.

    • Resulta interesante que en los LLM se puedan obtener mejores resultados simplemente pidiéndolos.
  • La idea de generar efectos de sonido pareció interesante por un momento, pero los "sonidos de pasos" son muy malos.

  • Se puede generar música muy distintiva e interesante con el prompt "música enérgica, violín, voces, orquesta, piano, minimalismo, John Adams, Nixon in China".