Stable Audio 2.0

(stability.ai)

7 puntos por GN⁺ 2024-04-06 | 1 comentarios | Compartir por WhatsApp

Stable Audio 2.0 presenta un nuevo estándar de pistas completas de alta calidad generadas por IA, de hasta 3 minutos de duración y en estéreo de 44.1 kHz
Introduce una función de generación audio a audio que permite a los usuarios subir muestras y transformarlas usando prompts en lenguaje natural
Fue entrenado exclusivamente con un dataset licenciado de la biblioteca musical AudioSparx, respetando las solicitudes de exclusión voluntaria de los creadores y garantizando una compensación justa
Puedes explorar el modelo y comenzar a crear gratis en el sitio web de Stable Audio

Nuevas funciones

Puede generar canciones de hasta 3 minutos, con composiciones estructuradas que incluyen intro, desarrollo y outro, además de efectos de sonido estéreo
Generación Audio-To-Audio: permite subir archivos de audio para convertir ideas en muestras completamente producidas. Los términos del servicio exigen subir solo material libre de derechos de autor y usan reconocimiento avanzado de contenido para evitar infracciones
Generación de variaciones y efectos de sonido: amplía la producción de distintos sonidos y efectos de audio, desde el tecleo en un teclado hasta los gritos de una multitud o el zumbido de una calle urbana
Transferencia de estilo: modifica sin interrupciones audio recién generado o subido dentro del proceso de generación para ajustarlo al estilo y tono específicos de un proyecto

La arquitectura de modelo de difusión latente de Stable Audio 2.0 fue diseñada para permitir la generación estructurada de pistas completas
Para lograrlo, todos los componentes del sistema fueron ajustados para mejorar el rendimiento en periodos prolongados
Un nuevo autoencoder altamente comprimido reduce la forma de onda de audio crudo a una representación mucho más corta
Se usa un Diffusion Transformer (DiT) en lugar del U-Net anterior, ya que es más hábil para manipular datos a lo largo de secuencias largas

Al igual que el modelo 1.0, la versión 2.0 fue entrenada con datos de AudioSparx, que incluyen más de 800,000 archivos de música, efectos de sonido, stems de instrumentos individuales y su metadata textual correspondiente
Todos los artistas de AudioSparx tienen la opción de excluirse del entrenamiento de los modelos Stable Audio
Para proteger los derechos de los titulares de copyright, al subir audio se asocian con AudibleMagic y usan su tecnología de reconocimiento de contenido (ACR) para evitar infracciones mediante coincidencia de contenido en tiempo real

Stable Radio es una transmisión en vivo 24/7 compuesta únicamente por pistas generadas por Stable Audio, y se está emitiendo en el canal de YouTube de Stable Audio
Puedes explorar el modelo y comenzar a crear gratis en el sitio web de Stable Audio.

Stable Audio 2.0 tiene el potencial de innovar la industria musical al ofrecer a los creadores herramientas creativas impulsadas por IA. Su capacidad para entender la intención del usuario mediante lenguaje natural y convertirla en música puede simplificar el proceso creativo y abrir oportunidades para que más personas participen en la producción musical.
Uno de los problemas que esta tecnología podría traer es el copyright. Aunque la empresa afirma haber tomado medidas para prevenir infracciones, las cuestiones legales relacionadas con la propiedad del contenido generado por IA siguen siendo complejas.
Al introducir IA en la producción musical, uno de los aspectos a considerar es cómo se perciben la originalidad y el valor artístico de la música generada por IA. Hace falta debatir si la IA puede imitar o reemplazar la creatividad humana y qué impacto tendría eso en la industria musical.
Entre los beneficios de usar herramientas de generación musical con IA están la reducción del tiempo de creación, la experimentación con distintos estilos y géneros musicales, y la posibilidad de crear música sin necesitar un conocimiento profundo de teoría musical o de ejecución instrumental.
Considerando el posible impacto positivo de esta tecnología en la educación musical, podría ayudar a estudiantes de teoría musical a explorar y comprender distintos estilos y estructuras musicales.

GN⁺ 2024-04-06

La música de IA es impresionante, pero se siente que le falta algo porque no parece transmitir la intención ni la emoción que tiene la música hecha por humanos.
No se menciona nada sobre los derechos de autor del audio generado por IA, así que hay un tema importante sobre la propiedad de los resultados.
Le di a la IA un beat que hice hace 10 años y sonó como si hubieran metido un estéreo en una lavadora. Parece que necesita un dataset más grande, pero estoy considerando suscribirme.
Está bien que Stability AI use un dataset con licencia para garantizar una compensación justa a los creadores.
Es técnicamente impresionante, pero la música generada por IA es mediocre. Un músico moderno de electrónica puede hacer algo mejor.
Qué lástima que Stability AI no sea open source. Ojalá no siga el mismo camino que OpenAI.
La IA intenta reconstruir samples de audio de manera parecida, pero no es lo mismo que una batería y una guitarra tocadas de verdad. Aun así, es interesante y espero que salga una versión mejorada en el futuro.
La música synthwave para escuchar mientras programo ya me aburrió, así que estaba buscando algo nuevo, y parece que la IA podría generar playlists infinitas "suficientemente buenas".
No logré generar nada interesante con IA. El sitio es difícil de usar.
Me pregunto si existe una interfaz estilo ComfyUI para modelos de audio.