1 puntos por GN⁺ 2024-02-14 | 1 comentarios | Compartir por WhatsApp
  • El demo de Stable Audio muestra con ejemplos de audio cómo un solo modelo genera tanto música de larga duración como efectos de sonido en estéreo a 44.1 kHz
  • La generación musical se enfoca en crear distintos géneros y ambientes solo con prompts, como Berlin techno, uplifting acoustic loop, disco, spa lobby meditation y drum solo
  • Los efectos de sonido cubren door slam, sports car, motorbike, fireworks y cave footsteps, y usan junto con el prompt frases como "high-quality, stereo"
  • Los ejemplos comparativos están organizados para poder escuchar en paralelo los resultados de MusicGen-large, MusicGen-stereo, AudioLDM2 y Audiogen-medium con base en prompts de MusicCaps y AudioCaps
  • Los ejemplos de reconstrucción del autoencoder permiten comprobar la fidelidad del audio comparando la grabación original con el resultado tras pasar por el modelo

Demo de Stable Audio y ejemplos de generación

  • El sitio del demo puede no funcionar correctamente en Safari, por lo que se recomienda usar Google Chrome para la mejor experiencia
  • Como materiales relacionados ofrece arXiv, stable-audio-tools y stable-audio-metrics
    • arXiv: artículo de Stable Audio
    • stable-audio-tools: código para reproducir Stable Audio
    • stable-audio-metrics: código para evaluar Stable Audio
  • El modelo puede generar música estéreo de larga duración con longitud variable a 44.1 kHz
    • Entre los prompts de ejemplo se incluyen Berlin techno, uplifting acoustic loop, disco, calm meditation music y drum solo
    • Algunos prompts también especifican BPM, instrumentos, ambiente, estilo regional y si debe ser loop o no
  • El mismo modelo también genera efectos de sonido estéreo a 44.1 kHz
    • Entre los prompts de ejemplo se incluyen door slam, sports car passing by, motorbike passing by, fireworks y reverberant footsteps inside a large rocky cave
    • Se indica que a los prompts de efectos de sonido se les añadió “high-quality, stereo” y que este enfoque suele ayudar en general

Comparación de modelos y reconstrucción del autoencoder

  • La comparación de música de larga duración está organizada con base en prompts de MusicCaps
    • Stable Audio: stereo, 44.1kHz
    • MusicGen-large: mono, 32kHz
    • MusicGen-stereo: stereo, 32kHz
    • AudioLDM2: mono, 48kHz
    • Los prompts y audios usados en la comparación se utilizaron en el estudio cualitativo reportado en el artículo
  • La comparación de efectos de sonido usa prompts de AudioCaps
    • Stable Audio: stereo, 44.1kHz
    • Audiogen-medium: mono, 32kHz
    • AudioLDM2: mono, 48kHz
    • Los prompts de AudioCaps elegidos aleatoriamente no requieren un gran movimiento estéreo, por lo que los resultados se renderizan de forma relativamente no espacial
  • La sección de autoencoder ofrece comparaciones de reconstrucción para evaluar la fidelidad del audio
    • A la izquierda se coloca la grabación ground truth y a la derecha el resultado de pasar esa grabación ground truth por el autoencoder
    • El resultado de la reconstrucción es bastante transparente y muy cercano al ground truth

1 comentarios

 
GN⁺ 2024-02-14
Opiniones en Hacker News
  • Curiosamente, Ed Newton-Rex, quien había sido contratado para crear Stable Audio, renunció poco después del lanzamiento por preocupaciones sobre derechos de autor y datos de entrenamiento.
    Luego fundó https://www.fairlytrained.org/
    Referencia: https://x.com/ednewtonrex

    • En los modelos generativos, si el creador no revela la estructura del modelo y se trata de un modelo que convierte texto a otro medio, se puede asumir que delegó parte del trabajo a un codificador de texto, o algo de función similar, entrenado con datos sin licencia explícita.
      Incluso si un titular de derechos tiene decenas o cientos de millones de elementos de biblioteca, como imágenes o fragmentos de audio, con menos de mil millones de tokens de texto en un gran repositorio el rendimiento del codificador de un modelo generativo de texto a medio objetivo sería demasiado bajo. Esto también incluye Firefly de Adobe.
      También es un malentendido creer que tener muchos datos similares en esas bibliotecas sea especialmente útil. Sin un codificador de texto potente, la mayoría de los modelos de texto a medio objetivo producirán resultados que se ven o suenan muy promedio.
      La forma más sencilla de despejar estas sospechas es publicar la estructura del modelo.
      En cualquier caso, aunque todo eso fuera cierto, la razón misma por la que hablamos de modelos de difusión y prestamos atención al trabajo de Fairly Trained es que alguien los entrenó con datos sin licencia explícita.
    • Llamarlo “la persona contratada para crear Stable Audio” es un poco engañoso. Él ocupaba un cargo ejecutivo como VP de producto del grupo de audio de Stability.
      Era un puesto importante, pero “contratado para crear” hace pensar en un desarrollador líder o un investigador.
      Su salida se entiende mejor si se considera que era un fundador con trayectoria musical.
    • Es una interpretación interesante, pero también es una postura bastante rara, porque cuando se unió a Stability, la forma en que se entrenó Stable Diffusion ya era bien conocida.
    • Aunque la empresa lo fuera a hacer de todos modos, uno pensaría que pudo haberlo considerado antes de trabajar ahí.
      O quizá eso era parte del proceso necesario para su propio modelo de negocio de certificación.
    • Debería haber una solución para las barreras de derechos de autor que enfrentan las empresas al entrenar modelos.
      No lo veo distinto de que un artista haga música influenciado por la música que escuchó durante toda su vida. En el fondo es exactamente lo mismo, y la música o el arte no se pueden crear en el vacío.
  • Warning: This website may not function properly on Safari. For the best experience, please use Google Chrome.
    Se siente como si hubiéramos dado la vuelta completa hasta la época de Internet Explorer en los 90. Esta vez, al menos, la diferencia es que el navegador dominante es de código abierto.
    Ojalá alguien hiciera para Chrome un botón GIF animado que diga “Best viewed with Google Chrome”.

  • Al igual que con Stable Diffusion, en este modelo los prompts de texto probablemente sean la forma más difícil de controlar para obtener resultados útiles.
    Es fácil imaginar usar MIDI como entrada junto con ControlNet para convertirlo, en la práctica, en un sintetizador neuronal.

    • Correcto. Desde que trabajaba en un proyecto de melodías con IA hace dos años (https://www.melodies.ai/), pensé que crear canciones completas de alta calidad solo con texto no sería viable ni deseable por un buen tiempo.
      En cambio, es mejor enfocarse en usar IA para ayudar el proceso del artista en varias etapas de la producción musical.
    • En música puede ser así. Pero para efectos de sonido, creo que los prompts de texto son una interfaz de usuario bastante buena.
    • Lo ideal sería introducir una grabación de audio de alguien tarareando o cantando una melodía junto con un prompt de texto, y que el sistema devuelva una pista parecida.
    • Funciona bien cuando no se necesita mucho control. Por ejemplo, un prompt como “solo de free jazz de un saxofonista tenor, sin compás”.
    • ¿Qué otras entradas hay en Stable Diffusion además de prompts de texto? ¿Te refieres a cosas como img2img y ControlNet?
  • Comparado con los modelos musicales más recientes, MusicGen y MusicLM, esto es increíblemente bueno. Parece que también hay una página de producto para usarlo por suscripción, al estilo Midjourney: https://www.stableaudio.com/
    Lamentablemente no es un modelo con pesos publicados y tampoco parece haber API. Genera audio desde una UI con suscripción mensual, no es algo que un desarrollador pueda integrar o envolver.

    • Quería crear efectos de sonido para un juego en el que estoy trabajando, pero por lo que veo parece que se necesita una licencia enterprise (https://www.stableaudio.com/pricing)
      Me pregunto por qué no queda simplemente incluido en la cláusula de “productos comerciales con menos de 100 mil usuarios activos mensuales” y tiene una cláusula aparte.
    • Dicen que pronto saldrán una versión con licencia CC y una API.
      El ritmo de avance de los modelos es muy rápido, así que parece que será un año bastante importante para la música.
    • Por suerte, también se puede entrenar en casa. La pregunta más grande son los datos.
  • Creo que todavía hace falta una etapa en la que la IA primero aprenda cómo suena una biblioteca de sonidos de alta calidad y luego aplique esa capacidad aprendida para disparar los sonidos de esa biblioteca mediante MIDI.
    Así se podría obtener tanto la creatividad de la IA musical como una calidad de audio perfecta.

    • Siempre quise algo así también para la IA de generación de imágenes. Más que una mejora iterativa casi mágica sobre una imagen terminada, creo que sería mucho más genial e interesante ver a la IA intentando pintar o colorear con pinceladas.
      No sé qué dataset o arquitectura podría aplicarse para algo así, pero sería realmente interesante.
    • ¿Cómo se conseguiría con MIDI, por ejemplo, una guitarra tocada de forma áspera o el eco sutil que aparece en una grabación hecha en un baño?
    • ¿No es eso lo que hace suno.ai?
  • No quiero restarle mérito al avance de acá; sí es impresionante.
    Desde la perspectiva de un baterista, un “solo de batería” está entre las cosas más aburridas, y tiene sonidos raros mezclados. Al final dependerá del público al que apunte.
    Como referencia, en el estado actual los efectos de sonido tampoco me suenan realistas.
    Aun así, el progreso es grande y es un buen trabajo.

    • Desde la perspectiva de un baterista, si se piensa como algo que ocurre sobre un pulso estable de 4/4, ese “solo de batería” fue sorprendentemente interesante de escuchar.
      Por esa cualidad de parecer aleatorio pero no serlo del todo, salen patrones rítmicos bastante poco convencionales. Me gustaría poder meter síncopas así en el momento.
      No me pidan transcribirlo a partitura.
      La consistencia del tempo es excelente. Eso sí, el ruido innecesario y las resonancias aleatorias de los platillos muestran los límites del modelo.
    • Es un intento impresionante, pero todavía está lejísimos de generar música o sonidos realmente utilizables.
      Ya existen millones de pistas de música de librería y efectos de sonido que suenan muchísimo mejor. Para competir con eso haría falta una inversión enorme en IA generativa, y a diferencia del texto o las imágenes, no parece que tenga sentido económico.
    • Me decepcionó más que las muestras musicales no tengan transiciones. La mayoría de las canciones tienen modulaciones o cambios de percusión.
    • El solo de batería muestra muy bien cuánto se le escapa a este modelo la esencia de un solo de batería. No soy baterista, pero no resulta nada agradable de escuchar.
      Suena más o menos como alguien golpeando la batería al azar siguiendo el tempo.
      En cambio, cosas tipo música de ascensor las hace más o menos bien, lo cual también encaja con lo esperado.
  • Es interesante que publiquen el código y guías amables para entrenar, pero no el modelo.
    Es casi como si estuvieran rogándoles a personas anónimas que conecten el cargador de datos a sus cuentas de Apple Music y lo dejen correr a gusto. Por supuesto, nadie está sugiriendo que hagan eso.

    • Si tuviera que adivinar, quizá como condición para recibir la biblioteca de audio de stock licenciada de AudioSparx para entrenamiento había una cláusula que impedía redistribuir el modelo resultante.
  • Me ilusionó por un momento la idea de generar efectos de sonido, pero esos “pasos” son increíblemente malos.

    • Probé la generación de música en stableaudio.com y sí, es mala. Aun así, como el desarrollo de estos modelos avanza tan rápido, no me sorprendería que en 1 o 2 años mejoren de forma impresionante.
  • ¿Es correcto que no hay pesos públicos? Cuesta encontrar dónde dicen una cosa u otra.
    Edit: Ah, no sabía que este comentario iba a ser polémico. Me habría gustado que respondieran la pregunta antes de votar negativo, pero bueno.

  • “A los prompts de efectos de sonido normalmente les agregamos ‘high-quality, stereo’ porque suele ayudar.”
    Es gracioso descubrir que si a un LLM simplemente le pides amablemente que produzca mejores resultados, la salida mejora.

    • A veces uno puede querer el sonido de un casete viejo, o el de un disco de 78 rpm todavía más viejo y rayado.
      Como siempre con las computadoras, hacen no lo que pretendíamos, sino lo que pedimos.