1 puntos por GN⁺ 2023-07-18 | 1 comentarios | Compartir por WhatsApp
  • SoundStorm es un modelo para la generación de audio eficiente y no autoregresiva.
  • Este modelo usa atención bidireccional y decodificación paralela basada en confianza para generar tokens de audio.
  • En comparación con otros enfoques, SoundStorm es 100 veces más rápido mientras mantiene la misma calidad y consistencia de audio.
  • En TPU-v4, SoundStorm puede generar 30 segundos de audio en solo 0.5 segundos.
  • Este modelo puede sintetizar conversaciones naturales de alta calidad controlando el contenido hablado, la voz del hablante y los cambios de hablante.
  • SoundStorm puede generar audio basado en tokens semánticos junto con un prompt de voz.
  • Este modelo genera audio de alta calidad manteniendo la voz del hablante a partir de un prompt de voz.
  • SoundStorm genera audio de mayor calidad que otros modelos.
  • Como este modelo puede verse afectado por los sesgos de los datos de entrenamiento, se requiere precaución para evitar un uso indebido.
  • SoundStorm puede ser detectado por un clasificador dedicado, lo que reduce el riesgo de uso indebido.
  • Este modelo fue desarrollado para hacer que la investigación en generación de audio sea más accesible para una comunidad más amplia.

1 comentarios

 
GN⁺ 2023-07-18
Opiniones de Hacker News
  • La industria del CGI ha logrado avances considerables para crear imágenes y audio realistas.
  • La tecnología de síntesis de diálogo ha alcanzado un hito en el que las máquinas producen sonidos indistinguibles de los humanos.
  • En el pasado, la tecnología TTS a veces sonaba mal, pero ahora existen opciones de alta calidad.
  • El autor se pregunta cuándo esta tecnología estará disponible en dispositivos como la Raspberry Pi.
  • Bing y Bard usan tecnología de voz avanzada, pero se desea que estos avances estén disponibles mediante APIs públicas e interfaces de usuario.
  • Los nuevos trabajos creados por el progreso tecnológico a menudo son mal pagados y poco dignos.
  • SoundStorm fue entrenado para generar diálogos usando transcripciones que marcan los cambios de voz con |.
  • El modelo Bark también genera diálogos, pero a veces omite los cambios de voz.
  • La capacidad de generar 30 segundos de TTS con solo 3 segundos de material fuente es impresionante.
  • Es posible que mercados laborales como UpWork y Fiverr tengan que adaptarse a la disponibilidad de software que puede realizar sus propios servicios.
  • Los usuarios de Linux están buscando voces TTS fáciles de configurar.
  • A quien comenta no le interesan los juegos generados por IA y prefiere diálogos de NPC escritos por humanos.
  • Los ejemplos de salida de SoundStorm son impresionantes, aunque tienen algunos defectos sutiles.
  • Usar voces generadas por IA en publicidad sin autorización podría ocasionar problemas legales.
  • Se proporciona un enlace de GitHub al repositorio de SoundStorm PyTorch.