AudioGen: generación de audio usando texto descriptivo de situaciones

xguru · 2022-10-04T10:28:48+09:00

Puede generar sonidos como "un perro ladrando en un parque", "el sonido de alguien silbando mientras sopla el viento" y "un hombre dando un discurso frente a una multitud que vitorea" La generación de audio tiene varios desafíos Es difícil separar los objetos que producen sonido, se vuelve más complejo por las diversas condiciones de grabación en entornos reales, y la falta de anotaciones sobre estas situaciones dificulta entrenar el modelo Para aliviar estos problemas, se propone una técnica de aumento (augmentation technique) que mezcla diversas muestras de audio y permite que el modelo aprenda internamente la técnica de separar múltiples fuentes

(felixkreuk.github.io)

12 puntos por xguru 2022-10-04 | Aún no hay comentarios. | Compartir por WhatsApp

Puede generar sonidos como "un perro ladrando en un parque", "el sonido de alguien silbando mientras sopla el viento" y "un hombre dando un discurso frente a una multitud que vitorea"
La generación de audio tiene varios desafíos
- Es difícil separar los objetos que producen sonido, se vuelve más complejo por las diversas condiciones de grabación en entornos reales, y la falta de anotaciones sobre estas situaciones dificulta entrenar el modelo
Para aliviar estos problemas, se propone una técnica de aumento (augmentation technique) que mezcla diversas muestras de audio y permite que el modelo aprenda internamente la técnica de separar múltiples fuentes

AudioGen: generación de audio usando texto descriptivo de situaciones

Lecturas relacionadas

Aún no hay comentarios.