- Puede generar sonidos como "un perro ladrando en un parque", "el sonido de alguien silbando mientras sopla el viento" y "un hombre dando un discurso frente a una multitud que vitorea"
- La generación de audio tiene varios desafíos
- Es difícil separar los objetos que producen sonido, se vuelve más complejo por las diversas condiciones de grabación en entornos reales, y la falta de anotaciones sobre estas situaciones dificulta entrenar el modelo
- Para aliviar estos problemas, se propone una técnica de aumento (augmentation technique) que mezcla diversas muestras de audio y permite que el modelo aprenda internamente la técnica de separar múltiples fuentes
Aún no hay comentarios.