- Genera voz y efectos de sonido combinando entrada de voz y prompts de texto en lenguaje natural
- Permite crear fácilmente audio personalizado para distintos casos de uso
- Mejora Voicebox, presentado a inicios de este año, integrando funciones de generación y edición para voz, efectos de sonido (como ladridos de perro, bocinas de automóvil, truenos y otros sonidos breves y discontinuos) y soundscapes, y maximiza el control para cada caso de uso mediante diversos mecanismos de entrada
- Se pueden usar prompts en lenguaje natural para describir el sonido o el tipo de voz que se quiere generar
- Es posible generar un soundscape con prompts como "un río corriendo y pájaros cantando"
- También se puede generar la voz deseada ingresando "una mujer joven hablando con tono agudo y a gran velocidad"
- Al combinar entrada de voz en audio y un prompt de estilo en texto, se puede sintetizar esa voz en cualquier entorno (por ejemplo, "en una catedral") o con cualquier emoción (por ejemplo, "habla triste y lentamente")
- Es el primer modelo que admite doble entrada (prompt de voz y prompt descriptivo en texto) para modificar libremente el estilo de voz
- Muestra un rendimiento más de 30% superior a Voicebox en similitud de estilo a través de diversos estilos de voz
- Meta está poniendo Audiobox a disposición de investigadores y entidades académicas cuidadosamente seleccionados con trayectoria en investigación de voz, para ayudar a impulsar el estado del arte en este campo y asegurar diversos socios que puedan abordar los aspectos de IA responsable de este trabajo
1 comentarios
Meta presenta Voicebox, un modelo de IA generativa para voz