8 puntos por xguru 2023-12-12 | 1 comentarios | Compartir por WhatsApp
  • Genera voz y efectos de sonido combinando entrada de voz y prompts de texto en lenguaje natural
    • Permite crear fácilmente audio personalizado para distintos casos de uso
  • Mejora Voicebox, presentado a inicios de este año, integrando funciones de generación y edición para voz, efectos de sonido (como ladridos de perro, bocinas de automóvil, truenos y otros sonidos breves y discontinuos) y soundscapes, y maximiza el control para cada caso de uso mediante diversos mecanismos de entrada
  • Se pueden usar prompts en lenguaje natural para describir el sonido o el tipo de voz que se quiere generar
    • Es posible generar un soundscape con prompts como "un río corriendo y pájaros cantando"
    • También se puede generar la voz deseada ingresando "una mujer joven hablando con tono agudo y a gran velocidad"
  • Al combinar entrada de voz en audio y un prompt de estilo en texto, se puede sintetizar esa voz en cualquier entorno (por ejemplo, "en una catedral") o con cualquier emoción (por ejemplo, "habla triste y lentamente")
    • Es el primer modelo que admite doble entrada (prompt de voz y prompt descriptivo en texto) para modificar libremente el estilo de voz
  • Muestra un rendimiento más de 30% superior a Voicebox en similitud de estilo a través de diversos estilos de voz
  • Meta está poniendo Audiobox a disposición de investigadores y entidades académicas cuidadosamente seleccionados con trayectoria en investigación de voz, para ayudar a impulsar el estado del arte en este campo y asegurar diversos socios que puedan abordar los aspectos de IA responsable de este trabajo