Audiobox - el nuevo modelo fundacional de Meta para generación de audio

xguru · 2023-12-12T09:40:47+09:00

Genera voz y efectos de sonido combinando entrada de voz y prompts de texto en lenguaje natural Permite crear fácilmente audio personalizado para distintos casos de uso Mejora Voicebox, presentado a inicios de este año, integrando funciones de generación y edición para voz, efectos de sonido (como ladridos de perro, bocinas de automóvil, truenos y otros sonidos breves y discontinuos) y soundscapes, y maximiza el control para cada caso de uso mediante diversos mecanismos de entrada Se pueden usar prompts en lenguaje natural para describir el sonido o el tipo de voz que se quiere generar Es posible generar un soundscape con prompts como "un río corriendo y pájaros cantando" También se puede generar la voz deseada ingresando "una mujer joven hablando con tono agudo y a gran velocidad" Al combinar entrada de voz en audio y un prompt de estilo en texto, se puede sintetizar esa voz en cualquier entorno (por ejemplo, "en una catedral") o con cualquier emoción (por ejemplo, "habla triste y lentamente") Es el primer modelo que admite doble entrada (prompt de voz y prompt descriptivo en texto) para modificar libremente el estilo de voz Muestra un rendimiento más de 30% superior a Voicebox en similitud de estilo a través de diversos estilos de voz Meta está poniendo Audiobox a disposición de investigadores y entidades académicas cuidadosamente seleccionados con trayectoria en investigación de voz, para ayudar a impulsar el estado del arte en este campo y asegurar diversos socios que puedan abordar los aspectos de IA responsable de este trabajo

(ai.meta.com)

8 puntos por xguru 2023-12-12 | 1 comentarios | Compartir por WhatsApp

Genera voz y efectos de sonido combinando entrada de voz y prompts de texto en lenguaje natural
- Permite crear fácilmente audio personalizado para distintos casos de uso
Mejora Voicebox, presentado a inicios de este año, integrando funciones de generación y edición para voz, efectos de sonido (como ladridos de perro, bocinas de automóvil, truenos y otros sonidos breves y discontinuos) y soundscapes, y maximiza el control para cada caso de uso mediante diversos mecanismos de entrada
Se pueden usar prompts en lenguaje natural para describir el sonido o el tipo de voz que se quiere generar
- Es posible generar un soundscape con prompts como "un río corriendo y pájaros cantando"
- También se puede generar la voz deseada ingresando "una mujer joven hablando con tono agudo y a gran velocidad"
Al combinar entrada de voz en audio y un prompt de estilo en texto, se puede sintetizar esa voz en cualquier entorno (por ejemplo, "en una catedral") o con cualquier emoción (por ejemplo, "habla triste y lentamente")
- Es el primer modelo que admite doble entrada (prompt de voz y prompt descriptivo en texto) para modificar libremente el estilo de voz
Muestra un rendimiento más de 30% superior a Voicebox en similitud de estilo a través de diversos estilos de voz
Meta está poniendo Audiobox a disposición de investigadores y entidades académicas cuidadosamente seleccionados con trayectoria en investigación de voz, para ayudar a impulsar el estado del arte en este campo y asegurar diversos socios que puedan abordar los aspectos de IA responsable de este trabajo

1 comentarios

xguru 2023-12-12

Meta presenta Voicebox, un modelo de IA generativa para voz

Audiobox - el nuevo modelo fundacional de Meta para generación de audio

Lecturas relacionadas

1 comentarios