Principales mejoras de Opus 1.5
- Se anunció la versión Opus 1.5, con diversas mejoras que incluyen optimización de calidad basada en aprendizaje automático.
- Mantiene compatibilidad total con versiones anteriores e introduce nuevas funciones que mejoran la experiencia de audio.
- Por primera vez, utiliza técnicas de aprendizaje profundo para el procesamiento y la generación de señales mediante aprendizaje automático.
Manejo de pérdida de paquetes
- La pérdida de paquetes es una de las mayores molestias durante una llamada; si los paquetes no llegan, de poco sirve que el códec tenga buena calidad.
- La ocultación de pérdida de paquetes (PLC) se encarga de rellenar el audio en lugar de los paquetes faltantes, y el aprendizaje automático ayuda mucho en esto.
- Se utiliza una red neuronal profunda (DNN) para realizar PLC, como puede verse en el artículo y en los detalles técnicos.
Redundancia profunda (DRED)
- Cuando se pierden paquetes de forma consecutiva, solo con PLC hay límites, y esto se resuelve mediante redundancia.
- Opus incluye un mecanismo de redundancia de baja tasa de bits (LBRR), pero introduce DRED, que usa ML para comprimir voz de forma eficiente.
- DRED puede transmitir 1 segundo de redundancia con una sobrecarga aproximada de 12-32 kb/s.
Vocoder neuronal
- La baja complejidad de DRED y PLC es posible gracias a una nueva tecnología de vocoder neuronal.
- El vocoder FARGAN tiene una complejidad de 1/5 frente a LPCNet y usa menos del 1% de un núcleo de CPU incluso en una laptop o en un teléfono moderno.
Mejora de calidad de voz a baja tasa de bits
- Cuando no se dispone de suficientes bits, pueden escucharse artefactos de codificación, por lo que se introducen dos métodos de mejora: LACE y NoLACE.
- LACE es similar a un postfiltro tradicional, pero una DNN optimiza los coeficientes del postfiltro con base en todos los datos disponibles para el decodificador.
- NoLACE requiere más cómputo, pero es más potente gracias a su procesamiento adicional de señal no lineal.
Integración con WebRTC
- DRED requiere una integración estrecha con el búfer de jitter, cuyo tamaño determina la cantidad máxima de retraso en la llegada de paquetes que se puede tolerar.
- Los datos de DRED se manejan de forma similar a los paquetes de audio que llegan tarde, y si mejoran las condiciones de red, el tamaño del búfer puede reducirse.
IETF y estandarización
- Este trabajo avanza dentro del grupo de trabajo mlcodec de la IETF, con enfoque en el mecanismo general de extensiones de Opus, la redundancia profunda y las mejoras en codificación de voz.
- El mecanismo DRED permite incluir información adicional en los paquetes Opus, mientras que los decodificadores de versiones anteriores siguen pudiendo decodificar los datos Opus normales.
Otras mejoras
- Opus añade soporte para AVX2 y detección en tiempo real, haciendo más rápido el nuevo código DNN y el codificador SILK.
- La optimización ARMv7 Neon se reactivó en AArch64, haciendo la codificación más eficiente.
- Para simular de forma más realista la pérdida de paquetes, se puede generar un modelo de pérdida que reproduzca pérdidas similares a las del mundo real.
Opinión de GN⁺
- Opus 1.5 presenta un enfoque innovador para mejorar la tecnología existente de códecs de audio con aprendizaje automático. Esto podría representar un avance importante en las tecnologías de comunicación.
- La pérdida de paquetes es un problema clave en la comunicación en tiempo real, y la tecnología de Opus 1.5 ofrece una forma eficaz de abordarlo. En particular, funciones como DRED pueden ser útiles en entornos con alta inestabilidad de red.
- Tecnologías como el vocoder neuronal cumplen un papel importante en la mejora de la calidad de voz, pero considerando la complejidad y los requisitos de rendimiento, queda por discutir si todos los usuarios podrán aprovechar sus beneficios.
- La tecnología de Opus 1.5 puede mostrar todo su valor cuando se integra en plataformas de comunicación en tiempo real como WebRTC, lo que podría mejorar enormemente la calidad del trabajo remoto y la comunicación en línea.
- El proceso de estandarización desempeña un papel importante para que estas tecnologías se adopten ampliamente y mantengan compatibilidad, y el esfuerzo de la IETF contribuirá a que puedan usarse en una gama más amplia de aplicaciones y servicios.
Aún no hay comentarios.