Códec de video AV2 logra una tasa de bits 30% menor que AV1; especificación final se publicará a finales de 2025

(videocardz.com)

6 puntos por GN⁺ 2025-10-13 | 3 comentarios | Compartir por WhatsApp

AV2 es el próximo códec de video abierto que está desarrollando la Alliance for Open Media, y tras 5 años de desarrollo se prepara para la publicación de la especificación final a finales de 2025
Según las pruebas, AV2 logra una tasa de bits aproximadamente 30% menor que AV1 con la misma calidad de imagen, y registra una mejora de 32.59% según VMAF
Se caracteriza por aumentar la eficiencia no mediante innovación basada en IA, sino mediante optimización matemática y mejoras algorítmicas
Mejora el rendimiento en procesamiento de alta resolución y movimiento rápido mediante superbloques de 256×256, particionado completamente recursivo, modos de predicción basados en datos y TIP (Temporal Interpolation)
La verificación de eficiencia en hardware ya fue completada, y el enfoque de desarrollo se moverá después hacia la optimización del codificador y la expansión de perfiles con soporte de IA

Estado del desarrollo de AV2

AV2 mantiene la estructura híbrida basada en bloques de AV1, pero introduce superbloques más grandes de 256×256 y un esquema de particionado completamente recursivo
- Al separar el particionado de luma y chroma, se hace posible una predicción más precisa
- El sistema de predicción incorpora modos intra basados en datos, modelado mejorado de chroma-from-luma y un sistema de referencias jerarquizado que utiliza hasta 7 cuadros de referencia
Se añadió la función TIP (Temporal Interpolation Prediction), que mejora la eficiencia de la compensación de movimiento en escenas con movimiento rápido o alta resolución

Calidad y eficiencia de compresión

Andrey Norkin de Netflix anunció que confirmó una reducción de tasa de bits de 28.63% según PSNR-YUV y de 32.59% según VMAF
- VMAF (Video Multi-Method Assessment Fusion) es una métrica de medición de calidad de video desarrollada por Netflix que refleja la evaluación subjetiva de la calidad visual
Estas mejoras son el resultado de modelado matemático e innovación algorítmica, no de IA; aunque el grupo AOM mencionó la posibilidad de extensiones con IA, el códec en sí se basa en métodos tradicionales

Sistema de transformada y cuantización

Se introdujo un cuantizador exponencial unificado (exponential quantizer) que brinda soporte para video de 8, 10 y 12 bits con mayor rango y precisión
Mediante cuantización basada en trellis y matrices personalizadas, permite un control fino incluso a bajas tasas de bits
Con transformadas basadas en aprendizaje (transform) y transformadas de componentes cruzados, reduce artefactos de compresión mientras conserva las texturas
La codificación de coeficientes (coefficient coding) fue mejorada para contenido de pantalla y contenido mixto

Filtrado y posprocesamiento

Un deblocker general unificado preserva mejor las texturas finas, y
nuevos filtros como Guided Detail Filter y Cross-Component Sample Offset mejoran el rendimiento de eliminación de ruido
La síntesis de grano de película (film grain synthesis) puede aplicarse de forma más flexible
Soporta video multicapa (multi-layer) y video estereoscópico (stereo video) para responder a formatos multimedia de próxima generación

Planes a futuro

Todas las herramientas de AV2 ya completaron la verificación de eficiencia en hardware
La siguiente etapa se centrará en la optimización del codificador y en el desarrollo de perfiles de alta profundidad de bits y extensiones con IA
La especificación final está programada para anunciarse a finales de 2025, y se espera que su adopción comercial avance después de forma gradual en las principales plataformas y servicios de streaming

3 comentarios

kippler 2025-10-13

Pensé que el nombre AV1 era peculiar, pero ya tenían todo planeado...

carnoxen 2025-10-13

Pensé que todo terminaba con AV1, ¿pero dicen que todavía puede seguir evolucionando?!
La tecnología de verdad es imposible de predecir...

GN⁺ 2025-10-13

Opiniones de Hacker News

Me pregunto cuándo los servicios de streaming dejarán de comprimir en exceso. Incluso usando una TV 4K de gama alta e internet gigabit, la imagen parece masilla por los artefactos de compresión. De hecho, la mejor calidad de imagen que he visto fue hace 20 años viendo con una simple antena digital. Esto se nota muchísimo sobre todo en gradientes o en escenas oscuras de películas. Como referencia, mi TV está completamente calibrada y uso el plan de streaming con el mayor ancho de banda. Un ejemplo visual parecido puede verse aquí
- Desde la perspectiva de los servicios de streaming, el costo de distribuir contenido es enorme, y después de producirlo, probablemente es su mayor gasto restante. Por eso recurren a medidas extremas para bajar el bitrate. Esa es la razón por la que Netflix introdujo algoritmos que eliminan el grano de cámara (ruido) y luego agregan ruido generado artificialmente en el cliente, y también por la que YouTube Shorts ha usado recientemente técnicas extremas de denoise, como en este caso. El ruido es información aleatoria y es muy difícil de comprimir, así que quieren quitarlo lo más posible. Pero cuando eliminas ruido en video capturado con cámara en vivo, también desaparecen detalles muy finos. Hay una discusión relacionada aquí
- Que veas artefactos de compresión en gradientes o escenas oscuras es algo que pasa cuando la calibración de la TV no está bien hecha. Muchas veces el contraste está demasiado alto. La gente tiende a ajustar la imagen para ver todos los detalles en las escenas oscuras, pero en realidad hay partes que no deberían verse así. En una pantalla bien ajustada, las zonas oscuras deberían ser casi invisibles. La mayoría de los códecs también están diseñados para eliminar detalle en escenas oscuras. Claro, también es cierto que los servicios de streaming exageran mucho ese criterio, pero muchos conflictos vienen de que la gente ajusta mal sus pantallas
- Antes del COVID, Netflix usaba alrededor de 8 Mbps para contenido 1080P. Con x264/beamr se veía bastante bien, y con HEVC era aún mejor. Pero después del COVID, todos los servicios de streaming bajaron la calidad alegando el aumento repentino de la demanda y las limitaciones de ancho de banda. Desde entonces, los clientes ya se acostumbraron a la baja calidad, y no parece que la vayan a subir otra vez. Según pruebas recientes, ahora andan entre 3 y 5 Mbps. Los códecs HEVC/AV1/AV2 pueden reducir más de 50% el bitrate frente a H.264, pero por encima del rango de 0.5~4 Mbps esa mejora se reduce rápidamente, y el codificador x264 podría incluso verse mejor en bitrates altos
- No todos usan promedios de bitrate tan bajos como Netflix; depende del servicio. Según algunos datos de ejemplo, Kate de Netflix está en 11.15 Mbps, Andor de Disney en 15.03 Mbps, Jack Ryan de Amazon en 15.02 Mbps, The Last of Us de Max en 19.96 Mbps y For All Mankind de Apple en 25.12 Mbps. Más cifras y comparaciones están en este enlace
- Tal vez la piratería te quede mejor
Sigue siendo bastante sorprendente que la gente todavía encuentre formas de reducir aún más el tamaño del video. Me pregunto si es solo cuestión de ideas ingeniosas de gente muy lista, o si también se debe a tener más poder de procesamiento para codificar y decodificar
- Son ambas cosas. A medida que los formatos avanzan, se pueden aplicar métodos más creativos o meter más recursos de cómputo. Por ejemplo, los cambios entre cuadros se codifican en unidades llamadas "superbloques" (similares a los <a href="https://en.wikipedia.org/wiki/Macroblock">macroblocks</a>). Esos bloques estiman el cambio refiriéndose a otras partes del mismo cuadro o a cuadros anteriores. Mientras más precisamente se pueda delimitar la región de cambio del bloque, mayor es la eficiencia. Pero también hay que gastar datos para describir la posición del bloque, así que existen reglas para minimizar esa descripción. En AV2 cambió la forma de definir los bloques, así que es más fácil ajustarlos a las regiones de cambio, y además el tamaño máximo de bloque se duplicó, lo que permite comprimir movimientos grandes de manera más eficiente usando menos bloques. Además de eso, hubo muchos otros cambios, y la creatividad algorítmica de los codificadores sigue evolucionando. Para aplicar este tipo de avances en la práctica, hace falta llegar a acuerdos de estandarización sobre qué transformaciones, técnicas de predicción y demás se permiten en el bitstream. Un video de referencia puede verse aquí
- Las patentes siguen jugando un papel muy importante. Las tecnologías nuevas tienen que cuidarse mucho de no infringir patentes existentes. Por eso puede haber trucos o técnicas que no se puedan usar ni en AV1 ni en AV2
- Se necesitan ambas cosas. Los códecs modernos tienen distintos trade-offs entre calidad de imagen (PSNR, SSIM), complejidad computacional (CPU vs DSP vs memoria), almacenamiento y bitrate, así que no existe un único códec óptimo para todas las situaciones
- Me pregunto cuándo llegarán a producción real los códecs generativos con IA. El concepto es relativamente simple: el codificador sabe exactamente qué modelo usará el decodificador, envía solo los píxeles principales y el decodificador rellena el resto con IA. Por ejemplo, podría generar caras aleatorias dentro de una multitud, o si hace falta, mandar más datos para guiar esa zona hacia la cara de una mascota específica de un equipo. Si la compresión se lleva al extremo, al final lo que quedará ya no será realmente video, sino datos que describan la escena casi como un guion de texto
- No conozco tan bien los detalles de AV2, pero del paso de H.265 a H.266 se duplicó la cantidad de ángulos de predicción angular, se añadieron herramientas para predecir croma a partir de luma, copia de bloques de píxeles y varias técnicas más solo en intra prediction. En inter prediction también hubo mejoras enormes. Todo eso consume bastante lógica/circuitería y área de silicio en los decodificadores por hardware, pero el ahorro de bitrate es grande. En decodificadores por CPU la carga computacional extra no es tan severa. El verdadero costo está del lado de la codificación. Para maximizar la eficiencia de compresión, aumentan las herramientas de predicción entre las que hay que elegir, así que también crece el tiempo de codificación. Por eso Google solo aplica codificación AV1 a videos con muchísimas reproducciones
Como este ya es el segundo arranque, espero que esta vez salga mejor. En AOM habrá una sesión en vivo el 20 de octubre y tengo expectativas. Van a cubrir más datos y métricas, complejidad de codificación/decodificación, la hoja de ruta de decodificadores por hardware, cumplimiento del estándar y kits de prueba, perfiles futuros, mejoras en AVIF y AV2, e incluso comparaciones con JPEG-XL. Me pregunto si ese 30% de BDRATE es contra el encoder más reciente de AV1 o contra la versión 1.0. También parece que van a hablar de mejoras para live encoding
30% menos frente a AV1, una locura. Se siente como si hubiera salido hace poco, pero fue en 2019
- Yo apenas el año pasado usé mi primer dispositivo con soporte por hardware para AV1. El ritmo al que avanzan los códecs siempre tiene una desventaja: o sigues guardando el contenido en varios formatos, o haces decodificación por software del lado del cliente y te comes más batería. YouTube claramente prefiere lo segundo
- Es tan impresionante que hasta da desconfianza. Si es real, sería increíble
Implementar y optimizar códecs fue probablemente una de las cosas más divertidas que he hecho en mi vida. Me encantaría profundizar en AV2, pero ahora no tengo tiempo
Por fin sale un códec con un nombre que no parece AVI
- ¿AVI no es un formato contenedor y no un códec?
Este internet de fibra óptica de alta velocidad ya casi no significa nada...
- La mayor parte del mundo todavía consume datos y video sobre redes móviles
- Sí. Por suerte todavía estoy dentro del periodo para devolver mi microSD de 1 TB
- También podría servir cuando empiece el streaming de contenido 8K, o para video VR de 16K
- Lo ideal es buscar máxima eficiencia y máxima disponibilidad al mismo tiempo. Es un principio que también aplica al poder de cómputo y al mercado energético
- Mientras haya más medios, crecerá la demanda de velocidad; y cuando aumente la velocidad, habrá más medios. Es un ciclo infinito
Pensé que el nombre AV1 era como un homenaje o una broma sobre AVI (audio video interleave), pero con AV2 ya se pierde esa sensación. AV1 tiene archivos con extensión .av1 y también el MIME type video/AV1; ahora que llegue AV2, ¿van a duplicar todo con .av2 y video/AV2? También me pregunto qué pasará con AVIF
- La extensión .av1 es para archivos de datos AV1 en bruto. AV2 usará .av2 y no será compatible con AV1. En la práctica, normalmente el stream de video va dentro de un contenedor como Matroska (.mkv), WebM o MP4, y se especifica un código de tipo de códec (av01, av02). AVIF también es un contenedor; el nombre significa AV1 image format, pero si quisieran también podrían extenderlo a AV2. Para que quede claro, podrían renombrarlo como AOMedia Video Image Format
- ¿Entonces la idea es que la extensión del archivo solo refleje el formato del archivo, y no el códec interno? De hecho, antes se hacía así y a veces causaba problemas. Es útil poder saber solo por la extensión si vas a poder abrir un archivo
¿A alguien más le sale un mensaje de bloqueo de Cloudflare en formatos AV1 o AV2?
Me pregunto cuándo saldrá un códec de video basado en gaussian splatting