Meta (antes Facebook) publicó como código abierto su framework de compresión de datos de alto rendimiento 'OpenZL', que ha usado internamente. OpenZL, optimizado especialmente para procesar enormes volúmenes de datasets especializados como los de cargas de trabajo de IA y aprendizaje automático, ofrece al mismo tiempo una alta tasa de compresión y gran velocidad, superando las limitaciones de las soluciones de compresión genéricas existentes.
Características y funciones
La mayor característica de OpenZL está en su método de compresión 'Format-Aware', que genera compresores personalizados optimizados para el formato de los datos. Al analizar la estructura de los datos y construir el algoritmo de compresión más eficiente, logra niveles de compresión imposibles para los compresores genéricos, mientras mantiene la velocidad de procesamiento rápida que exigen las cargas de trabajo de centros de datos.
Además, todos los compresores especializados generados son compatibles con un único descompresor genérico, lo que facilita el mantenimiento del sistema, y también ofrece la función de analizar visualmente el proceso de compresión mediante la herramienta 'Trace Visualizer'.
Datos de rendimiento (basados en los datos SAO del corpus de compresión Silesia)
| Categoría | OpenZL | zstd -3 | xz -9 |
|---|---|---|---|
| Tasa de compresión | x2.06 | x1.31 | x1.64 |
| Velocidad de compresión | 203 MB/s | 115 MB/s | 3.1 MB/s |
| Velocidad de descompresión | 822 MB/s | 890 MB/s | 30 MB/s |
Se espera que la publicación como código abierto de OpenZL por parte de Meta contribuya a reducir los costos de almacenamiento y transferencia de datos, además de mejorar significativamente la eficiencia del trabajo en IA y en diversas industrias donde el procesamiento de grandes volúmenes de datos es esencial.
3 comentarios
OpenZL: framework de compresión de código abierto con reconocimiento de formato de archivo
También consulta la presentación de Facebook traducida por IA
Parece que Meta está liderando el tema de la compresión, wow.
zstdtambién fue un gran avance.Ya lo venían usando bien internamente... que lo hagan público...
quiere decir que se viene algo aún más grande.