- Fire-Flyer File System (3FS) es un sistema de archivos distribuido de alto rendimiento diseñado para manejar cargas de trabajo de entrenamiento e inferencia de IA
- Aprovecha SSD modernos y redes RDMA para ofrecer una capa de almacenamiento compartido y simplificar el desarrollo de aplicaciones distribuidas
Características y ventajas principales
- Rendimiento y usabilidad
- Arquitectura desagregada: combina miles de SSD y el ancho de banda de red de cientos de nodos de almacenamiento para permitir el acceso a los recursos de almacenamiento sin importar la localidad
- Sólidas garantías de consistencia: usa Chain Replication with Apportioned Queries (CRAQ) para mantener la consistencia, lo que simplifica el código de las aplicaciones
- Compatibilidad con interfaz de archivos: ofrece un servicio de metadatos sin estado que aprovecha un almacén transaccional de clave-valor basado en FoundationDB. Como utiliza una interfaz de archivos existente, no es necesario aprender una nueva API de almacenamiento
- Soporte para diversas cargas de trabajo
- Preparación de datos: organiza la salida de los pipelines de análisis de datos en una estructura jerárquica de directorios y administra eficientemente grandes volúmenes de salidas intermedias
- Optimización del data loader: permite acceso aleatorio a muestras de entrenamiento desde varios nodos de cómputo sin necesidad de precargar o mezclar el dataset
- Guardado de checkpoints: admite guardado paralelo de checkpoints de alta velocidad para entrenamiento a gran escala
- Optimización de inferencia basada en KVCache: es más rentable que el caché basado en DRAM y permite alto throughput junto con gran capacidad de almacenamiento
Pruebas de rendimiento
- Prueba de throughput máximo
- 180 nodos de almacenamiento (cada uno con 2×200Gbps InfiniBand NIC y 16 SSD NVMe de 14TiB)
- Más de 500 nodos cliente (cada uno con 1×200Gbps InfiniBand NIC)
- En una prueba de carga de lectura ejecutada en paralelo con tareas de entrenamiento de IA, registró un throughput total de 6.6TiB/s
- Prueba de benchmark GraySort
- 25 nodos de almacenamiento (2 dominios NUMA por nodo, NIC de 2×400Gbps)
- 50 nodos de cómputo (192 núcleos físicos, 2.2TiB de RAM, 1×200Gbps NIC)
- Ordenó 110.5TiB de datos (8,192 particiones) en 30 minutos y 14 segundos, alcanzando un throughput promedio de 3.66TiB/min
- Prueba de rendimiento de KVCache
- Minimiza cálculos innecesarios mediante caché de vectores clave-valor durante el proceso de inferencia de modelos de lenguaje grandes (LLM)
- Registró un throughput máximo de lectura de 40GiB/s
- Incluye análisis del rendimiento de operaciones de borrado (IOPS) durante la ejecución de Garbage Collection (GC)
- Se caracteriza por procesamiento de datos de alto rendimiento, gran escalabilidad y operación sencilla
- Procesamiento de datos de alto rendimiento: usa DuckDB para procesamiento rápido de datos
- Soporte para datasets a gran escala: puede procesar datos a escala de petabytes (PB)
- Facilidad operativa: se puede usar fácilmente sin servicios de larga ejecución
Aún no hay comentarios.