6 puntos por xguru 2025-02-28 | Aún no hay comentarios. | Compartir por WhatsApp
  • Fire-Flyer File System (3FS) es un sistema de archivos distribuido de alto rendimiento diseñado para manejar cargas de trabajo de entrenamiento e inferencia de IA
  • Aprovecha SSD modernos y redes RDMA para ofrecer una capa de almacenamiento compartido y simplificar el desarrollo de aplicaciones distribuidas

Características y ventajas principales

  • Rendimiento y usabilidad
    • Arquitectura desagregada: combina miles de SSD y el ancho de banda de red de cientos de nodos de almacenamiento para permitir el acceso a los recursos de almacenamiento sin importar la localidad
    • Sólidas garantías de consistencia: usa Chain Replication with Apportioned Queries (CRAQ) para mantener la consistencia, lo que simplifica el código de las aplicaciones
    • Compatibilidad con interfaz de archivos: ofrece un servicio de metadatos sin estado que aprovecha un almacén transaccional de clave-valor basado en FoundationDB. Como utiliza una interfaz de archivos existente, no es necesario aprender una nueva API de almacenamiento
  • Soporte para diversas cargas de trabajo
    • Preparación de datos: organiza la salida de los pipelines de análisis de datos en una estructura jerárquica de directorios y administra eficientemente grandes volúmenes de salidas intermedias
    • Optimización del data loader: permite acceso aleatorio a muestras de entrenamiento desde varios nodos de cómputo sin necesidad de precargar o mezclar el dataset
    • Guardado de checkpoints: admite guardado paralelo de checkpoints de alta velocidad para entrenamiento a gran escala
    • Optimización de inferencia basada en KVCache: es más rentable que el caché basado en DRAM y permite alto throughput junto con gran capacidad de almacenamiento

Pruebas de rendimiento

  • Prueba de throughput máximo
    • 180 nodos de almacenamiento (cada uno con 2×200Gbps InfiniBand NIC y 16 SSD NVMe de 14TiB)
    • Más de 500 nodos cliente (cada uno con 1×200Gbps InfiniBand NIC)
    • En una prueba de carga de lectura ejecutada en paralelo con tareas de entrenamiento de IA, registró un throughput total de 6.6TiB/s
  • Prueba de benchmark GraySort
    • 25 nodos de almacenamiento (2 dominios NUMA por nodo, NIC de 2×400Gbps)
    • 50 nodos de cómputo (192 núcleos físicos, 2.2TiB de RAM, 1×200Gbps NIC)
    • Ordenó 110.5TiB de datos (8,192 particiones) en 30 minutos y 14 segundos, alcanzando un throughput promedio de 3.66TiB/min
  • Prueba de rendimiento de KVCache
    • Minimiza cálculos innecesarios mediante caché de vectores clave-valor durante el proceso de inferencia de modelos de lenguaje grandes (LLM)
    • Registró un throughput máximo de lectura de 40GiB/s
    • Incluye análisis del rendimiento de operaciones de borrado (IOPS) durante la ejecución de Garbage Collection (GC)

SmallPond - framework ligero de procesamiento de datos construido sobre DuckDB y 3FS

  • Se caracteriza por procesamiento de datos de alto rendimiento, gran escalabilidad y operación sencilla
    • Procesamiento de datos de alto rendimiento: usa DuckDB para procesamiento rápido de datos
    • Soporte para datasets a gran escala: puede procesar datos a escala de petabytes (PB)
    • Facilidad operativa: se puede usar fácilmente sin servicios de larga ejecución

Quinta entrega de los 5 proyectos open source publicados como DeepSeek Open Infra

Aún no hay comentarios.

Aún no hay comentarios.