5 puntos por GN⁺ 2024-11-19 | 1 comentarios | Compartir por WhatsApp
  • Introducción a Regatta Storage

    • Regatta Storage es un nuevo sistema de archivos en la nube que ofrece capacidad ilimitada, rendimiento similar al local y sincronización automática con almacenamiento compatible con S3
    • Permite acceder de inmediato a grandes conjuntos de datos en S3 usando herramientas como Spark, Pytorch y pandas
    • Al crear una cuenta, se puede probar el servicio gratis
  • Antecedentes de desarrollo

    • El fundador desarrolló Regatta con base en su experiencia construyendo y operando almacenamiento en la nube en Amazon EFS y Netflix
    • Le gustaban la simplicidad y la escalabilidad de EFS, pero en Netflix casi no se usaba EFS
    • Al mover cargas de trabajo de discos locales a NFS, surgían problemas de rendimiento
    • Regatta fue creado para resolver problemas del mercado de almacenamiento en la nube que no se solucionan con almacenamiento en bloque o de archivos
  • Características de Regatta

    • Es un sistema de archivos en la nube con cobro por uso que escala automáticamente junto con las aplicaciones
    • Se sincroniza automáticamente con S3 y con formatos de archivo nativos, por lo que puede conectarse a conjuntos de datos existentes y usar directamente los datos de archivos en S3
    • Los datos que no se usan se eliminan de la caché de Regatta, por lo que solo se paga el costo del almacenamiento en S3
    • Está desarrollando un protocolo de archivos personalizado que ofrece rendimiento similar al local para cargas de trabajo con archivos pequeños y escalabilidad similar a Lustre para trabajo de datos distribuido
  • Implementación técnica

    • Los clientes montan el sistema de archivos de Regatta mediante NFSv3, y la instancia de caché se conecta al bucket de S3 del cliente
    • Ofrece rendimiento de lectura y escritura en caché por debajo del milisegundo y mantiene una consistencia fuerte
    • Ejecuta operaciones complejas, como renombrar directorios, de forma rápida y confiable, y las propaga de manera asíncrona al bucket de S3
  • Casos de uso y expectativas

    • Se usa para construir servidores serverless de notebooks Jupyter para investigadores de IA
    • Se usa como una capa de caché distribuida sobre S3 para acceder a archivos compartidos con baja latencia
    • Ha reemplazado volúmenes de arranque de Ceph para reducir costos
    • Dan la bienvenida a comentarios de usuarios e ideas sobre la dirección futura, y esperan la opinión de la comunidad

1 comentarios

 
GN⁺ 2024-11-19
Opiniones de Hacker News
  • La diferencia entre Rclone y Regatta Storage es que, al modificar el sistema de archivos, Regatta usa una capa de caché de alta velocidad para ofrecer consistencia fuerte. Rclone no tiene una capa que garantice consistencia entre clientes paralelos

    • Regatta Storage usa una capa de caché de alta velocidad para ofrecer consistencia fuerte al modificar el sistema de archivos
    • Rclone no tiene una capa que garantice consistencia entre clientes paralelos
  • Parece uno de los productos más geniales que han salido de YC, y hay varias preguntas sobre cómo funciona

    • Hay curiosidad por saber si hay degradación de rendimiento al manejar datos en el rango de 50GB con un disco local de 10GB
    • Hay curiosidad por saber si también puede lograr altas velocidades en otras nubes además de AWS
    • Hay dudas sobre el enfoque de usar montajes FUSE y NFS
    • Hay curiosidad por saber si se puede ejecutar Clickhouse o Postgres sobre un volumen de Regatta
    • Hay curiosidad por saber qué piensan sobre el open source
    • Hay curiosidad por saber si se puede montar en varios servidores y cuáles serían las limitaciones
  • Alguien está alojando DuckDB con GCP Filestore y pide información sobre el precio y el rendimiento de Regatta

    • Pide información sobre el precio y el rendimiento de una instancia de 10 TiB
  • Hay interés en usarlo como disco de respaldo para SQLite/DuckDB/parquet, con lecturas cacheadas desde almacenamiento NVMe local de la instancia

    • Se necesitan funciones de bloqueo y memoria compartida que no se pueden obtener con NFS
    • Se podría implementar directamente en espacio de usuario, pero en ese caso mejor usar S3
  • Se considera que usar NFS como protocolo es una buena idea

    • Alguien tiene experiencia en IBM escribiendo un sistema de archivos cifrado con un concepto similar
    • Se siente casi mágico que, al montar el sistema de archivos, todos los datos “simplemente estén ahí”
  • Hay preocupación de que AWS pueda copiar este producto y ofrecerlo a un precio más bajo

  • Alguien cuenta que en 2008 hizo con éxito una demo frente al CEO de Adobe en la que una foto tomada con un iPhone aparecía automáticamente como archivo en una Mac

    • Implementó un FUSE local que se comunicaba con el almacenamiento distribuido de objetos de Adobe
    • Comenzó a hacer I+D en sistemas distribuidos con el lanzamiento de Dropbox
  • Hay curiosidad por saber si se puede construir almacenamiento SQL ACID en tiempo real usando Lambda + SQLite + Regatta

  • No está claro cómo manejan los conflictos al actualizar archivos

    • Por ejemplo, si dos usuarios actualizan el mismo archivo desde computadoras distintas, hay curiosidad por saber cómo queda el archivo final
  • Hay alternativas destacables como s3fs, rclone y goofys