Lanzamiento en HN: Regatta Storage (YC F24) – tecnología que convierte S3 en un sistema de archivos en la nube similar a POSIX local
(news.ycombinator.com)-
Introducción a Regatta Storage
- Regatta Storage es un nuevo sistema de archivos en la nube que ofrece capacidad ilimitada, rendimiento similar al local y sincronización automática con almacenamiento compatible con S3
- Permite acceder de inmediato a grandes conjuntos de datos en S3 usando herramientas como Spark, Pytorch y pandas
- Al crear una cuenta, se puede probar el servicio gratis
-
Antecedentes de desarrollo
- El fundador desarrolló Regatta con base en su experiencia construyendo y operando almacenamiento en la nube en Amazon EFS y Netflix
- Le gustaban la simplicidad y la escalabilidad de EFS, pero en Netflix casi no se usaba EFS
- Al mover cargas de trabajo de discos locales a NFS, surgían problemas de rendimiento
- Regatta fue creado para resolver problemas del mercado de almacenamiento en la nube que no se solucionan con almacenamiento en bloque o de archivos
-
Características de Regatta
- Es un sistema de archivos en la nube con cobro por uso que escala automáticamente junto con las aplicaciones
- Se sincroniza automáticamente con S3 y con formatos de archivo nativos, por lo que puede conectarse a conjuntos de datos existentes y usar directamente los datos de archivos en S3
- Los datos que no se usan se eliminan de la caché de Regatta, por lo que solo se paga el costo del almacenamiento en S3
- Está desarrollando un protocolo de archivos personalizado que ofrece rendimiento similar al local para cargas de trabajo con archivos pequeños y escalabilidad similar a Lustre para trabajo de datos distribuido
-
Implementación técnica
- Los clientes montan el sistema de archivos de Regatta mediante NFSv3, y la instancia de caché se conecta al bucket de S3 del cliente
- Ofrece rendimiento de lectura y escritura en caché por debajo del milisegundo y mantiene una consistencia fuerte
- Ejecuta operaciones complejas, como renombrar directorios, de forma rápida y confiable, y las propaga de manera asíncrona al bucket de S3
-
Casos de uso y expectativas
- Se usa para construir servidores serverless de notebooks Jupyter para investigadores de IA
- Se usa como una capa de caché distribuida sobre S3 para acceder a archivos compartidos con baja latencia
- Ha reemplazado volúmenes de arranque de Ceph para reducir costos
- Dan la bienvenida a comentarios de usuarios e ideas sobre la dirección futura, y esperan la opinión de la comunidad
1 comentarios
Opiniones de Hacker News
La diferencia entre Rclone y Regatta Storage es que, al modificar el sistema de archivos, Regatta usa una capa de caché de alta velocidad para ofrecer consistencia fuerte. Rclone no tiene una capa que garantice consistencia entre clientes paralelos
Parece uno de los productos más geniales que han salido de YC, y hay varias preguntas sobre cómo funciona
Alguien está alojando DuckDB con GCP Filestore y pide información sobre el precio y el rendimiento de Regatta
Hay interés en usarlo como disco de respaldo para SQLite/DuckDB/parquet, con lecturas cacheadas desde almacenamiento NVMe local de la instancia
Se considera que usar NFS como protocolo es una buena idea
Hay preocupación de que AWS pueda copiar este producto y ofrecerlo a un precio más bajo
Alguien cuenta que en 2008 hizo con éxito una demo frente al CEO de Adobe en la que una foto tomada con un iPhone aparecía automáticamente como archivo en una Mac
Hay curiosidad por saber si se puede construir almacenamiento SQL ACID en tiempo real usando Lambda + SQLite + Regatta
No está claro cómo manejan los conflictos al actualizar archivos
Hay alternativas destacables como s3fs, rclone y goofys