S3 Express es todo lo que necesitas
(warpstream.com)- La nueva clase de almacenamiento de baja latencia "S3 Express One Zone" de AWS está llamando la atención en la comunidad de infraestructura de datos
- El acceso a los datos es 10 veces más rápido y el costo de las solicitudes de API es 50% más barato. Puede procesar millones de solicitudes por minuto
- La clase de almacenamiento S3 Express cuesta 8 veces más por GiB que S3 Standard, por lo que no es adecuada como almacenamiento "principal" para sistemas de datos a gran escala
- Aunque el costo de las operaciones de API es 50% más barato, no es extremadamente barato, así que sigue sin ser adecuada para cargas de trabajo que antes resultaban poco prácticas por el costo de la API de S3
- S3 Express cobra por GiB en todas las operaciones de API (escritura + lectura) que superen los 512 KiB
- Visto de otra forma, cada operación de API incluye 512 KiB de ancho de banda "gratis", y solo se paga al superar ese umbral
- Sin embargo, al ser una clase de almacenamiento One Zone, los sistemas de datos deben replicar manualmente los datos en dos AZ para protegerse ante una falla de una sola AZ
- El costo de escribir los datos dos veces en dos AZ es similar al costo de replicar manualmente los datos en la capa de aplicación
Nuevas oportunidades para la infraestructura de datos moderna
- La nueva clase de almacenamiento ofrece una nueva oportunidad para ajustar, con la misma arquitectura y el mismo código, entre baja latencia y alto costo o entre alta latencia y bajo costo
- Todos los sistemas de datos modernos ya no necesitan diseñarse en función de la disponibilidad de discos locales o almacenamiento en bloques (EBS), y pueden construirse completamente sobre almacenamiento de objetos
- Los datos pueden almacenarse fácilmente en buckets S3 Express de baja latencia y luego moverse de forma asíncrona a buckets S3 Standard; además, la mayoría de los sistemas de datos modernos ya cuentan con compresión, por lo que el "tiering de almacenamiento" es prácticamente gratis
Opinión de GN⁺
El punto más importante de este artículo es la perspectiva sobre qué cambios podría traer a la infraestructura de datos la nueva clase de almacenamiento S3 Express One Zone de AWS. Esta clase de almacenamiento ofrece nuevas oportunidades para mejorar de forma drástica el costo y el rendimiento de los sistemas de datos, lo que podría transformar la manera de gestionar y almacenar datos. En particular, la capacidad de construir todos los sistemas de datos con un enfoque centrado en el almacenamiento de objetos será una opción atractiva para muchas empresas y desarrolladores. Se espera que este cambio haga que el futuro de la infraestructura de datos sea más flexible y más eficiente en costos.
3 comentarios
Me pregunto cómo se usará.
Justo ayer volví a buscar WarpStream, así que adjunto el enlace
https://es.news.hada.io/topic?id=10234
Opiniones en Hacker News
La mayoría de los sistemas de almacenamiento/bases de datos de producción basados en S3 dedican un esfuerzo considerable a construir una capa de caché en SSD/memoria para lograr un rendimiento productivo.
El costo de almacenamiento de AWS S3 Express es 8 veces más alto que S3 estándar, pero esto no representa un problema para los sistemas modernos de almacenamiento de datos.
Hace unas semanas se probó S3 Express en el motor de búsqueda Quickwit.
Como contexto adicional, warpstream está construyendo un sistema de streaming compatible con Kafka que usa S3 como almacenamiento de objetos.
El problema se resolvió almacenando archivos en caché en Redis antes de subirlos a S3 desde el entorno local.
EFS es muy superior a S3, pero no se entiende por qué no recibe más atención.
Hay curiosidad por saber si la frase "X is all you Need" se usó por primera vez en el paper "Attention is all you need".
Si esto es un S3 de baja latencia escrito en Rust, entonces por fin salió después de varios años de desarrollo.
Hay curiosidad por saber si existen casos de uso en los que la nueva capa S3 Express mejore el rendimiento y si el costo adicional de 8 veces realmente vale la pena.
Muchas implementaciones de S3 parecen simplemente una descarga transparente al disco, pero en realidad no se trata de "usar la red como disco".