9 puntos por GN⁺ 2023-12-07 | 3 comentarios | Compartir por WhatsApp
  • La nueva clase de almacenamiento de baja latencia "S3 Express One Zone" de AWS está llamando la atención en la comunidad de infraestructura de datos
    • El acceso a los datos es 10 veces más rápido y el costo de las solicitudes de API es 50% más barato. Puede procesar millones de solicitudes por minuto
  • La clase de almacenamiento S3 Express cuesta 8 veces más por GiB que S3 Standard, por lo que no es adecuada como almacenamiento "principal" para sistemas de datos a gran escala
  • Aunque el costo de las operaciones de API es 50% más barato, no es extremadamente barato, así que sigue sin ser adecuada para cargas de trabajo que antes resultaban poco prácticas por el costo de la API de S3
  • S3 Express cobra por GiB en todas las operaciones de API (escritura + lectura) que superen los 512 KiB
    • Visto de otra forma, cada operación de API incluye 512 KiB de ancho de banda "gratis", y solo se paga al superar ese umbral
  • Sin embargo, al ser una clase de almacenamiento One Zone, los sistemas de datos deben replicar manualmente los datos en dos AZ para protegerse ante una falla de una sola AZ
    • El costo de escribir los datos dos veces en dos AZ es similar al costo de replicar manualmente los datos en la capa de aplicación

Nuevas oportunidades para la infraestructura de datos moderna

  • La nueva clase de almacenamiento ofrece una nueva oportunidad para ajustar, con la misma arquitectura y el mismo código, entre baja latencia y alto costo o entre alta latencia y bajo costo
  • Todos los sistemas de datos modernos ya no necesitan diseñarse en función de la disponibilidad de discos locales o almacenamiento en bloques (EBS), y pueden construirse completamente sobre almacenamiento de objetos
  • Los datos pueden almacenarse fácilmente en buckets S3 Express de baja latencia y luego moverse de forma asíncrona a buckets S3 Standard; además, la mayoría de los sistemas de datos modernos ya cuentan con compresión, por lo que el "tiering de almacenamiento" es prácticamente gratis

Opinión de GN⁺

El punto más importante de este artículo es la perspectiva sobre qué cambios podría traer a la infraestructura de datos la nueva clase de almacenamiento S3 Express One Zone de AWS. Esta clase de almacenamiento ofrece nuevas oportunidades para mejorar de forma drástica el costo y el rendimiento de los sistemas de datos, lo que podría transformar la manera de gestionar y almacenar datos. En particular, la capacidad de construir todos los sistemas de datos con un enfoque centrado en el almacenamiento de objetos será una opción atractiva para muchas empresas y desarrolladores. Se espera que este cambio haga que el futuro de la infraestructura de datos sea más flexible y más eficiente en costos.

3 comentarios

 
kuroneko 2023-12-07

Me pregunto cómo se usará.

 
heycalmdown 2023-12-07

Justo ayer volví a buscar WarpStream, así que adjunto el enlace
https://es.news.hada.io/topic?id=10234

 
GN⁺ 2023-12-07
Opiniones en Hacker News
  • La mayoría de los sistemas de almacenamiento/bases de datos de producción basados en S3 dedican un esfuerzo considerable a construir una capa de caché en SSD/memoria para lograr un rendimiento productivo.

    • S3 Express se acerca a la velocidad de lectura aleatoria de un HDD, por lo que es posible construir sistemas de producción sin caché SSD.
    • Muchos sistemas seguirán manteniendo una caché SSD, pero ahora un MVP puede construirse sin caché SSD, y la latencia de las consultas en frío se reduce de forma importante.
    • Actualmente se están construyendo bases de datos vectoriales sobre almacenamiento de objetos, así que esta tecnología llega en un momento muy oportuno.
  • El costo de almacenamiento de AWS S3 Express es 8 veces más alto que S3 estándar, pero esto no representa un problema para los sistemas modernos de almacenamiento de datos.

    • Los datos pueden guardarse fácilmente en un bucket S3 Express de baja latencia y luego moverse de forma asíncrona y comprimida a un bucket S3 estándar.
    • La mayoría de los sistemas de datos modernos ya tienen capacidades de compresión, así que la "estratificación de almacenamiento" es prácticamente gratis.
    • Se anticipa un futuro en el que la mayoría de las aplicaciones intensivas en datos usarán S3 como capa principal de almacenamiento.
  • Hace unas semanas se probó S3 Express en el motor de búsqueda Quickwit.

    • El rendimiento fue satisfactorio, pero hubo decepción con el precio.
    • En ciertos casos de uso el precio puede ser adecuado, pero se espera que la mayoría de los usuarios añadan caché SSD local al S3 existente.
  • Como contexto adicional, warpstream está construyendo un sistema de streaming compatible con Kafka que usa S3 como almacenamiento de objetos.

    • Esto permite aprovechar costos baratos de transferencia entre zonas y la estratificación automática de almacenamiento para reducir los costos de operación y mantenimiento del sistema.
    • La latencia causada por la velocidad de lectura/escritura de S3 era un problema, pero con S3 Express ahora puede competir con el producto administrado de Confluent Kafka en aplicaciones sensibles a la latencia.
  • El problema se resolvió almacenando archivos en caché en Redis antes de subirlos a S3 desde el entorno local.

    • Cuando el codebase necesita usar un archivo, revisa Redis y, si no está ahí, lo trae y lo vuelve a cachear.
  • EFS es muy superior a S3, pero no se entiende por qué no recibe más atención.

    • Puede montarse en el sistema como una unidad, compartirse entre sistemas y ya tiene una latencia muy baja.
    • No está claro qué tan útil es realmente S3 Express cuando EFS ya existe.
  • Hay curiosidad por saber si la frase "X is all you Need" se usó por primera vez en el paper "Attention is all you need".

    • Ese paper presentó los Transformer al mundo.
  • Si esto es un S3 de baja latencia escrito en Rust, entonces por fin salió después de varios años de desarrollo.

  • Hay curiosidad por saber si existen casos de uso en los que la nueva capa S3 Express mejore el rendimiento y si el costo adicional de 8 veces realmente vale la pena.

  • Muchas implementaciones de S3 parecen simplemente una descarga transparente al disco, pero en realidad no se trata de "usar la red como disco".