6 puntos por GN⁺ 2024-02-21 | 1 comentarios | Compartir por WhatsApp
  • En los últimos años, los SSD basados en flash han reemplazado a los discos en la mayoría de los casos de uso de almacenamiento.
  • Los SSD están compuestos por múltiples chips de flash independientes, y se pueden acceder de forma paralela.
  • La capacidad de procesamiento de los SSD depende principalmente de la velocidad de la interfaz con el host.
  • Durante los últimos 6 años, el cambio rápido de SATA a PCIe 3.0, PCIe 4.0 y PCIe 5.0 provocó un aumento explosivo en el rendimiento del SSD.
  • Además del aumento de rendimiento, también aumentó la capacidad por dólar.
  • Estos cambios se deben a estándares abiertos como NVMe y PCIe, una enorme demanda y proveedores competitivos.
  • Actualmente, un SSD de centro de datos con PCIe 5.0 logra hasta 13 GB/s de throughput de lectura y más de 2.7 millones de IOPS de lectura aleatoria.
  • Los servidores modernos tienen alrededor de 100 lanes PCIe, por lo que un servidor puede aprovechar varios SSD con ancho de banda completo.

El estancamiento del rendimiento de SSD en la nube

  • AWS EC2 lanzó las instancias i3 con SSD NVMe iniciales a comienzos de 2017.
  • En ese momento, los SSD con NVMe eran caros, y contar con 8 por servidor era algo destacable.
  • Sin embargo, siete años después, el rendimiento sigue en torno a 2 GB/s por SSD.
  • Las instancias i3 y i3en siguen siendo la mejor opción de EC2 en IO/$ y SSD GB/$.
  • La brecha de rendimiento entre los SSD ofrecidos por proveedores de nube y los SSD de última generación se ha acercado casi a 10 veces en throughput de lectura, throughput de escritura e IOPS.
  • Este estancamiento en la nube contrasta con grandes avances en otras áreas.
  • Por ejemplo, el ancho de banda de red de EC2 creció de forma explosiva de 10 Gbit/s en 2017 a 200 Gbit/s en 2023.
  • Hay varias teorías sobre por qué los proveedores de nube no han avanzado en almacenamiento:
    • La teoría de que EC2 limita deliberadamente la velocidad de escritura a 1 GB/s para evitar fallas de dispositivos.
    • La posibilidad de que no exista demanda de almacenamiento rápido y, por eso, haya poco incentivo para optimizar el sistema.
    • La teoría de que si EC2 lanzara almacenamiento NVMe de instancia rápido y barato, podría afectar la estructura de costos de otros servicios de almacenamiento (EBS).
  • El autor espera ver pronto instancias en la nube con SSD de 10 GB/s.

Opinión de GN⁺

  • A pesar de la evolución acelerada de la tecnología SSD, el hecho de que los proveedores de servicios en la nube no alcancen este cambio refleja las diversas demandas del mercado y las limitaciones técnicas.
  • La meseta en el rendimiento del almacenamiento en la nube puede chocar con las expectativas de los usuarios sobre eficiencia de costos y calidad de servicio, y podría impactar la competitividad dentro de la industria cloud.
  • Este texto ofrece una visión importante tanto para usuarios de cómputo en la nube como para proveedores, y enfatiza la necesidad de demanda por soluciones de almacenamiento más rápidas y progreso tecnológico.

1 comentarios

 
GN⁺ 2024-02-21
Opinión de Hacker News
  • Debate sobre los problemas técnicos de la nube

    • En Google trabajaron en esto como un problema fundamental de la nube. Esto es un factor importante para definir la dirección tecnológica de la gente.
    • Los SSD de la nube están conectados a través de la red, lo cual es esencial. Pero la red es demasiado grande y lenta como para ofrecer el rendimiento de un SSD local.
    • En los discos duros esto no fue un problema, pero en el caso de SSD sí lo es porque son muchísimo más rápidos que la red.
  • Explicación de la arquitectura de AWS Nitro SSD

    • Los documentos y blogs de AWS describen la arquitectura de Nitro SSD. Esta se conecta físicamente a la placa base del sistema mediante PCIe, pero está lógicamente aislada de la placa base del sistema que ejecuta las cargas de trabajo del cliente.
    • El firmware se encarga de alargar al máximo la vida útil del dispositivo SSD mediante un proceso llamado "wear leveling". Este proceso incluye una especie de recolección de basura, y un SSD normal puede ralentizarse de forma impredecible cuando hay muchas operaciones de escritura. AWS aprovechó su experiencia en bases de datos para construir en el firmware del SSD una base de datos basada en journal muy sofisticada y segura ante fallos de energía.
  • Relato de experiencia sobre la IOPS en instancias en la nube

    • Quedé sorprendido por lo bajos que resultaron ser los valores de "IOPS aprovisionada" en las instancias en la nube. Esto significa que mucha gente, en especial los más jóvenes con experiencia solo en instancias en la nube, no sabe bien cuánta capacidad real se puede cargar en una o dos RU.
    • La velocidad de almacenamiento NVMe es parte de la tecnología impresionante de hoy en día.
  • Opinión personal de alguien que trabaja en OCI

    • OCI ofrece unidades NVMe más rápidas en sus instancias. El modelo E4 Dense monta un Samsung MZWLJ7T6HALA-00AU3 y admite lecturas secuenciales de 7000 MB/s y escrituras secuenciales de 3800 MB/s.
    • Es probable que AWS no ofrezca NVMe más rápido en este momento porque no hay una demanda concreta. Esto es una suposición, pero, en general, cuando una demanda no es suficientemente alta, la actualización puede retrasarse más de lo esperado.
  • Argumento para salir de la nube

    • Los NVMe modernos y el número de núcleos brindan un fuerte argumento para abandonar la nube. Esa velocidad se acerca a la memoria, y por eso reduce la complejidad al poder guardar seguramente los datos en disco.
    • Incluso con solo un servidor potente se puede hacer caché, cómputo y serving suficientes, lo que simplifica muchas cargas de trabajo.
  • Crítica a la optimización para la nube

    • El problema no es el ancho de banda, sino las IOPS. Cuando se ejecuta un benchmark de IO aleatorio, el comportamiento de IOPS aleatorias se parece más al de un gran arreglo RAID giratorio que al de un SSD.
    • Una de las razones por las que la optimización de nube es difícil de tomar en serio es que cargas de trabajo como bases de datos no están bien optimizadas y pueden costar mucho.
  • Debate sobre tipos de instancias NVMe de AWS

    • Aunque se lanzaron varios tipos de instancias NVMe como i4i e im4gn, el rendimiento no aumentó. Han pasado 7 años desde el lanzamiento de i3, pero sigue en 2 GB/s por SSD.
    • El marketing de AWS afirma lo siguiente:
      • Hasta 800K IOPS de escritura aleatoria
      • Hasta 1M IOPS de lectura aleatoria
      • Hasta 5600 MB/s de escritura secuencial
      • Hasta 8000 MB/s de lectura secuencial
  • Elección personal de una configuración híbrida de SSD

    • Mezclando un X-25E de 64GB de 2011 con un PM897 de 3.7TB de 2021 se obtiene la solución más robusta y la base de datos más grande con el menor consumo de energía.
  • Especulación sobre límites de rendimiento en servicios en la nube

    • La razón por la que los servicios en la nube mantienen bajo rendimiento podría ser porque no hay mucha demanda, lo que permite usar "trucos" en la capa de virtualización.
  • Consideraciones de costo de SSD

    • Los SSD más rápidos tienden a usar tecnología MLC, lo que significa que tienen una vida útil de escritura mucho menor que otras tecnologías.
    • Aumentar la densidad de datos facilita aumentar el rendimiento, pero dado que las escrituras se hacen por bloques/celdas de memoria, si una celda se degrada puede fallar todo.
    • Puede ser un problema introducir una nueva tecnología en la pila y actualizar la flota con un costo efectivo.