1 puntos por GN⁺ 2024-09-14 | 1 comentarios | Compartir por WhatsApp

NAS ZFS de 71 TiB con cero fallas de discos en 10 años

  • Hardware

    • NAS ZFS de 71 TiB compuesto por 24 discos de 4 TB
    • Ni una sola falla de disco en 10 años
    • Actualmente usa la segunda motherboard y la segunda fuente de poder
  • Administración de discos

    • Los discos HGST de 4 TB acumulan unas 6000 horas de uso en 10 años
    • Apagar el servidor cuando no se usa ayuda a extender la vida útil de los discos
    • Usa scripts para encender y apagar el servidor de forma remota
    • Mantiene el servidor apagado por defecto para ahorrar energía y prolongar la vida de los discos
  • Reemplazo de la motherboard

    • La motherboard fue reemplazada hace algunos años por una falla
    • Hubo problemas como imposibilidad de entrar al BIOS y fallos de arranque
    • Compró la misma motherboard en Ebay y así resolvió el problema
  • ZFS

    • ZFS funciona sin problemas en varios sistemas operativos
    • Ejecutó zpool scrub varias veces y no hubo errores de checksum
    • ZFS es muy efectivo para prevenir la pérdida de datos
  • Control del ruido

    • La velocidad predeterminada de los ventiladores era muy alta y hacía mucho ruido
    • Escribió un script que ajusta la velocidad de los ventiladores según la temperatura
    • Usa un controlador PID para regular la velocidad de los ventiladores y el ruido
  • Redes

    • Al principio usaba un controlador de red gigabit
    • Después de cambiar a una tarjeta Infiniband, alcanzó 700 MB/s de transferencia
    • Actualmente usa una tarjeta Ethernet de 10 Gbit
  • Fuente de poder

    • Al arrancar, todos los discos hacen spin-up al mismo tiempo y consumen 600 W
    • La fuente de poder a veces corta la energía durante el arranque
  • Dejó de usar UPS

    • Dejó de usar el UPS porque consumía energía adicional
    • Acepta el riesgo de perder el sistema por problemas eléctricos
  • Respaldos

    • Hace tres copias de respaldo de los datos importantes
    • No respalda los datos no importantes
    • Evita la pérdida de datos con reemplazos de hardware y ZFS
  • Planes a futuro

    • Por ahora no tiene planes de ampliar el almacenamiento
    • Tiene motherboard, CPU, memoria y tarjeta HBA de repuesto
    • Como los discos ahora tienen mayor capacidad, podría cambiar a un formato más pequeño
    • Si el sistema falla, incluso podría dejar este hobby del almacenamiento

Resumen de GN⁺

  • Este artículo comparte la experiencia de operar un NAS ZFS de 71 TiB durante 10 años sin fallas de discos
  • Apagar el servidor cuando no se usa ayuda bastante a extender la vida útil de los discos
  • ZFS es muy efectivo para prevenir la pérdida de datos, y ajustar la velocidad de los ventiladores puede reducir el ruido
  • Usó varias tarjetas de red para aumentar la velocidad de transferencia
  • También comparte experiencias sobre estrategia de respaldos y manejo de la fuente de poder

1 comentarios

 
GN⁺ 2024-09-14
Opiniones en Hacker News
  • La discusión suele centrarse en ZFS y BTRFS, pero se pregunta si alguien ha probado bcachefs

    • bcachefs está incluido en el kernel de Linux y cuenta con verificación por checksum de extremo a extremo
    • Hay un autor que se toma en serio la responsabilidad del sistema de archivos
  • Pregunta sobre si existe un calendario de rotación de discos

    • Está usando 24 discos del mismo modelo y parecen provenir del mismo lote
    • Es más probable que fallen al mismo tiempo debido a un desgaste similar
    • Un almacenamiento confiable es complicado
  • Ha escuchado la opinión contraria de que dejar los discos encendidos todo el tiempo puede reducir el desgaste frente a apagarlos periódicamente

    • Prefiere dejar su ZFS NAS encendido permanentemente para revisar los datos de forma regular
    • En 10 años operando un sistema de 4 discos, 2 fallaron, pero no eran discos de nivel empresarial (WD Green)
  • Los ventiladores grandes pueden mover mucho aire incluso a bajas RPM y son más eficientes energéticamente

    • Oxide Computer destaca que usa ventiladores de 80 mm por ser silenciosos y consumir poca energía
    • En otros servidores, el consumo de los ventiladores llega al 25% de la energía total, pero estos usan solo alrededor del 1%
  • Le gustaría escuchar más sobre la colección de películas

    • Le interesa cómo se eligieron los títulos iniciales y cuáles siguen en la colección después de más de 10 años
  • Está asumiendo el riesgo de perder el sistema por problemas eléctricos

    • Un UPS ayuda a prevenir fallas poco frecuentes por desequilibrios eléctricos
    • Puede haber picos de energía por trabajos de construcción o rayos
    • El UPS se daña primero y así protege al servidor antes de que este sufra daños
  • 24 discos pueden ofrecer ventajas de rendimiento, pero usar un NAS de 6 bahías con discos de 18 TB ofrece muchas ventajas en consumo eléctrico, ruido, espacio, costo y confiabilidad

  • El entorno en el que operan los discos influye mucho en su vida útil

    • Un entorno residencial es más variable que un centro de datos o una oficina
    • Las variaciones de temperatura y humedad, así como el polvo, tienen mucho impacto
    • En un entorno limpio y estable, las fallas de discos se reducen notablemente
  • Apagar los discos no era el secreto; simplemente tuvo suerte

    • Ha usado discos HGST de 4 TB en modo 24/7 durante más de 10 años sin fallas
    • Otras personas han pasado por varios RMA con esos mismos discos
  • También hubo discos para los que cambiar el ciclo de energía era riesgoso

    • No siempre es bueno para todos
    • Algunos SSD necesitan recibir energía periódicamente
    • Es probable que el ciclo de trabajo de un NAS cumpla con ese requisito
    • El costo de la electricidad se ha vuelto más barato
    • Se pregunta si Backblaze modela estadísticas de vida útil según la cantidad de encendidos y apagados de los discos