Depuración de Hetzner: resolver problemas con powerstat, sensors y dmidecode
-
Contexto
- Ubicloud adoptó servidores AX162 de Hetzner, pero sufrió graves problemas de confiabilidad.
- Los servidores AX162 ofrecían mejor rendimiento y menor precio que el modelo anterior, pero fallaban 16 veces más seguido.
- El problema solo se resolvió después de varias actualizaciones de hardware.
-
Aparición del problema
- El primer servidor AX162 se cayó apenas 3 semanas después de la compra.
- Se encontraron bytes NULL en los registros del sistema, lo que indicaba una falla repentina como una pérdida de energía.
- Hetzner realizó una inspección de hardware, pero no encontró anomalías.
- A medida que aumentaba la frecuencia de las caídas, Hetzner reemplazaba los servidores cada vez que detectaba un defecto de hardware.
-
Investigación inicial
- Carga del sistema: se pensó que el problema podía ocurrir cuando aumentaba la carga, pero también hubo caídas con carga baja o nula.
- Temperatura: se midió la temperatura con sensores, pero en el momento de las caídas no era más alta que el promedio.
- Componentes defectuosos: se recopiló información de hardware con el comando dmidecode, pero no hubo grandes diferencias entre los servidores que fallaban y los que no.
- Consumo eléctrico: se midió el consumo con la herramienta powerstat, y se sospechó que Hetzner podía estar limitando el uso de energía.
-
Recolección y comparación de datos de tasa de fallas
- Se usó la tasa anual de fallas (AFR) para medir la confiabilidad del hardware.
- Los servidores AX162 fallaban 16 veces más seguido que otros modelos.
- Después de la primera caída, el 80% de los servidores sufría una segunda caída en menos de 24 horas.
-
Observación de estabilidad con hardware nuevo
- Hetzner confirmó un lote defectuoso de placas madre y recomendó su reemplazo.
- Incluso después del cambio a una nueva placa madre, siguieron ocurriendo caídas.
- Tras cambiar a la placa madre más reciente y monitorear durante varios meses, el problema quedó resuelto.
-
Mejoras en el proceso
- Hace falta una revisión exhaustiva al adoptar un nuevo modelo de servidor.
- El hardware nuevo debe incorporarse de forma gradual, empezando por tareas no críticas.
- Se deben sumar más proveedores de bare metal para diversificar el riesgo.
-
Conclusión
- La adopción inicial de los servidores de Hetzner causó problemas, pero se resolvieron mediante mejoras continuas.
- Ubicloud seguirá trabajando para ofrecer soluciones de nube con confiabilidad y capacidad de adaptación.
1 comentarios
Comentarios de Hacker News