1 puntos por GN⁺ 2024-11-27 | 1 comentarios | Compartir por WhatsApp
  • Esta página proporciona actualizaciones sobre incidentes globales. No incluye fallas rutinarias de hardware ni incidentes de infraestructura de alcance limitado.
  • Para ver todos los incidentes que pueden afectar a una app personalizada, puedes consultar la página de estado personalizada en el panel de control de tu organización de Fly.

Incidentes pasados

27 de noviembre de 2024

  • No se reportaron incidentes

26 de noviembre de 2024

  • Latencia de la API y errores de timeout: Resuelto. El rendimiento de la Machines API y la GraphQL API volvió a la normalidad.
  • Degradación de conectividad: Las máquinas de algunos clientes fueron limitadas debido al despliegue completo de la cuota de CPU. Esto causó problemas de red, por lo que el cambio se revirtió temporalmente para resolverlo.
  • Degradación del rendimiento de la API: Resuelto. El sistema fue escalado y se aplicaron correcciones a la API, por lo que opera con normalidad.

25 de noviembre de 2024

  • Degradación del rendimiento de la API: El problema fue identificado y se está corrigiendo. El rendimiento de la Machines API y del proxy se degradó.
  • Recuperación del clúster Corrosion: El proceso de recuperación y resincronización está en curso, y todavía sigue trabajando en algunos hosts.

24 de noviembre de 2024

  • No se reportaron incidentes

23 de noviembre de 2024

  • No se reportaron incidentes

22 de noviembre de 2024

  • Búsqueda de logs no disponible: Resuelto. Afectó al panel de búsqueda de logs de Fly Metrics y a los logs históricos de apps.

21 de noviembre de 2024

  • Mantenimiento de red de emergencia: Completado. El proveedor de red realizó un reemplazo de switch.

20 de noviembre de 2024

  • No se reportaron incidentes

19 de noviembre de 2024

  • Búsqueda de logs no disponible: Resuelto. Afectó al panel de búsqueda de logs de Fly Metrics y a los logs históricos de apps.

18 de noviembre de 2024

  • No se reportaron incidentes

17 de noviembre de 2024

  • No se reportaron incidentes

16 de noviembre de 2024

  • No se reportaron incidentes

15 de noviembre de 2024

  • No se reportaron incidentes

14 de noviembre de 2024

  • Degradación de conectividad IPv6 en IAD: Resuelto. El problema se resolvió en coordinación con el proveedor upstream.

1 comentarios

 
GN⁺ 2024-11-27
Comentarios de Hacker News
  • Un usuario menciona que un sitio web alojado en fly.io estuvo caído durante 5 minutos, pero desde entonces ha operado de forma estable. Está usando un servicio de monitoreo gratuito que lo revisa cada 5 minutos.

  • fly.io publicó un postmortem y explicó que en 2016 usaba un servidor TLS centralizado llamado Consul, pero que en 2020 lo reemplazó por Corrosion. En octubre de 2024, la clave de firma de la clave raíz de Consul expiró, se cortó la conexión y lograron recuperarse al desplegar un nuevo certificado SSL.

  • Debido a problemas de infraestructura de fly.io, también descubrieron que las claves TLS de otros servicios habían expirado, y que una herramienta de logs estaba lanzando un ataque DDoS contra el proveedor de red. Hizo falta mucho esfuerzo para resolver varios problemas.

  • Se pone en duda la confiabilidad de fly.io y se menciona que, si una plataforma cloud no puede ofrecer fiabilidad, quizá sea mejor rentar un servidor virtual.

  • La API de Fly.io sigue siendo inaccesible, y un usuario dice que no puede acceder ni a los despliegues ni a la base de datos. Las actualizaciones precisas pueden consultarse en la página de la comunidad.

  • Al comparar personalmente Fly.io con Railway.com, se comenta que Railway fue mejor y que su soporte también fue excelente. Fly.io no respondió a consultas sobre eliminación de datos.

  • Se menciona haber experimentado varias caídas importantes de Fly.io, y se enfatiza que la estabilidad del servicio debe ser la máxima prioridad.

  • Turso también está experimentando problemas relacionados con la caída de Fly.io, y su CEO lo confirmó en Discord.

  • Se cuestiona el bajo precio de Fly.io, y se menciona que la documentación técnica explica que una instancia queda fija en un solo servidor físico, por lo que si ese servidor cae, hay que restaurarla desde un respaldo.

  • Se menciona que hay una tendencia a que las caídas ocurran durante semanas de feriados importantes, y que MS 365/Teams/Exchange también se vieron afectados. Se sugiere que lo mejor es congelar los cambios durante los feriados importantes.

  • También se menciona que la serie de incidentes de principios de 2023 estuvo relacionada con problemas de Corrosion.