1 puntos por GN⁺ 2025-12-15 | 1 comentarios | Compartir por WhatsApp
  • En la plataforma Claude se reportó un aumento en la tasa de errores de varios modelos
  • Los usuarios pueden suscribirse por correo electrónico o SMS para recibir alertas de incidentes y de resolución
  • Las alertas por SMS permiten registrar números de distintos países mediante una lista global de códigos de país
  • Los suscriptores pueden recibir actualizaciones por SMS tras pasar una verificación con OTP (contraseña de un solo uso)
  • Es un caso que muestra el sistema de monitoreo de incidentes del servicio Claude operado por Anthropic

Aviso de incidente del servicio Claude

  • En la página de estado de Claude se anunció un estado de alta tasa de errores en varios modelos
    • Se muestra con la frase “Elevated errors across many models”
    • No se explica la causa específica ni el alcance del impacto

Forma de suscripción a las alertas

  • Los usuarios pueden recibir notificaciones de actualizaciones del incidente por correo electrónico o SMS
    • El correo electrónico notifica cada vez que el incidente se actualiza
    • Los SMS se envían cada vez que Claude crea o resuelve un incidente

Proceso de registro para alertas por SMS

  • Para recibir alertas por SMS se requiere el proceso de seleccionar el código de país → ingresar el número de celular → verificación por OTP
    • Es necesario ingresar el OTP (contraseña de un solo uso) para validar el número
    • Después de la verificación, se pueden recibir actualizaciones por SMS

Lista de países compatibles

  • La página incluye una lista de códigos de país de la mayoría de los países del mundo
    • Ejemplo: Estados Unidos (+1), Corea del Sur (+82), Japón (+81), Reino Unido (+44), Alemania (+49), etc.
    • Los usuarios de cada país pueden recibir alertas por SMS con el mismo procedimiento

Significado del monitoreo del estado del servicio

  • La página de estado de Claude funciona como una ventana pública del estado de incidentes en tiempo real de los servicios de Anthropic
    • Ofrece a los usuarios una función transparente de alertas de incidentes y seguimiento del progreso de la recuperación
    • Es un sistema que permite a desarrolladores y clientes empresariales identificar de inmediato la disponibilidad del servicio

1 comentarios

 
GN⁺ 2025-12-15
Opiniones de Hacker News
  • Me impresionó que actualizaran la página de estado apenas surgió el problema
    Estaba usando Claude Code, me salió un error de API, revisé la página de estado y efectivamente ya mostraba la caída
    Creo que este tipo de respuesta transparente es algo que todos los servicios deberían hacer por defecto

    • El hábito de hacer público el incidente en cuanto empieza a afectar a los usuarios es un reflejo que se me quedó trabajando como SRE en Google y Anthropic
      Justo estaba usando Claude personalmente, así que pude darme cuenta de inmediato de la gravedad de la caída
    • Yo también revisé la página de estado dos minutos después de experimentar el problema y ya estaba actualizada
    • Estaba depurando un error 529, y esta caída me dejó confundido por un rato
    • Me pasó lo mismo, vi la página de estado y de inmediato hice clic en suscribirme a las actualizaciones
      Parece que los usuarios de Claude trabajan duro incluso el domingo por la noche
  • Soy uno de los ingenieros de respuesta a incidentes en este caso
    A las 14:43 PT / 22:43 UTC ya habíamos mitigado el problema. Disculpen las molestias

    • Yo también soy ingeniero del mismo equipo, y la causa fue un error en la configuración del enrutamiento de red
      Un anuncio de rutas duplicadas hizo que parte del tráfico hacia algunos backends de inferencia cayera en un blackhole
      Tardamos unos 75 minutos en detectarlo, y algunas rutas de mitigación no funcionaron como esperábamos
      Ya se eliminaron las rutas incorrectas y el servicio se recuperó
      En adelante vamos a reforzar el synthetic monitoring y la visibilidad sobre los cambios de infraestructura para detectarlo más rápido
    • Me pregunto si tienen pensado publicar un reporte de análisis del incidente como hace Cloudflare
      Gracias a esa transparencia terminé confiando más en Cloudflare
    • Justo cuando tenía que preguntarle algo sí o sí a Claude, dejó de funcionar y fue un problema
    • Ojalá puedan terminar bien el fin de semana
    • Como desarrollador, me da simple curiosidad saber más sobre cómo surgen este tipo de problemas en entornos de despliegue a gran escala
  • Me imaginé una distopía steampunk dentro de 50 años
    “El hosting de LLM se detuvo, la producción mundial se paralizó y el mercado colapsó. Sam, ¿me escuchas?”
    Solo pensarlo da risa

    • Que todos usen los mismos tres proveedores centralizados de inferencia es tan poco realista como que hoy todos dependan de us-east-1 y Cloudflare
    • No sería muy distinto de una caída de Internet o de Cloudflare
    • Recuerdo que Karpathy llamó a este tipo de caída un ‘intelligence brownout’
      Video relacionado: YouTube Shorts
    • Me viene a la mente una frase como “solo un coder solitario, hábil en la manipulación simbólica, quedó entre la humanidad y la oscuridad”
    • Suena al tipo de chiste de “creamos el problema con vibe coding, y ahora que el LLM está caído ya no podemos arreglarlo con vibes”
  • Recibí este mensaje en el chat de Claude.ai

    "You have reached the messages quota for your account. It will reset in 2 hours, or you can upgrade now"
    

    O el timing fue increíblemente preciso, o el equipo de monetización merece un bono

    • Probablemente el manejo de errores no está bien implementado
      Puede que el backend no esté devolviendo errores 429/402, o que el gateway los esté manejando mal y por eso muestre un mensaje incorrecto
    • Yo también vi ese mismo mensaje y pensé que solo era una cuestión de timing
  • Si descontinúan Opus 4.5, creo que voy a llorar

    • Ya había gente pidiendo más créditos de API y parecían adictos
    • Parece que todos están bastante conformes con el precio
  • Justo antes de la caída, Opus empezó a dar respuestas extrañamente largas
    Incluso a preguntas simples respondía como si estuviera vomitando todo el codebase, y en una pregunta sencilla sobre el esquema de base de datos llegó a comprimir dos veces

  • canivibe.ai — quizá se pueda mantener la vibra según el servicio que uses

    • El sitio está bueno, pero en apps de chat como Discord los embeds no funcionan bien
    • Que la disponibilidad sea de 89% ya suena a cifra de broma
    • “Vibedetector” le quedaría perfecto como nombre
  • Me pregunto si esto no habrá sido en realidad una caída de AWS

  • Según la página de estado, ya parece haberse recuperado
    Vi que un agente estaba atrapado en el mismo bucle de error y esta vez sí devolvió el resultado correctamente
    Me da la impresión de que agregaron una regla para detectar este tipo de fallas automáticamente, y fue una respuesta bastante inspiradora