10 puntos por princox 28 일 전 | 5 comentarios | Compartir por WhatsApp

Caída de Claude Code, retrospectiva posterior al incidente de Boris Cherny: “No es un error individual, sino un problema de proceso”

Boris Cherny (@bcherny), creador de Claude Code, dejó un comentario breve pero contundente sobre la caída del servicio de Claude ocurrida el 31 de marzo.
“Los errores ocurren. Lo importante como equipo es reconocer que esto no es culpa de una persona en particular, sino un problema de proceso, cultura o infraestructura. En este caso, había un paso manual de despliegue que debió haber estado automatizado. El equipo ya aplicó algunas mejoras de automatización y hay otras en curso.”

¿Qué fue lo que pasó?

Desde el 31 de marzo a las 17:45 UTC hasta el 1 de abril a las 05:52 UTC, se produjo una incidencia con un fuerte aumento de timeouts en Claude Opus 4.6 y Sonnet 4.6. Según Downdetector, a las 8:30 a. m. (PT) más de 2,400 usuarios habían reportado problemas, en su mayoría relacionados con Claude Chat.
Cherny explicó directamente que la causa fue un paso manual de despliegue dentro de un proceso con automatización insuficiente.

Lo llamativo no es tanto la caída, sino la forma de responder

El comentario de Cherny refleja tal cual la filosofía del blameless postmortem de la cultura de ingeniería. Muestra que el equipo de Claude Code está poniendo en práctica un principio que desde hace mucho se enfatiza en culturas de SRE (ingeniería de confiabilidad del sitio) como las de Google y Netflix: “si castigas a una persona, el problema se oculta; hay que corregir el sistema”.

En servicios de IA que crecen con rapidez, un solo paso manual de despliegue puede derivar en una caída a gran escala, y reconocerlo públicamente para responder con más automatización es un punto que vale la pena recordar tanto para equipos pequeños como para servicios grandes.
Referencia
∙ Según la página oficial de estado de Claude (status.claude.com), la incidencia ya fue resuelta por completo.
∙ Tuit original: https://x.com/bcherny/status/2039210700657307889​​​​​​​​​​​​​​​​

5 comentarios

 
snowhare 28 일 전

Este resumen de Hacker News es el más raro de todos. Solo coincide el título, y aunque el primer contenido sí corresponde a lo traducido, el resto es contenido de lo que otras personas comentaron en X, y la explicación de contexto también es distinta. Como el texto original era un tuit corto, parece que pegaron contenido equivocado.

 
runableapp 28 일 전

¿Supongo que el resumen en GeekNews es así porque usan un LLM?

Y ahora en x.com casi todo el mundo tiene la marca azul. Recuerdo que antes era algo que solo se ponía a personas "oficiales" más o menos, pero parece que todos aceptaron el plan de pago.

 
click 27 일 전

Si quieres escribir un texto largo, tienes que ponerle una etiqueta, así que muchos también la usan para publicar en su blog o hacer anuncios.
En la época de Twitter, si mal no recuerdo, era una insignia de verificación gratuita que Twitter daba a las figuras públicas y no tenía ninguna función especial.

 
runableapp 27 일 전

Ya veo. Gracias por la respuesta.

 
princox 28 일 전

Más que la ruta de filtración, habría que decir que fue cómo ocurrió la filtración... pero no puedo editar la publicación.