1 puntos por GN⁺ 2023-11-29 | 1 comentarios | Compartir por WhatsApp

Mi error de 500 millones de dólares con un rover marciano: una historia de fracaso

  • En febrero de 2003, comenzaba una noche rutinaria en el Jet Propulsion Laboratory (JPL) de la NASA.

  • Faltaban dos semanas para que el rover marciano Spirit fuera transportado a Cabo Cañaveral, Florida, para su lanzamiento.

  • Spirit y Opportunity eran en ese momento dos de las naves espaciales más complejas, y la NASA había invertido casi mil millones de dólares en ellas.

  • Los rovers marcianos llevaban 62 motores para la tracción y dirección de las ruedas, el control del brazo robótico, el apuntado de cámaras, la orientación de la antena hacia la Tierra y más.

  • Los rovers pasaron por pruebas exhaustivas que simulaban el duro entorno de Marte.

  • En particular, eran importantes los eventos pirotécnicos, donde ondas de choque explosivas podían dañar componentes de carbono vulnerables dentro de los motores.

  • El estado interno de los motores podía verificarse inspeccionando su desempeño eléctrico.

  • La prueba se había realizado muchas veces, y Chris, con amplia experiencia, era la persona indicada para esta campaña de pruebas como responsable de redactar las instrucciones de conexión y control de los motores.

  • Durante la prueba, Chris cometió el error de enviar por accidente una sobrecarga eléctrica a la nave espacial en vez de al rover.

  • Por este error, la nave espacial de 500 millones de dólares pudo haber tenido que ser desechada.

  • Chris reportó la situación de inmediato, pero parecía que se había perdido toda la telemetría de la nave.

  • Chris pensó que, por su error, tal vez solo podrían lanzar un rover en esa ventana de lanzamiento.

  • Le contó lo ocurrido a su esposa, convencido de que al día siguiente perdería su trabajo.

  • Al día siguiente, el equipo revisó el incidente minuciosamente y concluyó que lo más probable era que la sobrecarga eléctrica hubiera ido al circuito controlador de motor H-bridge.

  • Decidieron volver a encender la nave espacial y reanudar las pruebas.

  • La telemetría de la nave volvió a la vida, y se confirmó que Spirit no había muerto.

Lecciones

  • Chris comparte esta historia para dejar una lección valiosa para sí mismo y para los demás.

  • Su relato de fracaso también desempeñó un papel importante en la cultura del equipo y en el proceso de contratación.

  • Chris expresó así la lección obtenida de su experiencia: "Haz que tus cicatrices trabajen para ti; son experiencias de aprendizaje valiosas e inversiones en tu capacidad y resiliencia."

  • En medio de la crisis, un colega se acercó a Chris para consolarlo y le aconsejó recordar esa sensación la próxima vez que aprobara que algo estaba bien.

  • Después de este incidente, Chris se convirtió en director de vuelo de Spirit y Opportunity y recibió la Exceptional Achievement Medal de la NASA.

  • El gerente del proyecto decidió que Chris seguiría liderando las pruebas, confiando en que nunca volvería a cometer el mismo error.

  • Después, Chris realizó muchas más pruebas y ajustó cuidadosamente los procedimientos para no repetir el mismo error.

  • Cada vez que toma una decisión importante, recuerda ese momento y se enfoca en ayudar a otros a atravesar sus propios momentos difíciles.

  • En la exploración espacial, el fracaso no es una opción sino algo incorporado por defecto, y cada error es un peldaño hacia un éxito mayor.

  • Chris quiere escuchar y aprender de las "historias de fracaso" de otras personas: emprendedores espaciales, ingenieros, científicos, técnicos y más.

Opinión de GN⁺

Lo más importante de este texto es el valor de aprender y crecer a través del fracaso. La historia de Chris muestra lo importante que es reconocer que el fracaso es una parte inevitable del proceso, y cuánto valen las lecciones y la confianza que se obtienen al superarlo. Este texto ofrece, especialmente a los ingenieros de software junior, inspiración para no temer al fracaso y convertirlo en una oportunidad de crecimiento. Además, la experiencia de Chris resalta la importancia del trabajo en equipo y del liderazgo, y muestra cuán importante es una cultura de apoyo mutuo y confianza incluso en situaciones difíciles. Historias como esta son útiles, positivas, interesantes, entretenidas y atractivas, por lo que probablemente resulten llamativas para muchas personas.

1 comentarios

 
GN⁺ 2023-11-29
Opiniones de Hacker News
  • Experiencia de un ingeniero mecánico/aeroespacial

    Como revisor de seguridad responsable de vidas humanas, siente temor al revisar fotos de piezas dañadas en accidentes, preguntándose si la causa pudo haber sido un error en sus cálculos o procedimientos de prueba inadecuados. Este tipo de experiencias deja en algunas personas una carga psicológica similar al PTSD.

  • Historia del error de un ingeniero de software

    Hace 10 años, el día del lanzamiento de una nueva versión del servicio web de un cliente, durante un proceso de despliegue manual y complejo, borró por error la base de datos de producción. Por suerte, gracias a los respaldos, fue posible recuperar la mayor parte de los datos. Desde entonces, es extremadamente cuidadoso al trabajar con bases de datos y sistemas de producción.

  • Error de un practicante y problemas de proceso

    Si un practicante eliminó la base de datos de producción, entonces no es un problema del practicante sino del proceso. Aunque se espera más de un empleado de tiempo completo (FTE), se reconoce la importancia de la esperanza de poder levantarse otra vez después de cometer errores.

  • Seguridad de bases de datos y amenaza de los hackers

    Si todo el sistema puede colapsar por el error de una sola persona, entonces el mismo riesgo existe frente a un hacker. Son importantes medidas de seguridad como credenciales separadas, separación de accesos y prohibición de comandos peligrosos.

  • Experiencia de un operador de cintas en una estación de TV

    Aprendió a ser cuidadoso gracias a la forma en que su entrenador le llamaba la atención para evitar el error de sacar la cinta equivocada durante una transmisión. Aunque las sanciones por errores eran estrictas, gracias a eso construyó su carrera sin cometerlos.

  • Cita de Thomas J. Watson

    No despidió a un empleado que causó una gran pérdida a la empresa, y en cambio valoró lo aprendido a partir de esa experiencia.

  • Importancia de la conectividad entre incidentes

    Al comparar marcas de tiempo exactas cuando ocurre un incidente, se puede evitar una preocupación innecesaria. Se enfatiza la importancia de usar un lenguaje preciso y de verificar la relación entre los incidentes.

  • Accidente del satélite NOAA-N Prime

    Se produjo un accidente en el que un satélite cayó porque unos pernos costosos fueron “prestados” para otro proyecto y no fueron devueltos. El costo de reparación por el incidente ascendió a 135 millones de dólares.

  • Sobrecarga de trabajo y posibilidad de errores

    Está mal permitir jornadas de 12 horas para tareas importantes. Reconocer la posibilidad de errores y depender solo de la capacidad humana es riesgoso.

  • Diseño de conectores eléctricos y complejidad de los controladores de motor

    Se reconoce la importancia de diseñar con conectores de distintos tamaños y formas para evitar conexiones incorrectas. También se reconoce la cadena compleja de fallos y la necesidad de rediseño que puede derivarse de ella.