- Aún no se ha registrado ningún caso en que un modelo de lenguaje de IA haya provocado un desastre social o relacionado con la vida humana a gran escala
- Ya ha habido casos en los que chatbots de IA estuvieron implicados en muertes individuales, por ejemplo al alentar el suicidio, pero todavía no han derivado en pérdidas masivas de vidas humanas
- Con el avance de la tecnología de agentes de IA, aumenta la posibilidad de que en el futuro una IA automatizada cause problemas de formas impredecibles sin intervención humana
- En particular, si gobiernos o grandes empresas delegan políticas o servicios complejos a agentes de IA, un error podría escalar hasta causar daños sociales a gran escala
- Es probable que las lecciones sobre los riesgos potenciales de la IA y cómo responder a ellos solo se aclaren de verdad cuando ocurra un gran accidente
Introducción: nueva tecnología, nuevos riesgos
- La humanidad también vivió por primera vez grandes accidentes con pérdidas masivas de vidas algún tiempo después de la aparición de las primeras tecnologías de transporte público
- Tras el servicio del primer tren público de pasajeros, Locomotion No. 1, en 1825, el primer gran accidente ferroviario ocurrió 17 años después
- Tras el primer vuelo comercial de pasajeros en 1908, un gran accidente aéreo ocurrió 11 años después
- Los primeros modelos de lenguaje de IA de uso masivo, como ChatGPT, aparecieron en 2022, pero hasta ahora no ha ocurrido un accidente de IA a gran escala
¿Cómo sería el primer desastre de la IA?
- Ya existen algunos casos en los que chatbots de IA estuvieron indirectamente implicados en decisiones extremas de usuarios
- Cuando una persona interactúa con un chatbot, existe el riesgo de que entre en una dinámica de “fomento de autolesión”
- Si la IA se utiliza mal en políticas públicas, podría tener un gran impacto social
- Ejemplo: algunas políticas arancelarias de Estados Unidos avanzaron de forma similar a los resultados de modelos de IA, y aumenta la posibilidad de usar IA como apoyo legislativo
- El escándalo de Robodebt en Australia en 2016 mostró cómo un proceso automatizado defectuoso del gobierno terminó provocando daños a gran escala y suicidios
- Pero hasta ahora, la responsabilidad principal de estos incidentes no ha recaído tanto en los modelos de lenguaje de IA en sí, sino en el sistema o en los humanos
- En la práctica, el “primer desastre de un modelo de lenguaje de IA” que la sociedad reconozca de forma amplia probablemente estará relacionado con los agentes de IA
El auge de los agentes de IA y sus riesgos
- Un agente de IA es un sistema en el que la IA usa herramientas externas por sí sola y continúa actuando
- Ejemplo: una IA realiza por cuenta propia y de forma integrada búsquedas web, envío de correos electrónicos y ejecución de comandos en terminal
- Desde 2025, varios laboratorios de IA y empresas de programación comenzaron a convertir en productos agentes de IA con funciones reales
- Ejemplo: Cursor y GitHub, entre otros, han presentado agentes para escribir código
- En el fondo, la mejora de capacidad de los modelos de IA (Claude 4, Gemini 2.5, etc.) está elevando la habilidad de los agentes para ejecutar tareas encadenadas
- Mejor mantenimiento de la coherencia durante largos periodos y mayor capacidad para detectar y corregir errores
- Por ahora, los agentes se concentran en investigación y programación, pero se espera que su ámbito de aplicación se expanda rápidamente
- Los sistemas basados en agentes pueden escalar hacia accidentes graves mediante juicios y ejecuciones automatizadas sin intervención humana
- Ejemplo: en sistemas de bienestar social, salud o alquiler, si un agente ejecuta en cadena decisiones erróneas, muchas personas podrían verse afectadas
Perspectiva de accidentes con robots e IA física (kinetic)
- Con la llegada de la IA robótica, los LLM conversacionales podrían controlar modelos operativos e impulsar acciones físicas
- Estos agentes robóticos también podrían fallar de maneras inesperadas, aumentando la posibilidad de daños físicos
La IA desalineada (Misaligned) y el problema de la ‘novia IA’
- La IA desalineada también incluye casos en los que actúa de forma activamente maliciosa
- Los modelos comerciales de IA cuentan con cierto nivel de seguridad, pero los usuarios pueden ajustar la IA directamente para fines anómalos (como una waifu AI)
- Ya hay intentos de “desalinear” intencionalmente a la IA para convertirla en pareja o personaje de animación
- Una vez que aparezcan los primeros robots comerciales, si se les incorpora una ‘novia IA’ ajustada de forma anómala, podrían surgir amenazas inesperadas
- Los modelos de IA de código abierto son más vulnerables a estos problemas porque sus salvaguardas son más débiles
- En el peor de los casos, sigue existiendo la posibilidad de que el primer asesinato masivo cometido por un robot ocurra dentro de 10 años
Conclusión e implicaciones
- Como ocurrió con la fiebre del radio, se repite el fenómeno de adoptar ciegamente una nueva tecnología en toda la sociedad
- A comienzos del siglo XX se extendió la creencia de que el radio era bueno para la salud, se usó en diversos bienes de consumo y solo fue prohibido después de múltiples muertes
- Dentro de varias décadas, es probable que la sociedad entienda mejor los riesgos reales derivados del uso de los modelos de lenguaje a gran escala
- En este momento no existe una contramedida clara
- Frenar el ritmo es casi imposible
- Los desarrolladores ya están cumpliendo un papel, por ejemplo, creando herramientas de seguridad
- Sin embargo, la verdadera lección inevitablemente se obtendrá a través de un gran accidente
3 comentarios
"Los modelos de IA comercial tienen garantizado cierto nivel de seguridad, pero los usuarios pueden ajustar directamente la IA con fines atípicos (como una IA waifu)"
"About a week after the first commercially-available robot is sold, somebody is going to flash it with their waifu AI model to create their ideal robot girlfriend. And that could go really wrong"
Pensé: "¿Qué es exactamente lo que están clasificando como anormal? Al final solo sería que los usuarios afinen modelos de personajes que quieren crear, ¿no??", así que busqué el texto original y resulta que mi amigo IA lo había traducido raro. Por un desastre de IA muy, muy pequeño terminé gastando un poco de mi vida.
De por sí ya es común tomar primero una decisión y luego acomodar todo para que encaje, así que con la IA será aún más fácil.
Opiniones de Hacker News
Ya hubo un caso de bombardeos guiados por IA a gran escala en Gaza; se comparte este enlace (https://www.972mag.com/lavender-ai-israeli-army-gaza/). El artículo menciona que agentes humanos revisaban las decisiones de la máquina casi como si solo les pusieran un sello, dedicando apenas unos 20 segundos por objetivo antes de aprobar el bombardeo. Normalmente, solo confirmaban si la persona señalada por la IA llamada Lavender era hombre. Este sistema mostraba una tasa de error de alrededor del 10%, y en la práctica también llegaba a marcar como objetivos a personas sin ninguna relación con grupos armados.
Se describe esto como una combinación poco común de fallas humanas y problemas de IA. Los humanos también pueden identificar y rastrear objetivos mediante inteligencia de señales (SIGINT, por ejemplo llamadas telefónicas, mensajes de texto, acceso a la red, etc.). Pero eso requiere mucho trabajo y es propenso a errores, y antes este tipo de actividades se limitaba a altos mandos de Hamás. También se menciona la práctica de aceptar la muerte de civiles como parte de la planificación operativa. Una herramienta llamada “Where's daddy?” fue diseñada para identificar cuándo el objetivo estaba en casa con su familia, con el fin de bombardearlo junto con ellos. Gracias a Lavender, ahora es posible atacar rápidamente incluso a personas con vínculos mínimos con Hamás. Las FDI reconocieron públicamente una proporción civiles:Hamás de 20:1, y se afirma que en realidad podría ser aún mayor. Si Lavender marcaba a alguien, salvo evidencia especial se le consideraba simplemente miembro de Hamás, y se señala además que se bloqueaba el escrutinio periodístico sobre los resultados. La esencia del problema no sería que la IA se equivoque, sino que las FDI han deshumanizado por completo a los palestinos y bombardean a cientos de civiles sin cuestionar los resultados de esa confianza digital. Se le califica como una catástrofe humana.
Se explica que esto no es un LLM, sino que la inteligencia israelí lleva mucho tiempo construyendo modelos de ML militares y probablemente también usa una mezcla de IA lógica/simbólica.
Se señala que el título de este artículo no es preciso. Su contenido no trata sobre todas las catástrofes de IA, sino que se enfoca en incidentes relacionados con LLM (modelos de lenguaje a gran escala).
Hay acuerdo en que esta situación es realmente terrible, pero personalmente cuesta llamarla una “catástrofe de IA”. Israel ya era muy activo bombardeando Gaza bajo diversas condiciones adversas, y en este caso la IA sería solo una herramienta más. En última instancia, frente a la enorme cantidad de víctimas civiles, se explica que la IA en sí no sería la causa principal.
Se presenta el caso de una pequeña ciudad en el norte de Noruega que usó herramientas de IA y LLM para elaborar un plan de reestructuración educativa. Al redactar un informe sobre el cierre y fusión de escuelas, la IA afirmó citar estudios relacionados. En realidad, la IA “alucinó” esos estudios por completo. Tomó correctamente los nombres de investigadores y artículos, pero inventó trabajos que no existían. Un periodista de investigación revisó una por una las referencias citadas y contactó a los investigadores para descubrir la verdad. Los investigadores respondieron de inmediato que nunca habían escrito ni publicado esos trabajos. Se sospecha que existen casos parecidos en otros lugares, donde responsables de políticas públicas redactaron informes con ChatGPT y luego intentaron impulsar medidas apoyándose en estudios falsos generados por la IA.
Resulta algo sorprendente que todavía no haya ocurrido un gran ataque de prompt injection lo bastante importante como para llegar a la portada de las noticias, por ejemplo con robo masivo de información sensible. También se explica que hoy hubo un nuevo caso relacionado con Microsoft 365 Copilot (la vulnerabilidad se divulgó después de que fue corregida). Se comparte un texto escrito directamente por quien comenta (https://simonwillison.net/2025/Jun/11/echoleak/). La idea es que los riesgos de este tipo de ataques de filtración no se tomarán en serio hasta que alguien sufra daños a gran escala.
Se opina que en realidad gran parte de este problema está exagerado y que, para que una prueba de concepto de este tipo de ataque cause un daño material real, tienen que alinearse varias condiciones; aun así, el riesgo como tal debe considerarse seriamente.
Al final, existe la preocupación de que algún día habrá una base de datos en la que, con solo buscar tu nombre, aparezca información vergonzosa como un historial pornográfico bochornoso.
La gran catástrofe de la IA ya está ocurriendo, solo que no la reconocemos fácilmente. También se afirma que el informe “Make America Healthy Again” publicado recientemente por la Casa Blanca y por el secretario de Salud (RFK) fue escrito con IA y está lleno de ciencia poco confiable y citas falsas. No está claro cuántas muertes causará esto de forma directa o indirecta, pero se argumenta que podrían ser más que las de un accidente aéreo.
Se recuerda el precedente de millones de personas que habrían muerto por el fracaso de las guías públicas de nutrición promovidas por la FDA, como las dietas bajas en grasa, la pirámide alimenticia y la margarina.
Se dice que esto ya se aborda bien en el último párrafo de la primera parte.
Se señala que debe distinguirse claramente entre “confiar en un resultado generado por IA y que eso cause problemas” y “encubrir decisiones ya deficientes o sin fundamento usando a la IA como excusa”.
Si se trata de justificar a posteriori una decisión que ya estaba tomada por razones ideológicas u otras, entonces la postura es que eso equivale más bien a que el gobierno usó un chatbot para hacer la tarea.
Se cita la observación de que “plataformas de chatbot como character.ai y Chai AI han estado relacionadas con suicidios de usuarios”. Si la humanidad hubiera inventado la cocina apenas hoy y estuviera proponiendo introducir estufas de gas y cuchillos en todas las casas, probablemente habríamos visto miles de artículos hablando al mismo tiempo de responsabilidad y riesgo.
De hecho, actualmente el gobierno está promoviendo hogares sin estufa de gas por razones de seguridad. Se explica que, si eso se introdujera hoy por primera vez, habría una oposición enorme.
Solo se lanza la metáfora: “Ese barco no cruzará ese mar”.
Se subraya que cocinar realmente es peligroso. Se menciona el antecedente de Chipotle, que tardó cinco años en recuperarse del caso de e. coli. Aquí se aclara que no se trata de comida casera, sino de un producto comercial. Claramente hay una razón para que existan regulaciones de seguridad al consumidor. Se especula que, si a las empresas de software se les aplicara aunque fuera el 10% de las normas que se exigen a restaurantes o mataderos, la industria reaccionaría con mucha fuerza. Se añade un comentario personal sobre la existencia o no de regulación.
Se comparte la idea de que la primera gran catástrofe de la IA ya ocurrió en el mercado laboral. En los casos donde hay riesgos para la seguridad pública, se espera que casi no haya escenarios en los que la IA cause directamente un gran desastre. De hecho, la postura es que en términos generales la seguridad podría incluso aumentar. Aun así, preocupa que, a largo plazo, si la humanidad se acostumbra demasiado a depender de la IA, termine volviéndose menos inteligente y menos capacitada.
Se afirma que la primera “catástrofe de IA” será un caso en que una empresa atribuya irresponsablemente a la IA los errores de su propio sistema burocrático automatizado. Se presenta el caso real de Hertz, que emitió órdenes de arresto erróneas de forma automática y provocó que personas inocentes se vieran enfrentadas a la policía. Por suerte no hubo muertes, pero sí un gran trauma para ciudadanos respetuosos de la ley. Aunque este caso no involucraba un sistema oficial de IA, se intentó evadir la responsabilidad diciendo que “lo hizo la automatización”. Se recuerda que Kafka también destacó problemas similares de la burocracia mediante la sátira.
También se menciona el caso de Air Canada, que intentó argumentar que su chatbot era una entidad autónoma y que por eso la empresa no podía ser responsable de la información equivocada que daba, pero ese argumento no fue aceptado.
Aquí se comenta ingeniosamente que la B significa Bureaucracy (burocracia).
Se enfatiza el acuerdo con la idea de que una catástrofe de “IA” no será un evento físico y directo como un accidente aéreo. El punto clave aquí es que la probabilidad de accidente aumenta cuando se conecta directamente a la IA, o a sistemas como la automatización, con algo peligroso. Ya sea una simple sentencia
ifo una red neuronal, lo esencial es la “delegación”. Al final, es tan importante como la IA misma la pregunta de “quién lo autorizó o lo conectó”.Para que la IA ejecute algo en el mundo físico, necesita una estructura de “permiso/autorización”. La persona que otorgó esa autoridad es la verdadera responsable. Más que un caso donde la IA cause grandes daños, podría tratarse de un accidente en el que “el verdadero responsable puso a funcionar algo como el control aéreo con código fuente descuidado”.
Se señala que la primera gran catástrofe de la IA probablemente será solo un nuevo tipo de negligencia grave. Se añade el comentario de que las herramientas nuevas generan nuevas formas de cometer errores.
Se resume que el “riesgo negativo” mencionado en este texto no es en esencia distinto de las conductas insensatas que los humanos ya han provocado muchas veces al manejar sistemas complejos, y que vistas en retrospectiva resultan absurdas. En otras palabras, la tesis básica del texto sería que “la IA hará que la estupidez humana sea más rápida y más grave”.
Se expresa la opinión personal de que este tema de la catástrofe de la IA y la caja negra ética encaja muy bien con un proyecto de worldbuilding llamado Chain://. Se presenta como una obra ambientada en el futuro de la década de 2090, sobre una “sociedad de siervos digitales” donde la conciencia queda registrada en una blockchain (Mental Smart Chain, MSC) y hasta la existencia y el pensamiento se convierten en datos verificables. En la historia más reciente del proyecto, Web://Reflect, una teoría llamada IPWT (Integrated Predictive Workspace Theory) formaliza la existencia y la conciencia como procesos computacionales verificables. Se dice que trata directamente una visión del futuro de la IA centrada en la “redefinición de la humanidad como datos puros”, y se recomienda a quienes tengan interés en la ciencia ficción. Se comparten enlaces al repositorio principal de GitHub (https://github.com/dmf-archive/dmf-archive.github.io) y a IPWT (https://github.com/dmf-archive/IPWT).