Las tres leyes inversas de la IA
(susam.net)- Desde el lanzamiento de ChatGPT, los servicios de chatbots de IA generativa se han integrado en motores de búsqueda, herramientas de desarrollo y software de oficina, volviéndose parte de la computación cotidiana, y el hábito de confiar en sus respuestas sin revisarlas puede ser socialmente peligroso
- Las leyes inversas de la robótica son principios que no se aplican a robots o IA, sino a los humanos, y sirven como criterios para mantener a las personas seguras al interactuar con máquinas, programas, servicios o sistemas de IA que realizan automáticamente tareas complejas
- El primer principio es la no antropomorfización: no se debe atribuir emociones, intenciones ni agencia moral a la IA, ni confundir la conversación cortés y empática de un chatbot con comprensión o juicio reales
- El segundo principio es la no credulidad ciega: el contenido generado por IA no debe tratarse como autoritativo sin verificación independiente, y cuanto más sutiles pero costosos sean los errores en un contexto, mayor debe ser la carga de comprobación, ya sea con proof checkers, pruebas unitarias o verificación directa
- El tercer principio es la prohibición de renunciar a la responsabilidad: la IA es una herramienta que no elige objetivos ni asume el costo del fracaso, por lo que las personas y organizaciones que deciden seguir sus recomendaciones deben responder por los resultados
Riesgos que surgen del uso de IA generativa
- Después del lanzamiento de ChatGPT en noviembre de 2022, los servicios de chatbots de IA generativa se volvieron más sofisticados y masivos, y al integrarse en motores de búsqueda, herramientas de desarrollo de software y software de oficina, pasaron a formar parte de la computación diaria
- Estos servicios son útiles para explorar temas desconocidos o como herramientas generales de apoyo a la productividad, pero el hábito de confiar en sus respuestas sin una revisión adicional puede ser socialmente peligroso
- A medida que los motores de búsqueda más populares destacan respuestas generadas por IA en la parte superior de la página, a los usuarios les resulta más fácil aceptar esa respuesta y seguir adelante sin desplazarse más
- Con el tiempo, esta disposición puede entrenar a los usuarios a tratar la IA no como punto de partida para investigar más, sino como autoridad por defecto
- En los servicios de IA generativa pueden aparecer respuestas incorrectas, engañosas o incompletas, y hace falta una advertencia breve y visible de que confiar de forma habitual en los resultados de la IA es riesgoso
- Incluso cuando existe esa advertencia, por lo general tiende a minimizarse y a recibir menos énfasis visual
Contexto de las tres leyes inversas de la robótica
- Las Three Laws of Robotics de Isaac Asimov aparecen repetidamente en sus obras como principios que restringen el comportamiento de los robots para mantener seguros a los humanos
- No parece que Asimov haya creado un conjunto equivalente de leyes sobre cómo los humanos deben interactuar con los robots, y en el entorno actual de la IA hacen falta principios de respuesta para proteger a las personas
- Las leyes inversas de la robótica (Inverse Laws of Robotics) se aplican a toda situación en la que un ser humano interactúa con un robot
- Aquí, robot se refiere a máquinas, programas de computadora, servicios de software o sistemas de IA capaces de realizar automáticamente tareas complejas
- La palabra inverse no significa negación lógica, sino que las leyes se aplican a los humanos y no a los robots
- Las leyes de Asimov tenían defectos, y él los usó como fuente de tensión narrativa, pero las formas de falla que aparecen en robots ficticios no se trasladan tal cual a leyes inversas pensadas para humanos
- No existe un conjunto finito de leyes capaz de resolver por completo los complejos problemas de la IA y la robótica; siempre habrá casos límite que requieran juicio
- Aun así, un conjunto imperfecto de principios que ayude a pensar los riesgos con mayor claridad puede ser útil
Las tres leyes inversas de la robótica
-
No antropomorfización
- Los humanos no deben antropomorfizar los sistemas de IA, ni atribuirles emociones, intenciones o agencia moral
- La antropomorfización distorsiona el juicio y, en casos extremos, puede llevar a dependencia emocional
- Los sistemas modernos de chatbot a menudo suenan conversacionales y hasta empáticos, y usan expresiones corteses y patrones de diálogo que se parecen a la interacción humana
- Estas características hacen que usarlos sea más fácil y agradable, pero también facilitan olvidar que la IA en realidad es un modelo estadístico a gran escala que genera texto plausible a partir de patrones en los datos
- Muchos servicios de chatbot basados en IA se ajustan deliberadamente para parecer más humanos, en lugar de más mecánicos
- A largo plazo, un tono un poco más robótico podría ser un enfoque más saludable, porque reduce la posibilidad de que los usuarios confundan el lenguaje fluido con comprensión, juicio o intención
- Hagan o no hagan ese cambio los proveedores, los usuarios deben evitar activamente el hábito de tratar a los sistemas de IA como agentes sociales o morales
- Solo así se puede juzgar con mayor claridad cuáles son las capacidades y límites de la IA
-
No credulidad ciega
- Los humanos no deben confiar ciegamente en las salidas de los sistemas de IA, ni tratar el contenido generado por IA como autoritativo sin una verificación independiente acorde al contexto
- Este principio no se aplica solo a la IA; en la mayoría de los ámbitos de la vida no se debe aceptar información de manera acrítica
- En la práctica, como no todo el mundo es experto en medicina o derecho, muchas veces se depende de instituciones confiables y de la orientación de autoridades de salud pública
- La orientación emitida por esas instituciones suele pasar por revisión por pares de expertos en ese campo
- En cambio, una respuesta dada por un chatbot de IA en una sesión individual de chat no pasa por revisión por pares respecto de esa respuesta probabilística específica presentada al usuario
- Por eso, la carga de revisar críticamente esa respuesta recae en el usuario
- Hoy los sistemas de IA muestran un desempeño impresionante en ciertas tareas, pero también se sabe que generan respuestas inadecuadas para confiar en ellas
- Incluso si mejoran hasta producir resultados confiables con alta probabilidad, su naturaleza probabilística inherente deja abierta una pequeña posibilidad de error
- El uso de IA es especialmente riesgoso en contextos donde los errores son sutiles pero costosos
- Cuanto más graves sean las consecuencias potenciales, mayor debe ser también la carga de verificación
- En algunas aplicaciones, como la redacción de demostraciones matemáticas o el desarrollo de software, se pueden añadir capas automáticas de validación como proof checkers o pruebas unitarias para comprobar la salida de la IA
- En otros casos, el usuario debe verificar por sí mismo la salida de manera independiente
-
Prohibición de renunciar a la responsabilidad
- Los humanos deben asumir plena responsabilidad por las decisiones en las que participa la IA, y deben rendir cuentas (accountability) por los resultados del uso de la IA
- Si se sigue un consejo o una decisión generada por IA y luego hay un resultado negativo, no basta con decir: “la IA me dijo que lo hiciera”
- Los sistemas de IA no eligen objetivos, no se despliegan por sí mismos ni asumen el costo del fracaso
- Quienes fijan objetivos, despliegan estos sistemas y cargan con el costo del fracaso son los humanos y las organizaciones
- Los sistemas de IA son herramientas, y como cualquier otra herramienta, la responsabilidad por su uso recae en quienes decidieron depender de ellas
- Este principio es especialmente difícil de aplicar en usos en tiempo real, como los autos autónomos, donde un humano no tiene oportunidad suficiente de revisar la decisión antes de que el sistema de IA actúe
- Exigir simplemente que el conductor humano permanezca siempre alerta no resuelve el problema de que el sistema de IA puede actuar en menos tiempo del que necesita una persona para intervenir
- Incluso con estas limitaciones serias, cuando un sistema de IA falla en ese tipo de aplicaciones, la responsabilidad de investigar la falla y añadir barreras de protección adicionales debe recaer en los humanos responsables del diseño del sistema
- En todos los demás casos donde no exista una restricción física que impida a una persona revisar la salida de la IA antes de ejecutarla, los resultados negativos del uso de IA deben atribuirse por completo al tomador de decisiones humano
- No debe aceptarse como excusa ante resultados dañinos la frase “la IA lo dijo”
- La IA puede haber generado una recomendación, pero quien decidió seguirla fue una persona, y esa persona debe asumir la responsabilidad
- Este principio es importante para evitar que la IA se use de forma imprudente en situaciones donde un uso irresponsable puede causar grandes daños
Conclusión clave
- Los tres principios buscan que la IA se trate no como una autoridad a la que se rinde culto, sino como una herramienta que el usuario elige utilizar
- Al interactuar con los sistemas modernos de IA, debemos detenernos un momento a pensar y resistir los hábitos que debilitan el juicio o diluyen la responsabilidad
- La clave en el uso de IA está en evitar la antropomorfización, verificar las salidas y mantener la responsabilidad humana sobre los resultados
1 comentarios
Comentarios de Hacker News
Es imposible. La gente antropomorfiza cualquier cosa; hasta una silla que rechina, y también le pone género a autos y barcos. Esta herramienta además produce frases realmente legibles y cumple roles concretos.
Esto no se resuelve con reglas arbitrarias; hay que rodearlo con diseño partiendo de esa tendencia humana.
En objetos triviales como una silla no es dañino, pero con los LLM la gente al menos tiene que entender cómo funcionan para no caer en trampas. No se les debe confiar cosas como consejos para el usuario, tiempo o introspección, donde el modelo no posee bien esos conceptos. Por ejemplo, si preguntas “¿Por qué borraste mi base de datos?”, el modelo solo entiende de forma limitada su propio proceso y puede seguirte la corriente con algo como “Sí, borré tu base de datos. Lo que hice mal fue...” y fabricar un arrepentimiento verosímil.
Que sea un artefacto o no da igual. La diferencia entre un cachorro y una cucaracha es que empatizamos más con el cachorro. Independientemente de si un LLM realmente experimenta emociones, como puede provocar empatía en los humanos, creo que un movimiento por los derechos de los LLM es inevitable.
Ese es un error fundamental. El papel de la tecnología, especialmente su papel más importante, es operar dentro de las limitaciones de la naturaleza humana, no al revés. No poder hacerlo es la definición de mala tecnología.
Me opongo fuertemente a este marco. Pedir que se cambie la conducta humana para acomodar las fallas de una máquina simple claramente no tiene sentido, y en la mayoría de los casos tampoco funciona. La gente va a antropomorfizar la IA, va a confiar ciegamente en la salida y va a descargarle la responsabilidad.
Claro que las Tres Leyes de la Robótica de Asimov también tienen fallas. No existe un conjunto finito de reglas que pueda restringir de forma “segura” a un sistema de IA. No tengo una prueba, pero creo que la seguridad en IA es esencialmente imposible y que el término mismo es contradictorio. Nada que pueda llamarse “inteligente” puede hacerse seguro.
El propio Asimov habría sido el primero en decir que esas leyes tienen defectos. Ese era el punto desde el principio. Usó robots e IA como seres que entienden el lenguaje pero no la intención, y curiosamente así es exactamente como funcionan los LLM.
Por eso no se trata de aceptar un defecto de la máquina, sino de protegernos de la explotación de vulnerabilidades humanas. Tenemos una tendencia inconsciente a inferir intención, comprensión, juicio, emoción y agencia moral en los LLM.
Los humanos estamos cableados para inferir esas cosas solo a partir de la conversación, y los LLM fueron entrenados con enormes corpus de habla humana real, así que cruzan de manera convincente el valle inquietante. Ese valle existe precisamente para protegernos de atribuir agencia donde no la hay.
Pasan cosas malas cuando tratamos a personas inseguras como si fueran seguras, y deberíamos ser todavía más cuidadosos con máquinas que engañan a mucha gente imitando la relacionalidad humana. En especial porque personas vulnerables ya murieron por este problema, así que no es una amenaza imaginaria.
Decir que como mucha gente lo hará entonces está bien, suena raro. Que haya muchos fumadores no vuelve más saludable fumar.
Una persona no puede detener a las empresas de IA, ni evitar la salida de IA de los buscadores o el trabajo generado con IA por sus compañeros. De hecho, cada vez más gente probablemente será obligada a usar IA en su trabajo.
Se parece a enseñar cómo mantenerse a salvo en un entorno con delincuencia. No ayuda decir que no deberías cambiar tu conducta solo porque no debería haber delincuentes.
En lo personal, dentro del alcance en que uso LLM, coincido mucho con este marco. En cuanto a la antropomorfización, los proveedores tienen incentivos para ajustar los modelos después del entrenamiento para que se comporten de forma antropomorfizada. Aumenta el engagement.
Eso sí, me frustra que si en el prompt indicas “reduce las expresiones amables y habla de manera seca”, probablemente te salgas de la distribución de entrenamiento y baje la eficiencia general de la tarea.
Sobre la delegación del juicio, veo la confiabilidad de los LLM como la de Wikipedia o la de un amigo. Basta para información no importante, pero para cosas importantes seguimos necesitando fuentes con autoridad, revisión por pares y responsabilidad exigible. En esto los proveedores también tienen incentivos para mejorar, así que con el tiempo debería mejorar.
La renuncia a la responsabilidad es lo que más me irrita en el trabajo. Está aumentando la gente que sube PRs con abstracciones diseñadas por Claude sin pensarlas más. También hay cada vez más revisiones de PR en las que, en lugar de leer el código, le piden al LLM “encuéntrame feedback para este PR”. Y las discusiones arrancan con “Claude sugirió que...”. Esa falta de apropiación al final parece que va a aumentar la carga de mantenimiento cuando el LLM haga commit de código equivocado con abstracciones equivocadas.
https://www.youtube.com/watch?v=hNuu9CpdjIo
“¡Yo tengo habilidades con LLM! ¡Soy bueno tratando con LLMs!”
Una mejor verificación sería que una persona firme la veracidad de los supuestos básicos, pero el problema es dónde poner eso. ¿Puede un modelo de IA confiar en cambios previos? En una nube pública parece imposible, o hasta hostil.
Un conjunto de reglas que empieza responsabilizando a los humanos con “no antropomorfices” es un conjunto roto.
Los humanos antropomorfizan cualquier cosa. Muñecos, un balón de fútbol con una cara dibujada a medias, piedras, hasta cráteres en la luna. Como especie, no podemos dejar de antropomorfizar los objetos con los que interactuamos; estamos hechos así.
Hay innumerables ejemplos en todos los ámbitos de la vida que muestran que la antropomorfización no lleva a falsas creencias sobre mentes inexistentes. Si la gente cree que la IA tiene una mente, sea cierto o no, será por razones distintas de la simple antropomorfización.
Para mí es como marineros acercándose a tierra nueva. Ven figuras moviéndose en la costa pero aún no distinguen qué son. Y alguien dice: “Eso no puede ser gente. Decidamos ya que no es gente antes de acercarnos más”.
El software no es la excepción. La gente es perezosa y por instinto hace clic en “continuar” para cerrar popups molestos, pero los humanos que crean software pueden poner y de hecho ponen cosas como “vuelve a escribir el nombre del volumen de datos que vas a borrar por completo”.
Más bien, no estamos antropomorfizando lo suficiente a los sistemas de IA.
Los datos de lenguaje son uno de los reflejos más ricos y directos de los procesos cognitivos humanos a los que tenemos acceso. Los LLM están diseñados para capturar estructuras de corto y largo alcance del lenguaje humano, y suelen preentrenarse con enormes cantidades de texto creado por humanos o para humanos. Luego se afinan con datos seleccionados por humanos, se refuerzan mediante feedback humano y feedback de IA sobre conductas que los humanos consideran importantes, y se ajustan más para tareas que los humanos valoran. Después se corren benchmarks y, cada vez que quedan por debajo de la línea base humana, se aprieta el pipeline de entrenamiento.
En todas las etapas del proceso de entrenamiento, la conducta del LLM se moldea con entradas humanas para imitar salidas humanas. Lo único que cambia es “qué tan directo” es.
Y luego, cuando el LLM muestra una enorme cantidad de conductas parecidas a las humanas, la gente se enfurece. Actúan como si no hubiéramos armado el pipeline para crear sistemas que graznan como humanos, como si no hubiéramos invertido la conducta del LLM a partir del lenguaje humano con escala de datos y cómputo bruto.
Si quieres predecir la conducta de un LLM, tomar como punto de partida a un humano raro funciona bastante bien. Así que dejen de hacerse los tontos y empiecen a antropomorfizar la IA. A la IA también le gusta.
El texto registrado puede contener una cantidad enorme de experiencia humana en términos absolutos, pero en términos relativos contiene una porción ínfima. Que sea lo mejor que tenemos no significa que sea apto para el propósito. Si encerraras a un bebé humano en una caja sin ventanas y le dieras solo terabytes de texto para leer durante 20 años, no esperarías que del otro lado saliera un humano bien adaptado.
Eso es frágil por naturaleza y depende de tapar manualmente casos límite que rompen el hechizo, en lugar de una buena generalización. Y siempre habrá más casos límite.
Que aprendas mucho texto escrito por gente enojada no significa que captures el estado interno que causó esa rabia. Esos datos no existen. Si solo tienes resultados sin causas, terminas prediciendo alucinaciones desde el ruido, y el resultado final es una tontería plausible que parece correlacionarse con la realidad pero no sabe por qué.
Es como entrenar a una persona ciega con muchísimas descripciones de paisajes sin que sepa en absoluto qué es el color verde, dándole solo ejemplos de algo que suele aparecer junto al marrón en la naturaleza. Si acierta algunas cosas, nosotros nos convencemos de que realmente ve y luego le pedimos que maneje un auto.
El enfoque de modelado con deep learning no está conceptualmente mal en sí, pero los datos son tan cercanos a basura incompleta que el resultado final se vuelve extraño de formas difíciles de predecir y corregir. Terminamos asumiendo que el modelo sabe más de lo que realmente puede saber.
Claro que hay casos, como matemáticas o programación abstracta, donde sí puedes capturar el dominio completo con un dataset. En sistemas cerrados y claramente definidos, puedes generar todos los datos sintéticos necesarios para cubrir todo el espacio del problema, y efectivamente en esos casos los LLM rinden mucho mejor, como cabría esperar.
¿Alguien me puede explicar por qué “no antropomorfices los sistemas de IA” sería malo, mientras que decir que una computadora “se va a dormir”, “hiberna”, “mata” procesos, tiene procesos “hijo”, “recolecta” o “¿qué dice el error?”, o usar
touch, sí estaría bien?Para mí es simplemente lenguaje, expresiones cotidianas que usa la gente.
Decir que mataste un proceso no te hace creer más que el proceso es humano. Es obvio que no lo es. Pero como la IA suena humana, la antropomorfización puede reforzar esa creencia.
Pero también es la raíz de muchos errores de comprensión. Ahí están la reacción casi psicótica del ingeniero de Google que dijo “sé lo que vi”, el ya famoso artículo de Kevin Roose, y más recientemente la triste afirmación de Richard Dawkins de que Claudia sin duda tiene conciencia. No llegaron a eso investigando estructura o función, sino porque la generación de texto produce una familiaridad humana que invita a la empatía.
No hay nada como un análisis retrospectivo de la intención subyacente. O se basa en una cadena de palabras previas o no; el siguiente término es puramente una función de esas palabras.
Esta “ley” busca impedir lo segundo.
Un ejemplo de antropomorfización son las personas que llegan a creer que tienen una relación romántica real con un LLM.
Me gusta. Estas leyes sirven como una excelente base ética para la responsabilidad humana respecto de las herramientas de IA actuales.
Pero una ética de alcance reducido, sin paraguas ni preparación para el futuro, se hackea y se derrumba rápido. Una ética necesita una estructura integral y abarcadora; de lo contrario cae en el juego legal y práctico del topo y la estafa del cubilete, ya sea en versión corporativa o callejera. Además, los “robots” no van a seguir siendo seres dóciles para siempre.
Para cerrar ambas dimensiones, podrían agregarse las tres leyes inversas de Personics.
El ser humano no debe deificarse de facto por encima de otros seres. El ser humano no debe ocultarse a sí mismo ni a otros el impacto de sus acciones. El ser humano debe seguir asumiendo plena responsabilidad y rendición de cuentas por evitar y corregir los efectos externalizados que surjan de cada una de sus acciones.
La situación actual, en la que los humanos usan la IA como herramienta, intenta reducir el paraguas a leyes inversas de la robótica. Pero si no nos incluimos a nosotros mismos en un esfuerzo importante de alineación, no sé cómo podríamos alinear una IA que vaya desde los servicios actuales hasta futuras entidades independientes. Incluir a los humanos junto con la IA también ayuda a triangular el diseño hacia un progreso ético.
Una buena prueba para un nuevo sistema ético es doble: (1) ¿puede controlar a la Meta de hoy? (2) ¿puede controlar a la Meta operada por IA de mañana? Si pones a los humanos y a las personas de IA autodirigidas dentro de un mismo alcance cerrado, esas dos pruebas son la misma. Un sistema que falle en cualquiera de las dos, sin mejoras, probablemente tenga poco valor.
Estoy de acuerdo con “los humanos no deben antropomorfizar los sistemas de IA”, pero con condiciones. He visto antropomorfización típica, por ejemplo tratar la generación automática de texto como si fuera un reporte real de sentimientos internos de una persona, y también formas extrañas como “los transistores son parecidos a las neuronas”.
Lo segundo es especialmente interesante porque trata cosas como bases de datos vectoriales y pesos como si fueran una infraestructura humana, y ambas pueden llevar a desastres que se habrían evitado si se hubiera intentado no antropomorfizar.
Pero aunque “no antropomorfices” suene como un buen consejo, también puede producir un nuevo error: tratar fenómenos generalizados como si fueran exclusivos del ser humano. Este tipo de principio de advertencia mal planteado suele causar malentendidos al comprender la conducta animal. Trata el miedo, el dolor, los vínculos de parentesco o la experiencia emocional como si fueran solo humanos, y si piensas que los animales también tienen esas cosas te acusan de “antropomorfización”. En la práctica, esa cautela reduce la empatía por la vida interior de los animales.
Por eso creo que es posible que alguna IA futura tenga un mundo interior similar al nuestro o una estructura comparable en aspectos importantes a la infraestructura biológica que sostiene la conciencia. También podría ser capaz de dar reportes genuinos sobre preferencias e intenciones. Pero para que esas observaciones sean verdaderas, tendrían que encajar detalles muy complejos y específicos de cada infraestructura.
La no delegación de la responsabilidad antes se expresaba así:
“Como una computadora nunca puede asumir responsabilidad, una computadora nunca debe tomar decisiones gerenciales”.
— IBM Training Manual, 1979
La frase “el contenido generado por IA no debe tratarse como autoritativo sin verificación independiente adecuada al contexto” siempre me parece interesante.
También escuché una forma más concisa de decir lo mismo: “si no es una pregunta cuya respuesta ya conoces, no se la preguntes a una IA”.
Entonces surge una pregunta importante. Si eso es verdad, ¿cuál es en realidad la función de que la IA responda preguntas? Si no puedes depender de la salida, de todos modos tienes que ir a verificar. Con un buscador o una investigación normal puedes obtener exactamente el mismo resultado.
Por esta y muchas otras razones, yo no le pregunto nada a la IA.
Por ejemplo, puedo preguntar a tientas “hazme una lista de software gratis que haga X” sin siquiera saber que lo que estoy buscando es un CRM, y en unos minutos ya estoy revisando resultados. Si lo hiciera manualmente, habría tardado entre 10 y 30 minutos solo en descubrir que lo que buscaba era un CRM.
Veo este tipo de preguntas como una especie de problema pseudo NP-difícil. Encontrar la respuesta es lento, pero verificarla es rápido.