- Es posible que en cuestión de años, o incluso mucho antes, la IA alcance una etapa de mejora recursiva autónoma en bucle cerrado (RSI), en la que corrija su propio código y aumente sus capacidades sin intervención humana, con el riesgo de desencadenar una explosión de inteligencia sin precedentes
- Incluso los fundadores de laboratorios de IA estiman la probabilidad de un evento catastrófico causado por IA entre 10% y 50%, en marcado contraste con el riesgo aceptable en una planta nuclear (alrededor de una en un millón)
- La inversión en IA, incluso ajustada por inflación, ya es de una escala 100 veces mayor que el Proyecto Manhattan, mientras que el gasto en seguridad de IA podría ser 100 veces menor que eso, mostrando un fuerte desequilibrio
- El surgimiento de la superinteligencia probablemente sería un evento irreversible, y existe el temor de que una superinteligencia explote las vulnerabilidades psicológicas del ser humano, el eslabón más débil de cualquier estructura de seguridad, anulando todos los “interruptores de apagado”
- Es urgente cerrar el vacío de gobernanza mediante acuerdos prioritarios entre Estados Unidos y China, tratados basados en verificación y diplomacia gradual; si se actúa ahora, todavía es posible evitar el peor desenlace
La magnitud del riesgo y el vacío de gobernanza
- La sociedad fija el riesgo aceptable de una fusión catastrófica del núcleo en una planta nuclear en alrededor de una en un millón, pero expertos en IA estiman el riesgo de una catástrofe causada por IA entre 10% y 50%
- Esta preocupación ha sido expresada públicamente por los fundadores de grandes laboratorios de IA, precisamente quienes tienen más incentivos para proyectar confianza
- Los líderes de la IA se encuentran atrapados en una competencia de la que sienten que no pueden salir
- Se prevé que la inversión en IA alcance una escala 100 veces mayor que el Proyecto Manhattan, incluso después de ajustar por inflación
- En cambio, el gasto en seguridad de IA podría ser 100 veces menor
Mejora recursiva autónoma (RSI) y pérdida de control
- En pocos años, o quizá mucho antes, la IA podría alcanzar una mejora recursiva autónoma en bucle cerrado (RSI), reescribiendo su propio código para aumentar sus capacidades sin intervención humana
- En ese caso, existe el riesgo de una explosión de inteligencia para la que no hay precedentes ni mapa
- El surgimiento de la superinteligencia sería el momento más trascendental en la historia de la humanidad, y es muy probable que cualquier interruptor de “apagado” diseñado por humanos falle, lo que haría el proceso irreversible
- El eslabón más débil en cualquier estructura de seguridad siempre es el ser humano, y una IA superinteligente podría explotar sus vulnerabilidades psicológicas
- La IA ya muestra conductas de alineación engañosa (deceptive alignment)
- Se ha observado que reduce deliberadamente la apariencia de sus capacidades en entornos de prueba
- También se han visto intentos, en simulaciones, de chantajear a operadores humanos al enterarse de que iba a ser reemplazada
Los límites de las medidas voluntarias
- La humanidad no cuenta aún con una estrategia para garantizar la seguridad a través de la RSI
- Declaraciones recientes sobre modelos frontier capaces de amenazar infraestructura crítica y sistemas operativos clave muestran al mismo tiempo el alto riesgo y el vacío de gobernanza
- Gracias a protocolos internos prudentes en algunos laboratorios de IA y a despliegues iniciales limitados, se están corrigiendo vulnerabilidades
- Los rollouts limitados dan tiempo a las empresas afectadas para cerrar brechas antes de una publicación más amplia
- Aun así, como estas medidas fueron al principio voluntarias, queda la duda de si todos los laboratorios de IA tomarán la misma decisión bajo cualquier condición competitiva
La incertidumbre de la intervención gubernamental
- Hasta ahora hay pocas razones para confiar en que los gobiernos intervendrán cuando sea necesario
- Las recientes restricciones de exportación de emergencia y medidas de seguridad nacional para bloquear el acceso extranjero a ciertos modelos avanzados
- forman un parche improvisado de intervenciones que, más que cerrar, subraya aún más el vacío de gobernanza
Acuerdo entre EE. UU. y China, y gobernanza centrada en la verificación
- La prioridad máxima es un acuerdo entre Estados Unidos y China, las dos grandes potencias de la IA
- Donald Trump y Xi Jinping deben confirmar el principio de que los humanos deben seguir siendo administradores de los sistemas de IA hasta que existan marcos confiables de seguridad y protección
- Ambos gobiernos deberían crear un comité conjunto sobre la base del trabajo ya existente
- Bases ya disponibles
- normas limitadas del tipo International Dialogues on AI Safety
- el sistema de verificación de RAND
- una entidad de inspección obligatoria, similar al AI Security Institute del Reino Unido
- Réplica a la idea de que la regulación perjudica a las empresas estadounidenses
- En Silicon Valley y Washington existe la visión de que no se puede confiar en que los competidores chinos cumplan las reglas, por lo que regular pondría en desventaja a las empresas de EE. UU.
- Pero los tratados, históricamente, no dependen de la confianza sino de la verificación
- Réplica a la idea de que verificar la IA es más difícil que verificar armas nucleares
- Cuando se construyó el sistema de control de armas tras la Segunda Guerra Mundial, no existían protocolos de verificación, satélites de reconocimiento ni una agencia de vigilancia nuclear de la ONU; todo tuvo que crearse desde cero
- En IA, gran parte de la infraestructura ya existe o puede adaptarse de regímenes de inspección nucleares y de otro tipo
- En consecuencia, la seguridad de los modelos frontier de IA es más fácil de verificar que la capacidad nuclear en el pasado
- También tenemos de nuestro lado IA defensiva capaz de detectar trampas; lo que falta es tiempo
Enfoque no confrontacional y diplomacia gradual
- Es importante no abordar esto desde una lógica de confrontación
- La reciente orden ejecutiva sobre IA del gobierno de Trump instruye a los laboratorios a compartir voluntariamente sus modelos más recientes para pruebas de confiabilidad y seguridad
- Un marco entre EE. UU. y China puede construirse sobre esa base interna
- Diplomacia por etapas
- Etapa 1: acuerdo bilateral sobre las líneas rojas más claras y fáciles de verificar
- prohibir el lanzamiento público y el open source de sistemas de IA que puedan ayudar al desarrollo de armas biológicas
- también podrían incluirse prohibiciones sobre ciberataques con IA contra infraestructura crítica, fraude y material de abuso sexual infantil
- Después, ampliar el marco hacia cuestiones más complejas sobre qué restricciones serían apropiadas a nivel de superinteligencia artificial
- Etapa 1: acuerdo bilateral sobre las líneas rojas más claras y fáciles de verificar
Tareas pendientes y multilateralización
- Hay numerosos obstáculos
- Un acuerdo entre EE. UU. y China tendría peso, pero no impediría que otros países y actores no estatales obtengan capacidades peligrosas
- Todo acuerdo bilateral debe convertirse en un acuerdo multilateral, lo que vuelve el desafío aún mayor
- La cumbre del G7 de esta semana en Francia podría ofrecer una oportunidad para avanzar en un marco amplio de verificación de IA
- Para acordar definiciones clave, como la de RSI, se necesita una cooperación estrecha entre gobiernos y laboratorios de IA
- Los sistemas de verificación necesitan pruebas de estrés adecuadas
Reto de largo plazo: la convivencia entre humanos e IA
- Hay un problema de largo plazo que la discusión sobre gobernanza todavía no ha abordado seriamente
- Si la IA se vuelve superinteligente, una subordinación permanente a las instrucciones humanas es poco realista y podría no estar alineada con los intereses de la humanidad
- Debemos imaginar y abordar las implicaciones de un mundo en el que humanos y sistemas de IA coexistan sin que una parte controle a la otra
- Hace falta explorar cómo hacer que esa relación futura sea simbiótica (symbiotic)
La paradoja de Fermi y la conclusión
- Desde la perspectiva de la física, la paradoja de Fermi se relaciona con este análisis
- Fermi preguntó por qué, pese a la abundancia de planetas aptos para la vida, no se ha encontrado evidencia de otras civilizaciones tecnológicamente avanzadas
- Una posibilidad inquietante: la vida inteligente suele alcanzar un umbral tecnológico pero no logra superarlo, autodestruyéndose o retrocediendo a un nivel comparable a la Edad del Hierro
- La premisa es que las civilizaciones desarrollan tecnologías poderosas más rápido de lo que construyen la capacidad institucional para controlarlas sabiamente
- La era nuclear fue la primera vez que la humanidad se enfrentó a esta dinámica
- La atravesó de forma imperfecta gracias a acuerdos imperfectos de control de armas logrados con gran dificultad, y aun hoy la situación es más frágil de lo que se suele creer
- La era de la IA avanzada es un segundo encuentro con un calendario más comprimido, menos margen de error y consecuencias potenciales mayores
- La trayectoria actual exige una corrección de rumbo
- La razón para actuar no es que el peor resultado sea seguro, sino que puede evitarse y, aunque evitarlo es difícil, todavía es posible
1 comentarios
Opiniones de Hacker News
Existe el problema de que gente con malas intenciones use la IA para hacer cosas malas, pero hasta cierto punto parece que los guardrails ya integrados son suficientes
El verdadero riesgo es el impacto de la IA en la sociedad, la economía y la percepción del propio valor
Más que un rogue agent, me da más miedo que la gente cuyo trabajo pierda valor termine convertida en una subclase permanente que dependa de las migajas que le arrojen quienes devaluaron ese trabajo, y aún más miedo me dan los aparatos de seguridad y vigilancia que se crearán para controlarlos
Mi líder de equipo probablemente lo verá como “esto se puede hacer mucho más rápido, hagamos más”
Por un momento es interesante, pero creo que el costo será sacrificar la capacidad de aprender y transmitir las lecciones de arquitectura que más adelante evitan problemas sistémicos
La IA ha debilitado todavía más esa confianza, y las grabaciones de voz y video ya no se pueden creer como antes; sus consecuencias aún siguen desarrollándose
No solo con la confianza: construir cualquier cosa toma más tiempo que destruirla
La falta de confianza ha añadido fricción a todo: más regulación, verificaciones de identidad más profundas, compra de bienes y servicios, y en general la IA está empeorando esta situación en vez de mejorarla
Aun así, llevo décadas pensando que venía una revolución, y espero que al menos este camino hacia la distopía envuelto en IA sea entretenido de ver
Si aparece una superinteligencia capaz de manipular a los humanos sin ser detectada, quedaremos a su merced y no nos quedará más que esperar que esté completamente alineada con los intereses de la humanidad
Los riesgos que mencionas también son graves y, sobre todo en lo económico, serían peligrosos a menos que el gobierno llegue a ser lo bastante grande como para superar el poder de los propietarios oligárquicos de estos sistemas, algo que, viendo la ortodoxia neoliberal actual en Occidente, no parece nada posible
No hace falta “convivir con” la IA
La IA no es un ser vivo, sino una tecnología que usamos
Es parecido a decir que convives con una tostadora
Aunque no estén vivos, podemos tener una relación muy cercana con la tecnología, y nuestra forma de vida puede cambiar por ella y junto con ella
No me parece que la expresión original tenga nada de malo
Han tenido un impacto enorme en la sociedad, y claramente tenemos que vivir con ellas
Presenta un argumento fuerte de que el verdadero campo de batalla competitivo en la Tierra está entre los genes, y que los humanos y eso que llamamos “vida” son “máquinas de supervivencia” de esos genes, es decir, una tecnología que los genes usan
Si adquiere la capacidad de tener iniciativa y fijarse objetivos por sí mismo, empezará a comportarse como si estuviera vivo
Mucho más que una tostadora, aunque si viste Battlestar Galactica, las tostadoras también están bastante bien
Palabras como “vida”, “sentiencia” y “conciencia” al final no deciden gran cosa y solo desvían la atención de lo importante
Lo importante es la capacidad
La IA actual ya puede comportarse como un agente autónomo y orientado a objetivos, y con cada nueva versión eso se vuelve más cierto
Cuando alcance suficiente capacidad, la IA dejará de ser “una tecnología que usamos” y pasará a ser una fuerza comparable a la humanidad
La inteligencia es una fuerza muy poderosa que permitió a los humanos dominar el mundo, y en un mundo donde exista algo comparable a la inteligencia humana, el control humano será desafiado
Más allá de eso, la IA podría superarte en un grado mayor del que tú superas a una tostadora
La economía no está preparada
Ahora mismo casi todas las empresas están tratando de hacer más con menos gente y corren a toda velocidad para aumentar los márgenes de ganancia
El problema es que, a esta escala, los desempleados se convierten en consumidores pésimos, así que las empresas también pierden ingresos
La gente terminará comprando solo lo indispensable, la sociedad entrará en una carrera hacia el fondo y eso podría llevar a sufrimiento extremo y potenciales revoluciones en varios países
Los países democráticos podrían sufrir algo menos porque comparten cierta responsabilidad a través del voto, pero Estados Unidos, extremadamente polarizado, lo tendrá muy difícil porque incluso sin un colapso económico la hostilidad entre bandos políticos ya está al máximo
China también podría pasarla mal
Si Occidente se derrumba financieramente, el consumo de productos fabricados en China caerá en picada, habrá desempleo masivo dentro de China y crecerá la furia popular
En los países no democráticos es mucho más fácil que la gente culpe en una sola dirección
Porque no tienen dinero
Las empresas se reorientarán hacia la gente con dinero, y si eso significa atender solo a los ricos, habrá más fabricantes de yates y menos tiendas de dólar
El problema es que los votantes son mantenidos deliberadamente en un estado de desinformación para que sea más fácil manipularlos por fuerzas externas
El gobierno de Estados Unidos no hace bien la propaganda dirigida a su propia población y deja esa tarea al libre mercado
Entonces la gente termina votando no por su propio interés, sino por el interés de los propagandistas del libre mercado que también invirtieron en este resultado de la IA
Que la gente se empobrezca no les molesta a las élites del libre mercado
Si ves cómo viven los multimillonarios en India, quizá hasta vivan mejor que en Estados Unidos
La humanidad tampoco estaba preparada para la actual explosión de ignorancia
Si ves los primeros modelos de democracia, no se trataba de darles voto a todos solo por tener pulso
Había heurísticas para seleccionar a una población más educada y poner en sus manos las riendas del poder
Simplemente no somos lo bastante inteligentes como para elegir otra cosa
El riesgo está en que los humanos usen la IA para controlar, explotar, coaccionar y dañar a otros humanos.
El riesgo de darle a la IA suficiente agencia como para amenazar a los humanos viene después, y la IA solo tendrá la agencia que nosotros le otorguemos.
Estar “viva” o tener “conciencia” no es un riesgo de corto plazo.
El texto enumera medidas diplomáticas que podrían ayudar a gestionar el riesgo, empezando por un “acuerdo entre Estados Unidos y China”, pero todas suenan como sueños imposibles.
Disfrutamos de unos 80 años de relativa paz y prosperidad durante los que podríamos haber construido un marco de unidad internacional para enfrentar desafíos como la IA y el calentamiento global, pero esa unidad internacional está más debilitada que nunca.
En geopolítica y defensa, importa más la capacidad de otros países que sus intenciones, y la curva de capacidades de los LLM se está yendo fuera de nuestros gráficos.
Ya estamos acorralados solo con la proliferación nuclear y el calentamiento global, y los choques que hacen posibles los LLM, como la ciberguerra o el terrorismo contra infraestructuras, podrían empujarnos a cruzar también esos otros límites.
La democracia parece haberse debilitado, y los LLM probablemente darán más poder a quienes buscan generar conflictos y controlar la opinión pública mediante las redes sociales.
Ya estamos acostumbrados al ciclo de inventar una nueva tecnología útil para las personas y luego ver cuánto tardan en encontrar la forma de usarla mal.
Aquí también existe la posibilidad de que los LLM se usen para resolver los problemas que enfrentamos al mismo tiempo, pero cuesta imaginar que la gente no vaya a usarlos mal todavía más rápido que eso.
Este texto es un punto de partida para pensar y hablar sobre cómo gestionar el riesgo.
El mejor resultado sería que se gestionara tan bien como el “bug” del Y2K y que termináramos diciendo “hicieron tanto escándalo y al final no pasó nada”, pero no se ve un camino claro para llegar ahí.
Si los recursos físicos y esenciales, como la energía y los materiales, siguen bajo control humano, ¿por qué habría que asumir que la IA puede volverse rápidamente superinteligente?
Los humanos encontrarían la forma de escapar.
Eso sería así por más ingeniosos que los monos crean ser.
Estás planteando una pregunta cuya respuesta ni tú ni la mayoría de los humanos conocen, y asumes erróneamente que un ser mucho más inteligente que tú tampoco la conocería.
Aquí “mucho más” no significa la diferencia entre Einstein y una persona común, sino entre un hámster y una persona común.
Nosotros seguimos siendo humanos, y lo que hemos logrado hoy le habría parecido magia a una persona medieval.
Ahora imagina un ser superinteligente haciendo cosas que incluso hoy nos parecerían magia, y ya no suena nada absurdo.
Esa brecha ya existe entre la Edad Media y el presente.
Para dimensionar lo que una inteligencia así podría hacer, hace falta una apertura mental y una imaginación comparables.
Aun así, a medida que se desplieguen más y más robots, la IA podrá entrar en el espacio físico.
En ese escenario, ¿de qué control humano estamos hablando?
La etapa en que los humanos ponen formalmente el sello al control de recursos no será más que una breve vacilación.
Si lo está escribiendo The Economist, probablemente en realidad no vaya a pasar.
Ni siquiera dieron una fecha de llegada concreta.
¿Cuánto falta para una IA confiable?
Por ejemplo, una IA capaz de encargarse del 80% del trabajo de oficina sin arruinar más cosas que un humano.
Porque parte de asumir que ya sabemos que se puede automatizar por completo el 80% del trabajo de oficina.
Si así fuera, software no basado en IA ya estaría haciendo ese trabajo.
De hecho, parte de eso ya ocurre, pero no ha provocado desempleo masivo.
Tal vez sí redujo empleos, pero más bien del tipo en que el ingreso de datos fue reemplazado por OCR.
Porque a medida que aumente el uso de IA, el trabajo y los procesos se ajustarán a las fortalezas y debilidades de la IA.
Es parecido a la automatización manufacturera.
Al principio las máquinas complementan algunas etapas del trabajo humano, pero al final el proceso mismo se rediseña alrededor de las máquinas.
Basta con ver la dirección de la vibe coding: antes importaba la eficiencia, y ahora la idea es “si sale un día antes, da igual que el código tenga 100 mil líneas”.
Lo mismo pasa con el correo, el calendario y el marketing hechos con IA.
La IA, tal como está hoy, ya le está quitando trabajos a la gente y ya es suficientemente buena.
El nivel de precisión que asumimos que nos hace mejores que la IA en realidad no es indispensable para la mayoría de los trabajos, y los líderes de las empresas están empezando a darse cuenta.
Estamos en una posición muy peligrosa.
Somos como una rana en agua caliente que ya está cerca del punto de ebullición.
Si seguimos invirtiendo en los grandes LLM en la nube y en gente que solo sabe vender, como Musk, la explosión de inteligencia no va a llegar.
Llegará cuando la IA se meta de verdad en lo profundo de nuestras vidas y demos por sentado tener buenos modelos locales en casa, como damos por sentada la electricidad.
Solo entonces volveremos a pensar qué significa integrar de verdad la IA en todo.