Si los LLM tuvieran atributos humanos, Age of Empires II también los tendría

(arxiv.org)

1 puntos por GN⁺ 2026-06-07 | 1 comentarios | Compartir por WhatsApp

La evaluación antropomórfica en la investigación sobre LLM plantea el problema de que, al atribuir o asumir propiedades humanas en la salida del modelo, la interpretación puede depender de la forma de representación sin un criterio de medición
Un caso de implementación y entrenamiento de una red neuronal simple dentro de Age of Empires II se presenta como evidencia de que, con un sustrato (substrate) suficientemente potente, es posible implementar una entidad equivalente a un LLM
Se sostiene que algunas propiedades, como la correspondencia entre prompt y salida, pueden mantenerse, pero que la interpretación de la conducta percibida o la calidad de desantropomorfización puede variar según el sustrato
Si se experimenta suponiendo de antemano la existencia o ausencia de atributos antropomórficos generalizados, las conclusiones terminan siendo circulares o poco informativas
Para una discusión empírica, se requieren criterios de medición explícitos y una declaración de qué debe generalizarse entre sustratos; el valor por defecto es asumir la no singularidad del LLM

Resumen

Hay mucha investigación sobre LLM y flujos de trabajo de agentes basados en LLM, pero algunos estudios hablan de la aparición de atributos antropomórficos generalizados como la moralidad o la comprensión del lenguaje natural, los atribuyen o los dan por sentados
El objetivo central no es debatir a favor o en contra de si esos atributos existen en los LLM, sino mostrar que esas conclusiones pueden estar equivocadas
Tras crear y entrenar una red neuronal simple dentro de Age of Empires II, se plantea que cualquier entidad en un sustrato suficientemente potente, como LEGO o Greater Boston Area, podría mostrar esos atributos
Los atributos antropomórficos de los LLM no son empíricamente únicos y, aunque algunas propiedades como responder a prompts pueden mantenerse constantes, otras como la interpretación de la conducta percibida pueden cambiar según el sustrato
Una discusión basada en la experiencia requiere criterios de medición explícitos; de lo contrario, la interpretación queda librada a la forma de representación
Si se asume la existencia o ausencia de propiedades generalizadas independientes del sustrato, se llega a conclusiones circulares o poco informativas, sin importar la perspectiva del experimentador
La suposición base es una hipótesis ‘null’ que parte de la no singularidad del LLM, en lugar de construir experimentos dando por sentados atributos antropomórficos
Se demuestra que Age of Empires II es funcionalmente completo y Turing-complete

Introducción

Los LLM son una tecnología relativamente nueva, muy usada y al mismo tiempo todavía insuficientemente comprendida
Las capacidades de los LLM y sus aparentes rasgos humanos, como la habilidad de comunicación, son factores que llevan a las personas a antropomorfizarlos
Sistemas conversacionales convincentes como ELIZA existen desde hace más de medio siglo, pero los chatbots basados en LLM son entidades con capacidades sin precedentes que exigen explicación desde un punto de partida familiar
En este contexto se han hecho evaluaciones en áreas como teoría de la mente, aprendizaje y comprensión, y psicología, con resultados diversos
Algunos estudios prueban y atribuyen a los LLM rasgos humanos amplios, como ansiedad o moralidad, y sitúan al LLM como objeto central del experimento
Ya sea que los resultados sean positivos o negativos, la suposición central de que los LLM poseen atributos antropomórficos influye en el diseño de los conjuntos de prueba, la interpretación de las salidas en lenguaje natural e incluso la hipótesis nula
Esas suposiciones pueden afectar directamente las conclusiones y distorsionarlas
En la investigación sobre LLM, asumir como parte de la medición la existencia o ausencia de atributos antropomórficos generales es un enfoque fundamentalmente defectuoso

Age of Empires II y la no singularidad del sustrato

Implementar y entrenar una red neuronal dentro de Age of Empires II puede parecer un ejercicio curioso sin relación con la antropomorfización de los LLM
Sin embargo, esta implementación implica de inmediato que, si el sustrato es suficientemente potente, es posible implementar una entidad equivalente a un LLM, y que dicha implementación puede cambiar la representación del LLM y afectar los atributos que se perciben
Si un LLM es suficientemente eficaz para imitar en cierto grado atributos antropomórficos, entonces esa imitación, o incluso la conducta antropomórfica real desde cierta perspectiva, no es algo exclusivo de la entidad llamada LLM dentro de una computadora
El LLM no es único, y una implementación en otro sustrato puede preservar algunas propiedades, como el mapeo entre prompt y salida, pero no necesariamente conservar la calidad de desantropomorfización
Como resultado, la percepción y la interpretación de esas cualidades cambian
Las discusiones basadas en observación empírica requieren criterios de medición explícitos y una declaración explícita de qué aspectos deberían generalizarse más allá del sustrato

El problema de las suposiciones y la hipótesis ‘null’

Si un científico adopta como postura interpretativa un marco como la teoría computacional de la mente y considera que ese atributo puede existir en un sistema independientemente del sustrato, la conclusión se vuelve poco sólida
Si se acepta ese marco para hacer afirmaciones generalizadas o no generalizadas sobre atributos antropomórficos, la conclusión se vuelve circular o poco informativa
El mismo resultado se mantiene incluso si ese marco se rechaza
Es defectuoso probar una hipótesis que busca demostrar o refutar la existencia o ausencia de atributos antropomórficos generalizados suponiendo de antemano esa misma existencia o ausencia
Las conclusiones positivas o negativas obtenidas en tales experimentos no respaldan realmente esa afirmación
Este problema es independiente de la validez del marco, de si se acepta o rechaza, y de qué marco se elija
Esas suposiciones pueden no estar explícitas; por ejemplo, un artículo que afirma que un LLM no tiene la capacidad de “explicarse a sí mismo” de forma fáctica ya está asumiendo cierto grado de autoconciencia
Si no se hace ese tipo de suposición y no se afirma generalización, ese atributo puede medirse de manera aproximadamente veraz
La hipótesis ‘null’ refleja la no singularidad del LLM al no hacer ninguna afirmación sobre la presencia o ausencia de atributos antropomórficos dentro del sistema

1.1 Contribuciones

El objetivo no es discutir si existen atributos antropomórficos dentro de los LLM, la validez de la teoría de la mente ni las implicaciones sobre la conciencia o el problema mente-cuerpo en relación con la IA
Discutir la existencia o no de atributos antropomórficos requiere mediciones bien definidas, y en lo relativo a la conciencia o al problema mente-cuerpo no existen protocolos experimentales ni escuelas de pensamiento ampliamente aceptados
También queda fuera del alcance proporcionar un LLM funcional basado en Age of Empires II
El propósito principal es promover la discusión sobre las suposiciones y la precisión de los resultados relacionados con la antropomorfización de los LLM
En particular, el foco está en los casos en que los resultados experimentales que sustentan esas conclusiones parten de asumir la existencia o ausencia de dichos atributos
También se incluyen posibles objeciones y respuestas, una pequeña metarreseña del campo relacionado con la antropomorfización y una demostración de la completitud funcional y Turing-completeness de Age of Empires II
El objetivo final es ofrecer pistas para construir experimentos rigurosos que respalden o refuten de manera convincente la existencia de atributos antropomórficos en los LLM, independientemente de la postura que se tome sobre la relación entre mente y máquina

1 comentarios

GN⁺ 2026-06-07

Opiniones en Lobste.rs

Puede que esto sea una tontería, pero no termino de entender bien el argumento. La afirmación básica es bastante trivial y, como admite el FAQ, consiste en que en cualquier entorno computacional Turing completo se puede implementar un LLM, incluso usando las mecánicas internas de un videojuego
Pero a partir de ahí sostiene que hace falta un gran cambio en la forma de pensar sobre los LLM. Por ejemplo, aunque copies un LLM dentro de AoE II, le pongas “me siento solo” y responda “qué mal, ¿por qué no intentas ver a un amigo? La cercanía ayuda en situaciones así”, eso difícilmente convence de que ese AoE II-LLM sepa qué ayuda realmente, tenga verdadera empatía o que, independientemente de su naturaleza simulada, su salida sea confiable
Puede ser un sesgo mío por estar acostumbrado a la ingeniería de software y hardware, pero aquí no siento ningún giro cognitivo. “Las tarjetas de video de un datacenter generaron este token” y “lo generó una máquina de Turing dentro de un videojuego” no se sienten diferentes para mí
Estoy 100% de acuerdo en que cuesta ubicar a los LLM dentro de nuestro modelo del mundo y en que tendemos a antropomorfizarlos en exceso, pero no veo qué aporta este paper para resolver ese problema
- Suena como una reedición del argumento de la habitación china de Searle, y ese argumento siempre me ha resultado filosóficamente incómodo. El paper parece mencionarlo solo brevemente
  Parece caer en el mismo error. Muestra que el sistema, ya sea una persona dentro de la habitación china o un motor de juego, “simplemente” sigue reglas, y de ahí concluye que no se le puede atribuir inteligencia ni atributos humanos generales
  Pero no creo que funcione el argumento de que, por reducir algo a componentes sin inteligencia o a reglas, el todo pierda mágicamente sus propiedades observables
  Aunque tampoco leí toda la argumentación del paper, así que no soy más que un comentarista de internet
Lamentablemente, el texto no trata sobre la IA real de AOE2. La IA de AOE2 está basada en CLIPS, que es un sistema experto de s-expresiones sobre un motor RETE, y un conocido mío se metió bastante a fondo en eso e hizo un artículo introductorio, una charla e incluso un servidor de chat declarativo
La documentación de la IA de AOE2 está en https://www.scribd.com/document/348253/CPSB y https://userpatch.aiscripters.net/reference.html. Los ejemplos tienen forma de reglas que fijan condiciones estratégicas y objetivos, como este
- El equipo de Magic the Gathering: Arena también usa CLIPS para construir buena parte del motor de reglas que hace funcionar Magic digital
El resumen tiene un error tipográfico que cambia el significado. Debería ser “Age of Empires II in” y no “Age of Empires II on”
El paper dice que construyó y entrenó una red neuronal en AoE 2, y sostiene que Lego o Boston también podrían ser sustratos para redes neuronales. Como ejemplo relacionado de lo primero está Wang tiling, y de lo segundo, las billiard-ball computers. Esto también se implementó con un enjambre vivo de cangrejos soldados M. guinotae en un paper de 2011, por lo que también se les llamó “crab computers”
Hoy aprendí que AOEII es Turing completo
- La completitud de Turing tiene un umbral extremadamente bajo
- Muchas veces, con solo agregarle un poquito de complejidad a un sistema, es muy difícil mantenerlo por debajo del umbral de completitud de Turing. El excelente texto de Gwern está aquí
Esto podría haber sido una entrada de blog interesante, pero en vez de eso terminó siendo un paper pretencioso y difícil de leer que probablemente se financió con impuestos y no ayuda a nadie
- Por suerte no hay información de financiamiento dentro del paper, así que viendo el orden de afiliaciones de los autores, casi seguro que Microsoft lo financió por completo
Leí este párrafo y ahora me arrepiento de no haber seguido mi intuición de que desde el principio no valía la pena leerlo
Tengo formación en filosofía de la mente y, al ver las citas del capítulo 2, me imaginé qué tipo de argumento iba a presentar el paper. Pero después de leerlo completo, sigo sin tener idea de qué argumento está haciendo exactamente este paper

Si los LLM tuvieran atributos humanos, Age of Empires II también los tendría

Resumen

Introducción

Age of Empires II y la no singularidad del sustrato

El problema de las suposiciones y la hipótesis ‘null’

1.1 Contribuciones

Lecturas relacionadas

1 comentarios

Opiniones en Lobste.rs