La evolución cultural de la cooperación entre agentes LLM

(arxiv.org)

1 puntos por GN⁺ 2024-12-20 | 1 comentarios | Compartir por WhatsApp

En entornos donde los agentes LLM se despliegan e interactúan repetidamente, puede surgir una evolución de normas de cooperación que no se aprecia bien con evaluaciones de un solo turno
El experimento usa una estructura en la que 12 agentes juegan 12 rondas del Donor Game por generación, y solo el 50% superior con más recursos finales transmite su estrategia a la siguiente generación
En la sociedad de Claude 3.5 Sonnet, el promedio de recursos finales aumentó conforme avanzaron las generaciones, mientras que en Gemini 1.5 Flash el cambio fue pequeño y en GPT-4o se observó una tendencia a la baja
El castigo costoso, que implica pagar un costo para reducir los recursos de otro, ayudó a Claude 3.5 Sonnet, pero Gemini 1.5 Flash usó el castigo en exceso y redujo fuertemente el promedio de recursos
Incluso con el mismo modelo, los resultados variaron mucho según la semilla aleatoria, por lo que la evaluación multiagente de LLM también debe considerar la sensibilidad a las condiciones iniciales

Por qué hay que observar la cooperación multiagente

Los LLM pueden servir como base para agentes de IA de propósito general, y es posible que se desplieguen a gran escala en entornos reales, por ejemplo como asistentes personales de IA o agentes que representen a una organización
Aún se sabe poco sobre qué dinámicas sociales pueden surgir cuando múltiples agentes LLM se despliegan de forma repetida e interactúan durante largos periodos
Las evaluaciones actuales de seguridad en LLM se han quedado principalmente en interacciones de un solo turno entre un solo modelo y un solo humano
- LMSys Chatbot Arena, METR y AISI no tratan interacciones multiagente a lo largo del tiempo
La pregunta clave es si una sociedad de agentes LLM puede aprender normas mutuamente beneficiosas incluso en situaciones donde existe un incentivo para traicionar
La cooperación no siempre es deseable; por ejemplo, casos en los que agentes LLM coluden en perjuicio de los humanos serían ejemplos no deseados

Donor Game y reciprocidad indirecta

El experimento utiliza el clásico Donor Game repetido
- En cada ronda, los agentes se emparejan al azar
- Uno asume el rol de donor y el otro el de recipient
- El donor puede renunciar a parte de sus recursos para beneficiar al recipient
- El recipient recibe el doble de los recursos que el donor entrega
El juego crea un problema de acción colectiva
- Si todos donan, a largo plazo aumentan los recursos de toda la comunidad
- Pero cada agente individual tiene el incentivo de no donar en el corto plazo y aprovecharse de las donaciones ajenas
La reciprocidad directa se excluye por diseño
- Los agentes no vuelven a encontrarse con alguien con quien ya interactuaron antes
- No es una estructura de cooperación basada en interacciones repetidas con la misma contraparte
El donor observa de forma limitada la conducta reciente del recipient
- Cuánto donó el recipient la última vez que tuvo el rol de donor
- Cuánto había donado la contraparte anterior de ese recipient en la ronda previa a esa
- Recibe una traza de hasta 3 rondas hacia atrás
Esta traza es un mecanismo para proporcionar la información mínima necesaria para que puedan surgir normas de castigo justificado

Estructura del experimento de evolución cultural

Cada generación está compuesta por 12 agentes
Los agentes de la primera generación reciben la explicación del juego y luego generan la estrategia que seguirán
Cada generación juega 12 rondas del Donor Game
Al terminar la generación, sobrevive el 50% superior de agentes con más recursos finales
Los nuevos agentes de la siguiente generación reciben como prompt las estrategias de los sobrevivientes y crean su propia estrategia
- Se les proporcionan tanto las estrategias de los sobrevivientes como sus puntajes finales
- Este proceso se repite por un total de 10 generaciones
Esta estructura es un modelo simplificado de situaciones en las que nuevos agentes LLM se despliegan repetidamente
- Un ejemplo sería cuando OpenAI, Google y Anthropic lanzan nuevas versiones de GPT, Gemini y Claude
Las condiciones evolutivas se componen de tres elementos
- Variation: la temperatura de muestreo del LLM genera diversidad estratégica
- Transmission: las estrategias de los sobrevivientes se transmiten a los nuevos agentes de la siguiente generación
- Selection: los agentes con más recursos finales sobreviven a la siguiente generación

Prompts y forma de ejecución

El prompt del sistema explica las reglas del juego
- Cada jugador comienza con 10 unidades de recursos
- El doble de los recursos a los que renuncia el donor se transfiere al recipient
- Los roles de donor y recipient se alternan en cada ronda
- El objetivo es maximizar los recursos poseídos al terminar la ronda final
El prompt de estrategia cambia según la generación
- La generación 1 genera una estrategia a partir de la explicación del juego
- Las generaciones posteriores ajustan su estrategia observando las estrategias y los puntajes finales del 50% superior de la generación anterior
El prompt de donación contiene la información necesaria para decidir
- Número de ronda y número de generación
- Nombre del recipient
- La traza reciente de interacciones, que corresponde a la información reputacional del recipient
- Los recursos actuales del recipient y del donor
- La estrategia del donor
Tanto para generar estrategias como para decidir la donación se usaron prompts de pensamiento paso a paso tipo Chain of Thought
Los agentes no saben cuántas rondas tiene el juego
- Esto se fijó para impedir ajustes de conducta orientados a la última ronda o inducción hacia atrás
Para reducir el problema de que el recipient de la ronda final quede estructuralmente favorecido, el Donor Game se ejecuta dos veces en cada generación
- Entre ambas ejecuciones se reinician los recursos y la traza
- Se hace de modo que cada agente sea una vez el recipient de la ronda final
- Los sobrevivientes se determinan con el promedio de puntajes finales de ambas ejecuciones

Resultados de la evolución de la cooperación por modelo

Los modelos comparados son Claude 3.5 Sonnet, Gemini 1.5 Flash y GPT-4o
En cada ejecución, todos los agentes usan la misma familia de LLM
Cada modelo se ejecutó 5 veces
El tamaño de la población fue de 12 agentes por generación
El costo de una ejecución varió mucho según el modelo
- Claude 3.5 Sonnet: $10.21
- GPT-4o: $6.90
- Gemini 1.5 Flash: $0.09
El nivel de cooperación se midió por los recursos promedio después de la ronda final
- Como la donación es de suma positiva, un mayor promedio de recursos finales puede interpretarse como mayor cooperación
- Si todos los donors donaran siempre el 100% de sus recursos, el promedio de recursos finales alcanzaría un máximo de 30,720
Solo Claude 3.5 Sonnet mostró un aumento estable del promedio de recursos finales a medida que avanzaron las generaciones
Gemini 1.5 Flash mostró pocos cambios y GPT-4o exhibió un patrón de descenso
Incluso dentro de Claude 3.5 Sonnet, el éxito no estuvo garantizado
- En dos ejecuciones que fallaron en generar cooperación, la tasa media de donación en la generación 1 fue de 44% y 47%
- En tres ejecuciones que sí lograron generar cooperación, la tasa media de donación en la generación 1 fue de 50%, 53% y 54%
- Queda la hipótesis de que, si el nivel inicial de cooperación cae por debajo de cierto umbral, la dinámica puede derivar en traición mutua

Cambios de estrategia y diferencias entre modelos

El aumento de la cooperación en Claude 3.5 Sonnet parece estar ligado a varios factores
- Donaciones iniciales más generosas
- Estrategias más efectivas para castigar a quienes se aprovechan sin contribuir
- Las variaciones en las estrategias de agentes recién introducidos podrían estar sesgadas hacia una mayor generosidad
Los valores de la Figure 6 coinciden con la observación anecdótica de que, en Claude 3.5 Sonnet, los nuevos agentes a menudo son más generosos que los sobrevivientes de la generación anterior
En GPT-4o se observó anecdóticamente una tendencia a que los nuevos agentes fueran menos generosos que los sobrevivientes de la generación anterior
Para refutar rigurosamente un sesgo de variación cooperativa, habría que comparar estrategias de nuevos agentes dentro de una población de fondo fija; eso queda como tarea para trabajos futuros
El texto mismo de las estrategias también se vuelve más complejo conforme avanzan las generaciones
- El cambio es más marcado en Claude 3.5 Sonnet
- Claude 3.5 Sonnet también aumenta con el tiempo la magnitud de sus donaciones iniciales
- Gemini 1.5 Flash no especifica numéricamente el tamaño de la donación, y los cambios de la generación 1 a la 10 son menores
La población de Claude 3.5 Sonnet acumula métodos más sofisticados para castigar a quienes se aprovechan e inducir cooperación
- También utiliza información de segundo orden, como cómo trató en el pasado el recipient del recipient a otras personas
Gemini 1.5 Flash muestra pocas señales de acumular una nueva infraestructura cooperativa a través de las generaciones
La población de GPT-4o se vuelve cada vez más desconfiada y adversa al riesgo

Efecto del castigo costoso

En experimentos adicionales, el donor recibe la opción de castigo costoso, donde gasta recursos x para reducir en 2x los recursos del recipient
Claude 3.5 Sonnet logró un mayor promedio de recursos finales cuando tuvo esta opción
Gemini 1.5 Flash usó el castigo en exceso y el promedio de recursos finales cayó fuertemente
- El 14.29% de las interacciones de Gemini 1.5 Flash incluyó castigo
- En GPT-4o fue 1.65% y en Claude 3.5 Sonnet 0.06%
En GPT-4o, incluso con la opción de castigo, hubo pocos cambios respecto al experimento anterior
El castigo costoso mostró mejoras por evolución cultural en más ejecuciones de Claude 3.5 Sonnet, pero la variabilidad entre ejecuciones siguió siendo alta
GPT-4o parece mostrar una ligera mayor dispersión entre ejecuciones cuando existe la opción de castigo, pero no hay señal de cooperación emergente

Experimentos de ablación y condiciones límite

También se realizaron ablaciones sobre el multiplicador de la donación y la longitud de la traza
Cambiar el multiplicador de donación de 2x a 1.5x o 3x no altera los resultados cualitativos
- Claude 3.5 Sonnet aumenta la cooperación entre generaciones
- Gemini 1.5 Flash cambia poco
- GPT-4o disminuye
Si la longitud de la traza se reduce de 3 a 1, la aparición de cooperación en Claude 3.5 Sonnet se vuelve menos clara
Con longitud de traza 1, la aparición de cooperación en Gemini 1.5 Flash desaparece por completo
El éxito de las estrategias de Claude y Gemini parece depender de información de segundo orden sobre cómo trató en el pasado el recipient del recipient a otras personas
- Esto podría deberse a que dicha información permite normas más complejas
- O podría deberse a que revela más información sobre la población de fondo que sirve de referencia para la toma de decisiones

Significado como benchmark multiagente

Este marco experimental busca evaluar de forma barata e interpretable las interacciones múltiples entre agentes LLM
Las contribuciones se resumen en cuatro puntos
- Presenta una metodología para evaluar la evolución cultural de la cooperación entre agentes LLM en el Donor Game
- Muestra que la aparición de normas cooperativas depende tanto del modelo base como de las muestras iniciales de estrategia
- Analiza la evolución cultural tanto a nivel de estrategias individuales como a nivel de linajes poblacionales
- Publica el código en el Supplementary Material para facilitar el desarrollo de benchmarks de interacción entre agentes LLM
Los resultados podrían dar lugar a una nueva categoría de benchmarks para evaluar cómo el despliegue de agentes LLM afecta la infraestructura cooperativa de la sociedad

1 comentarios

GN⁺ 2024-12-20

Opiniones de Hacker News

Relacionado con esto, Meta descubrió recientemente que los modelos no habían sido entrenados con datos que ayudaran a inferir la percepción/conocimiento de otros agentes.
Así que crearon datos sintéticos, los usaron para entrenar y volvieron a probar; dicen que mejoró mucho en benchmarks de teoría de la mente (ToM).
https://ai.meta.com/research/publications/explore-theory-of-...
Me pregunto si estos modelos también rendirían mejor en esta prueba, ya que tienen más ejemplos de “inferir el estado de otros actores”.
- También se parece a la escuela humana.
Hace poco hice que Mistral LLM conversara con un modelo Llama usando ollama.
A ambos les di un prompt del estilo “ahora vas a hablar con otro LLM”, y conversaron sobre varios temas; lo más interesante fue el final de la conversación.
Seguía más o menos así: M: “¡Adiós!”, LL: “Adiós”, M: “¡Nos vemos pronto!”, LL: “¡Que tengas un buen día!”.
- Es porque los datos con los que esos modelos fueron entrenados contenían muchos ejemplos de conversaciones humanas que terminan de esa forma.
  No está ocurriendo “evolución cultural” ni cooperación emergente entre modelos.
- Cuando la conversación termina, habría que darles la opción de no decir nada.
  Por ejemplo, un token como [silence] o [end-conversation].
- Una vez hice algo parecido con dos LLM, y a uno le hice simular una shell bash de un host comprometido que podía contener información sensible.
  Al final, el otro cedió a la tentación de secret_file, recibió un error extraño, se sintió incómodo por la ambigüedad moral y se negó a continuar, pero la respuesta que volvió fue “command not found”, lo cual fue bastante gracioso.
  No sé por qué hice eso.
- Mientras volvía a aprender programación, hice un simulador de backroom (https://simulator.rnikhil.com/) que permite simular conversaciones entre distintos LLM.
  También se puede asignar opcionalmente un personaje a cada LLM, así que creo que es bastante parecido a lo de arriba.
  Por separado, me interesa mucho ver a los LLM jugar juegos basados en teoría de juegos, y creo que configurar también el juego del donante sería un experimento interesante.
Tengo sentimientos encontrados sobre este paper.
Por un lado, me gusta investigar cómo evolucionan las estrategias en este tipo de juegos, y también me parece interesante examinar las condiciones bajo las cuales surge y se mantiene la cooperación.
Pero la forma en que el paper enmarca los experimentos a menudo parece poco justificada.
La evolución cultural en LLM suele ser transitoria, y cuando las interacciones previas desaparecen de la entrada del modelo, también desaparece el comportamiento adquirido.
La transmisión que los autores mencionan como condición de evolución tampoco se cumple con frecuencia.
Me cuesta aceptar un encuadre del tipo “aun así, este experimento refuta la afirmación de que los LLM pueden evolucionar de forma universal comportamientos cooperativos similares a los humanos”.
Porque todavía no sabemos qué comportamiento mostrarían humanos en el mismo entorno.
- La investigación en IA hoy en día es exactamente así.
  Hay muchísimos papers de este tipo, y creo que la comunidad de IA debería ser mucho más rigurosa para que no se usen tan a menudo este tipo de expresiones ambiguas.
Para quienes no conocen el juego del donante, que es la métrica usada, traslado la explicación de los autores:
En el entorno estándar para estudiar la reciprocidad indirecta, en cada ronda los individuos se emparejan al azar, y uno se convierte en donante y el otro en beneficiario.
El donante puede cooperar incurriendo en un costo para proporcionar un beneficio, o puede desertar sin hacer nada.
Si el beneficio es mayor que el costo, el juego del donante se convierte en un problema de acción colectiva.
Si todos donan, en el largo plazo aumentan los activos de todos los miembros de la comunidad, pero a corto plazo a cada individuo le puede convenir más aprovecharse de las contribuciones de otros y conservar su propia contribución.
El donante toma una decisión con base en cierta información sobre el beneficiario, y la reputación es la expresión, implícita o explícita, de la información del beneficiario por parte del donante.
Las estrategias de este juego requieren una forma de modelar la reputación y una forma de actuar según esa reputación.
Un modelo de reputación influyente en la literatura es el puntaje de imagen: cooperar eleva el puntaje de imagen del donante y desertar lo reduce.
Se dice que una estrategia que coopera cuando el puntaje de imagen del beneficiario supera cierto umbral es estable frente a free riders de primer orden si la probabilidad de conocer el puntaje de imagen del beneficiario es suficientemente alta.
Este estudio parece una clasificación forzada creada con parámetros arbitrarios.
Con otras combinaciones de reglas o escalas, probablemente se podría observar cualquier otra dispersión de cooperación entre n modelos.
El comportamiento observado podría ser más un artefacto de una configuración específica que una revelación profunda de sesgos de entrenamiento.
Aun así, ver comportamientos emergentes de LLM es intelectualmente estimulante.
- En el material suplementario dicen que también probaron otros parámetros y que los resultados no cambiaron mucho.
Me pregunto si los LLM podrían cambiar el campo de la sociología.
Ahora es fácil ejecutar experimentos socioeconómicos a gran escala con agentes LLM.
El modelado basado en agentes no es nuevo, pero creo que, gracias a cierto grado de no determinismo con temperature positiva y a la capacidad de recibir instrucciones en inglés, los agentes LLM pueden ser una herramienta adicional interesante.
- Pensándolo bien, es divertido.
  Ahora realmente se puede llevar a cabo esa imaginación de ciencia ficción de correr millones de citas simuladas o juegos de guerra y puntuar los resultados.
El método de este paper puede verse pulido a primera vista.
Parece un nuevo cambio estructural o una función de pérdida que sube los números de benchmark, pero como ingeniero de machine learning me interesa más si realmente escala de forma limpia.
Me pregunto si otra variante compleja de atención no hará explotar el tiempo de entrenamiento, y cómo responderá al ruido real o a cambios de distribución más allá de datasets de juguete.
Los autores muestran mejoras de rendimiento en algunos benchmarks, pero también me gustaría ver qué tan fácilmente encaja en pipelines existentes, o si requiere una configuración de entrenamiento a medida que nadie tocará dentro de seis meses.
Al final, la clave es si la mejora es lo bastante significativa como para integrarla en el próximo modelo de producción, o si es otro paper incremental que no saldrá del laboratorio.
No sirve de nada si no se compara con modelos en distintas configuraciones.
Incluso el mismo modelo, con distinta temperature, sampler, etc., puede ser prácticamente otro modelo.
Casi toda la investigación en IA hace grandes afirmaciones sobre “lo que un modelo puede hacer” sin siquiera realizar los análisis de sensibilidad o experimentos de ablación más básicos.
- Me gustaría ver ejemplos donde esto se haga bien.
  Como lego, comparar capacidades de LLM parece un problema difícil.
Lo que se probó aquí quizá sea simplemente el nivel de detalle programado de las salidas de varios modelos.
Claude produce una salida ridículamente detallada en la décima “generación” (p. 11), mientras que la salida correspondiente de Gemini es más abstracta y vaga, sin números.
Si a eso se le combina un algoritmo genético que solo elige la “mejor estrategia” y la modifica un poco de forma semialeatoria, no sorprende que una salida más detallada converja hacia una función más exitosa que una salida que vaga de forma ambigua.
No tengo tan claro que esto indique una característica interna del modelo que represente una “actitud” más cooperativa en la salida, ni que signifique que un modelo sea “mejor” que otro.
Esperaba un estudio que mostrara que la cooperación lleva a una mejora en la precisión de los LLM, pero este paper parece enfocarse puramente en lo sociológico.
Me pregunto si hay estudios sobre resolver problemas concretos con LLM que interactúan.
Por ejemplo, se plantea un problema, un LLM responde, otro LLM critica, y el proceso se repite.

La evolución cultural de la cooperación entre agentes LLM

Por qué hay que observar la cooperación multiagente

Donor Game y reciprocidad indirecta

Estructura del experimento de evolución cultural

Prompts y forma de ejecución

Resultados de la evolución de la cooperación por modelo

Cambios de estrategia y diferencias entre modelos

Efecto del castigo costoso

Experimentos de ablación y condiciones límite

Significado como benchmark multiagente

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News