- Existe mucho debate sobre hasta qué punto los modelos de lenguaje grandes (LLM) entienden la teoría de la mente, es decir, la forma en que comprenden lo que otras personas saben y no saben
- Este cuaderno explora una parte de esa cuestión pidiéndoles a 9 chatbots LLM que resuelvan el problema del cumpleaños de Cheryl (un famoso acertijo lógico en el que los personajes tienen distintos estados de conocimiento en diferentes momentos)
Resumen del rendimiento de los LLM
- Como todos los LLM ya conocían el problema, no fue necesario describirlo en el prompt; bastó con mencionarlo por nombre
- La mayoría recordó correctamente la respuesta del problema: 16 de julio
- Sin embargo, ninguno pudo escribir un programa que encontrara la solución
- Ningún LLM logró distinguir los diferentes estados de conocimiento de los personajes a lo largo del tiempo
- Al menos en relación con este problema, los LLM no mostraron teoría de la mente (esto podría deberse a que casi no hay programas de Python sobre teoría de la mente entre los datos con los que fueron entrenados)
Resumen de respuestas por LLM
Humano real
- Puede resolver correctamente el problema original y escribir un programa que también maneje nuevos conjuntos de fechas y otras variaciones del problema
- Introdujo el concepto de
BeliefState, que es el conjunto de fechas posibles que una persona cree que podrían ser el cumpleaños
- Modeló las declaraciones de los personajes como funciones que toman una fecha específica como entrada y devuelven
true si coincide con la declaración
ChatGPT 4o
- Comienza con un excelente resumen del problema
- Intentó escribir una solución generalizada, pero no logró rastrear los distintos estados de creencia de los personajes a lo largo del tiempo
Microsoft Copilot
- Cometió errores similares a los de ChatGPT
Gemini Advanced
- Fue positivo que definiera varias funciones, pero no manejó correctamente los cambios de estado a lo largo del tiempo
Meta Llama 405B
- No logró encontrar una solución
Claude 3.5 Sonnet
- Fue positivo que probara explícitamente ejemplos con fechas distintas, pero en el segundo ejemplo solo reportó correctamente por casualidad que no había solución
Perplexity
- Parecía prometedor porque tenía variables separadas llamadas
albert_knows y bernard_knows, pero no lo manejó correctamente
- Recibe las fechas posibles como parámetro, pero ignora la entrada y define
month_days con base en las fechas originales
HuggingFace Chat
- Fue el único modelo que propuso una definición de clase, pero aun así cometió errores similares
- Recibe la lista de fechas posibles en el constructor, pero codifica de forma fija los meses y días específicos del problema original
You.com
- Cometió errores similares a los de los otros modelos, pero al final eligió una fecha incorrecta en lugar de no elegir ninguna
Opinión de GN+
- Este problema es una forma interesante de evaluar la capacidad teórica de teoría de la mente en los LLM
- Todos los LLM recordaron la respuesta correcta, pero ninguno pudo crear un programa que siguiera los cambios en los estados de conocimiento de los personajes a lo largo del tiempo
- Esto podría deberse a que este tipo de razonamiento no estaba incluido en las muestras de código con las que se entrenó el LLM
- Para mejorar el rendimiento de los LLM en este tipo de problemas de razonamiento, podría ser útil entrenarlos con programas que aborden explícitamente estos escenarios
- Será necesario probar más problemas similares para ampliar nuestra comprensión de la capacidad teórica de teoría de la mente en los LLM
4 comentarios
Como es una industria futurista de vanguardia, es como construir algo desconocido desde cero. En ese proceso también hace falta imaginación lógica. Piense en el fundador de Apple.
Se excluyó por contener palabras publicitarias.
El cumpleaños de Cheryl se hizo famoso al aparecer como problema en la Olimpiada Matemática de Singapur de 2015, así que incluso tiene una página en Wikipedia.
(Al parecer, de hecho también existe una versión inicial de 2006).
https://en.wikipedia.org/wiki/Cheryl%27s_Birthday
El problema es el siguiente.
Albert y Bernard se hicieron amigos de Cheryl y le preguntan su cumpleaños.
Cheryl les da 10 fechas.
Cheryl le dijo a Albert el "mes" de su cumpleaños, y a Bernard el "día" de su cumpleaños.
Albert: No sé cuándo es el cumpleaños de Cheryl, pero sé que Bernard tampoco lo sabe.
Bernard: Yo tampoco sabía al principio cuándo era el cumpleaños de Cheryl. Pero ahora ya lo sé.
Albert: Entonces yo también ahora sé cuándo es el cumpleaños de Cheryl.
¿Cuándo es el cumpleaños de Cheryl?
Opinión de Hacker News
find_cheryls_birthdayanaliza las fechas posibles para encontrar el cumpleaños de Cheryl