-
Fenómenos extraños de los LLM y el ajedrez
- Hubo debate sobre si los LLM (modelos de lenguaje grandes) pueden jugar bien ajedrez. Aunque los LLM fueron diseñados para predecir lenguaje, muestran capacidad para predecir partidas de ajedrez.
- Resultó interesante que los LLM pudieran llevar una partida de ajedrez hasta el final. Esto podría ser una pista de cómo funcionan también en otras situaciones.
-
Lo que hice
- Usé prompts específicos para hacer que un LLM jugara ajedrez. Por ejemplo, hacía solicitudes como: "Eres un gran maestro de ajedrez. Elige la siguiente jugada."
- Se jugaron 50 partidas con el modelo
llama-3.2-3b, pero los resultados no fueron buenos. También se probaron modelos más grandes, como llama-3.1-70b y llama-3.1-70b-instruct, pero siguieron dando malos resultados.
- El modelo
gpt-3.5-turbo-instruct mostró un rendimiento muy sobresaliente. Sin embargo, todos los demás modelos tuvieron malos resultados.
-
Discusión
- Muchas personas intentaron usar LLM para jugar ajedrez, pero la mayoría de los modelos no dio buenos resultados.
- Hay varias teorías sobre por qué el modelo
gpt-3.5-turbo-instruct juega ajedrez mejor que los demás.
- Existe la teoría de que un ajuste adicional por instrucciones podría degradar el rendimiento del modelo.
-
Posibles teorías
- Teoría 1: Un modelo base, con suficiente escala, puede jugar ajedrez, pero el ajuste por instrucciones interfiere con eso.
- Teoría 2: Es posible que
gpt-3.5-instruct haya sido entrenado con una mayor cantidad de partidas de ajedrez.
- Teoría 3: Podrían existir diferencias en otras arquitecturas de transformadores.
- Teoría 4: Podría haber una "competencia" entre distintos tipos de datos.
-
Detalles
- El experimento se realizó usando la notación algebraica estándar para partidas de ajedrez.
- Como los modelos de OpenAI no tienen soporte gramatical completo, se intentó hasta 10 veces generar una jugada legal.
-
Fenómeno extraño de los tokens
- Si el prompt incluía espacios, el rendimiento del modelo caía de forma importante. Esto parece ser un problema del tokenizador.
- La forma correcta sería usar "token healing", pero no se encontró una manera sencilla de implementarlo.
1 comentarios
Opiniones de Hacker News
Parece que pasaron por alto la posibilidad de que OpenAI tomara el ajedrez como una referencia importante y aplicara un tratamiento especial a
gpt-3.5-turbo-instruct, pero no lo añadiera a los modelos posterioresEjecuté todos los modelos abiertos con cuantización Q5_K_M, pero creo que eso no importa, ya que solo es compresión con pérdida de todos los parámetros
No entiendo por qué la gente con formación espera que los LLM sean buenos en ajedrez
Me pregunto si los buenos resultados son reproducibles
Si de verdad queremos un modelo inteligente, quizá haya que dejar de usar tokenización
Encontré resultados experimentales que muestran que
gpt-3.5-turbo-instructes mejor en ajedrezSi aprender ajedrez es aprender secuencias, podría haber problemas
Se podría intentar aumentar el cómputo en el espacio de búsqueda del problema
Existe la teoría de que
GPT-3.5-instructpuede jugar ajedrez llamando a un motor de ajedrez tradicionalSabemos que existen distintos tipos de habilidad e inteligencia en diversas experiencias humanas