-
Recientemente existía el misterio de que los modelos de lenguaje grandes (LLM) no juegan bien al ajedrez. Sin embargo,
gpt-3.5-turbo-instructes una excepción y juega ajedrez bien a nivel amateur. Este modelo es más antiguo y también más pequeño que otros modelos recientes. -
Se han propuesto varias teorías:
- Teoría 1: los modelos base suficientemente grandes juegan bien al ajedrez, pero eso no ocurre tras el ajuste por instrucciones para convertirlos en modelos de chat.
- Teoría 2: es posible que
gpt-3.5-turbo-instructhaya aprendido con más datos de ajedrez. - Teoría 3: hay algo especial en cierta arquitectura específica de LLM.
- Teoría 4: existe una "competencia" entre tipos de datos, por lo que para que un LLM juegue bien al ajedrez necesita muchos datos de partidas de ajedrez.
- Teoría 5: la afirmación de que OpenAI hace trampa.
- Teoría 6: la afirmación de que los LLM en realidad no pueden jugar ajedrez.
-
La afirmación de que OpenAI hace trampa resulta difícil de creer.
gpt-3.5-turbo-instructelige movimientos de forma distinta a un motor de ajedrez y, según criterios de expertos, no es sobresaliente. -
Los LLM sí pueden jugar ajedrez.
gpt-3.5-turbo-instructcasi no propone movimientos ilegales y también juega bien en estados de tablero nuevos. -
gpt-3.5-turbo-instructes un modelo de "completado", que recibe texto y genera texto nuevo.gpt-4o-miniygpt-4oson modelos de "chat", que usan un prompt del sistema y un prompt del usuario. -
Mediante diversos experimentos se confirmó que el ajuste del prompt, la incorporación de ejemplos y el ajuste fino pueden influir en el rendimiento del modelo.
-
Agregar ejemplos tuvo un gran impacto en el rendimiento, y el ajuste fino también ayudó. Sin embargo, proporcionar movimientos legales redujo el rendimiento.
-
Si se induce a
gpt-4oa operar como si estuviera en modo de "completado", su rendimiento mejora. Esto sugiere quegpt-4-basepodría jugar bien al ajedrez. -
En conclusión, es muy probable que los modelos base de OpenAI hayan aprendido con más datos de ajedrez, y que los modelos de chat puedan rendir peor que los modelos de completado.
-
Encontrar el prompt óptimo, los ejemplos adecuados y el ajuste fino correcto es una tarea difícil y costosa.
1 comentarios
Opiniones de Hacker News
El autor no proporciona datos sobre la frecuencia de movimientos ilegales, así que es difícil sacar conclusiones significativas
gpt-3.5-turbo-instructcasi no propone movimientos ilegales incluso en el final de la partidaComo forma de probar si entiende el ajedrez, se le hace jugar el siguiente movimiento desde 1000 posiciones legales aleatorias
No todos están equivocados
Los LLM se sienten como si buscaran el hechizo correcto
Se afirma que entrenar con muestras de código mejora el "razonamiento"
Podría haber un caso especial donde
gpt-3.5-turbo-instructreconoce notación de ajedrez y llama a un motor de ajedrez externoSe midieron resultados aunque no se le indicó explícitamente al LLM que ganara la partida
El fine-tuning ayuda, y los ejemplos pueden sustituir el fine-tuning
Sería divertido jugar ajedrez con un LLM sin pensar en prompts