1 puntos por GN⁺ 2024-11-23 | 1 comentarios | Compartir por WhatsApp
  • Recientemente existía el misterio de que los modelos de lenguaje grandes (LLM) no juegan bien al ajedrez. Sin embargo, gpt-3.5-turbo-instruct es una excepción y juega ajedrez bien a nivel amateur. Este modelo es más antiguo y también más pequeño que otros modelos recientes.

  • Se han propuesto varias teorías:

    • Teoría 1: los modelos base suficientemente grandes juegan bien al ajedrez, pero eso no ocurre tras el ajuste por instrucciones para convertirlos en modelos de chat.
    • Teoría 2: es posible que gpt-3.5-turbo-instruct haya aprendido con más datos de ajedrez.
    • Teoría 3: hay algo especial en cierta arquitectura específica de LLM.
    • Teoría 4: existe una "competencia" entre tipos de datos, por lo que para que un LLM juegue bien al ajedrez necesita muchos datos de partidas de ajedrez.
    • Teoría 5: la afirmación de que OpenAI hace trampa.
    • Teoría 6: la afirmación de que los LLM en realidad no pueden jugar ajedrez.
  • La afirmación de que OpenAI hace trampa resulta difícil de creer. gpt-3.5-turbo-instruct elige movimientos de forma distinta a un motor de ajedrez y, según criterios de expertos, no es sobresaliente.

  • Los LLM sí pueden jugar ajedrez. gpt-3.5-turbo-instruct casi no propone movimientos ilegales y también juega bien en estados de tablero nuevos.

  • gpt-3.5-turbo-instruct es un modelo de "completado", que recibe texto y genera texto nuevo. gpt-4o-mini y gpt-4o son modelos de "chat", que usan un prompt del sistema y un prompt del usuario.

  • Mediante diversos experimentos se confirmó que el ajuste del prompt, la incorporación de ejemplos y el ajuste fino pueden influir en el rendimiento del modelo.

  • Agregar ejemplos tuvo un gran impacto en el rendimiento, y el ajuste fino también ayudó. Sin embargo, proporcionar movimientos legales redujo el rendimiento.

  • Si se induce a gpt-4o a operar como si estuviera en modo de "completado", su rendimiento mejora. Esto sugiere que gpt-4-base podría jugar bien al ajedrez.

  • En conclusión, es muy probable que los modelos base de OpenAI hayan aprendido con más datos de ajedrez, y que los modelos de chat puedan rendir peor que los modelos de completado.

  • Encontrar el prompt óptimo, los ejemplos adecuados y el ajuste fino correcto es una tarea difícil y costosa.

1 comentarios

 
GN⁺ 2024-11-23
Opiniones de Hacker News
  • El autor no proporciona datos sobre la frecuencia de movimientos ilegales, así que es difícil sacar conclusiones significativas

    • Por ejemplo, sería parecido a afirmar que un LLM es un médico de nivel experto mientras se excluyen de los datos los consejos médicos incorrectos
  • gpt-3.5-turbo-instruct casi no propone movimientos ilegales incluso en el final de la partida

    • Se afirma que este modelo puede "entender" el ajedrez y "razonar"
    • Esto genera dudas, dado que incluso un jugador de ajedrez "aficionado avanzado" rara vez hace movimientos ilegales
  • Como forma de probar si entiende el ajedrez, se le hace jugar el siguiente movimiento desde 1000 posiciones legales aleatorias

    • Se verifica, con posiciones generadas a través del proyecto ChessPositionRanking, si no propone movimientos ilegales
    • Estas posiciones son útiles para probar la legalidad del siguiente movimiento, pero menos útiles para distinguir la calidad
  • No todos están equivocados

    • Hay que asumir que los benchmarks publicados fueron objeto de targeting específico durante el entrenamiento
    • Es natural que OpenAI incluya partidas de ajedrez en los datos de entrenamiento
  • Los LLM se sienten como si buscaran el hechizo correcto

    • Se espera que la innovación tecnológica continúe, y los LLM son sorprendentes, aunque a veces se sienten como una película de ciencia ficción
  • Se afirma que entrenar con muestras de código mejora el "razonamiento"

    • Si el paper "World Models from Language" funciona, el ajedrez debería ser el caso más pequeño
  • Podría haber un caso especial donde gpt-3.5-turbo-instruct reconoce notación de ajedrez y llama a un motor de ajedrez externo

    • Se plantea la posibilidad de que ciertos modelos hayan sido entrenados para cambiar a otro LLM cuando reconocen notación de ajedrez
  • Se midieron resultados aunque no se le indicó explícitamente al LLM que ganara la partida

    • Se cuestiona si eso ya está implícito en el prompt "Eres un gran maestro de ajedrez"
  • El fine-tuning ayuda, y los ejemplos pueden sustituir el fine-tuning

    • Resulta interesante que dar ejemplos pueda producir un efecto equivalente al fine-tuning
  • Sería divertido jugar ajedrez con un LLM sin pensar en prompts

    • Podría ser una nueva forma de sentir cómo "piensa" un LLM