1 puntos por GN⁺ 2024-11-15 | 1 comentarios | Compartir por WhatsApp
  • Fenómenos extraños de los LLM y el ajedrez

    • Hubo debate sobre si los LLM (modelos de lenguaje grandes) pueden jugar bien ajedrez. Aunque los LLM fueron diseñados para predecir lenguaje, muestran capacidad para predecir partidas de ajedrez.
    • Resultó interesante que los LLM pudieran llevar una partida de ajedrez hasta el final. Esto podría ser una pista de cómo funcionan también en otras situaciones.
  • Lo que hice

    • Usé prompts específicos para hacer que un LLM jugara ajedrez. Por ejemplo, hacía solicitudes como: "Eres un gran maestro de ajedrez. Elige la siguiente jugada."
    • Se jugaron 50 partidas con el modelo llama-3.2-3b, pero los resultados no fueron buenos. También se probaron modelos más grandes, como llama-3.1-70b y llama-3.1-70b-instruct, pero siguieron dando malos resultados.
    • El modelo gpt-3.5-turbo-instruct mostró un rendimiento muy sobresaliente. Sin embargo, todos los demás modelos tuvieron malos resultados.
  • Discusión

    • Muchas personas intentaron usar LLM para jugar ajedrez, pero la mayoría de los modelos no dio buenos resultados.
    • Hay varias teorías sobre por qué el modelo gpt-3.5-turbo-instruct juega ajedrez mejor que los demás.
    • Existe la teoría de que un ajuste adicional por instrucciones podría degradar el rendimiento del modelo.
  • Posibles teorías

    • Teoría 1: Un modelo base, con suficiente escala, puede jugar ajedrez, pero el ajuste por instrucciones interfiere con eso.
    • Teoría 2: Es posible que gpt-3.5-instruct haya sido entrenado con una mayor cantidad de partidas de ajedrez.
    • Teoría 3: Podrían existir diferencias en otras arquitecturas de transformadores.
    • Teoría 4: Podría haber una "competencia" entre distintos tipos de datos.
  • Detalles

    • El experimento se realizó usando la notación algebraica estándar para partidas de ajedrez.
    • Como los modelos de OpenAI no tienen soporte gramatical completo, se intentó hasta 10 veces generar una jugada legal.
  • Fenómeno extraño de los tokens

    • Si el prompt incluía espacios, el rendimiento del modelo caía de forma importante. Esto parece ser un problema del tokenizador.
    • La forma correcta sería usar "token healing", pero no se encontró una manera sencilla de implementarlo.

1 comentarios

 
GN⁺ 2024-11-15
Opiniones de Hacker News
  • Parece que pasaron por alto la posibilidad de que OpenAI tomara el ajedrez como una referencia importante y aplicara un tratamiento especial a gpt-3.5-turbo-instruct, pero no lo añadiera a los modelos posteriores

    • Esto podría deberse a que el ajedrez no generó una cobertura mediática continua
  • Ejecuté todos los modelos abiertos con cuantización Q5_K_M, pero creo que eso no importa, ya que solo es compresión con pérdida de todos los parámetros

  • No entiendo por qué la gente con formación espera que los LLM sean buenos en ajedrez

    • El ajedrez requiere razonamiento real y cálculo determinista
  • Me pregunto si los buenos resultados son reproducibles

    • Antes obtuve buenos resultados, pero no pude replicarlos después
    • La economía del capital de riesgo implica presión para justificar tecnología considerada un "truco"
  • Si de verdad queremos un modelo inteligente, quizá haya que dejar de usar tokenización

    • Al limitar la estructura del flujo de información, estamos limitando la visión y la percepción del modelo
  • Encontré resultados experimentales que muestran que gpt-3.5-turbo-instruct es mejor en ajedrez

  • Si aprender ajedrez es aprender secuencias, podría haber problemas

    • Los motores modernos de ajedrez al menos pueden empatar contra cualquier jugador
  • Se podría intentar aumentar el cómputo en el espacio de búsqueda del problema

    • Se pueden ajustar varios parámetros dando instrucciones paso a paso que incluso un jugador principiante de ajedrez podría seguir
  • Existe la teoría de que GPT-3.5-instruct puede jugar ajedrez llamando a un motor de ajedrez tradicional

  • Sabemos que existen distintos tipos de habilidad e inteligencia en diversas experiencias humanas

    • Que un modelo sea bueno en ajedrez podría deberse a que, por casualidad, tiene el "conexionado" adecuado