1 puntos por GN⁺ 2023-12-08 | 1 comentarios | Compartir por WhatsApp

Resumen: explorando la técnica de ajuste fino en inteligencia artificial

  • Efectividad y dificultad de la técnica de ajuste fino
    • El ajuste fino complementa las capacidades de GPT-4 y promete mayor velocidad y eficiencia de costos.
    • Para resolver la falta de información sobre qué tan efectivo y difícil es realmente el ajuste fino, se realizó un experimento directo.

Elección del problema

  • Prueba de la capacidad de razonamiento del modelo mediante el draft de Magic: The Gathering (MTG)
    • MTG es un juego de cartas estratégico, y el draft consiste en elegir cartas de un conjunto aleatorio para construir un mazo.
    • El draft es una tarea compleja adecuada porque requiere razonamiento y comprensión de datos nuevos.
    • Se aprovechó el gran volumen de datos históricos proporcionado por el servicio 17lands, usando las elecciones de draft de los mejores jugadores como "ground truth".

Resultados y resumen

  • Rendimiento del modelo 7B ajustado finamente
    • El modelo 7B ajustado finamente superó a GPT-4 y mostró un rendimiento cercano al nivel humano.
    • Ajustar finamente GPT-3.5 podría mostrar mejores resultados, pero el costo es muy alto.
    • El ajuste fino sigue siendo un proceso experimental, especialmente porque la ingeniería de prompts consume mucho tiempo.
    • Después del ajuste fino con un nuevo set de cartas, también mostró capacidad de generalización en sets de cartas no vistos.

Reporte de campo: método y proceso de aprendizaje

  • Construcción de datos
    • Los datos en formato CSV de 17lands se transformaron a formato de texto para hacerlos adecuados para el ajuste fino.
    • El formateo de datos fue un proceso desafiante y experimental.
  • Ejecución del ajuste fino
    • Debido a problemas de acceso a GPU, se rentó una GPU por hora en Runpod.
    • Se usó axolotl para implementar fácilmente la optimización del ajuste fino.
  • Evaluación
    • Es importante establecer criterios de evaluación antes de comenzar el experimento.
    • Definir criterios de evaluación para modelos de lenguaje puede ser difícil.

Lecciones principales

  • Efecto del ajuste fino
    • El ajuste fino con datos nuevos supera a GPT-4 en precisión y costo.
    • El ajuste fino requiere un proceso experimental para hacerse correctamente y es una habilidad especializada más difícil de aprender que la ingeniería de prompts.

Información adicional relacionada con Magic

  • Rendimiento del bot de draft de IA ajustado finamente
    • Se desarrolló una app de asistencia para draft usando un modelo de draft conectado a los logs de Magic Arena.
    • El modelo ajustado finamente genera las elecciones, pero GPT-4 proporciona las explicaciones.
    • Al simular varios bots de draft de IA, mostró un rendimiento similar al de los drafters humanos.

Opinión de GN⁺

El punto más importante de este artículo es que la técnica de ajuste fino tiene el potencial de superar el rendimiento de los modelos de lenguaje grandes existentes (como GPT-4) y, a través de ello, mejorar significativamente la comprensión y la eficiencia de la inteligencia artificial para tareas específicas. Lo que hace interesante este texto es que muestra el proceso concreto y sus efectos mediante un caso de aplicación real, lo que también puede ayudar a ingenieros de software principiantes a entender el potencial de avance de la tecnología de IA y cómo aplicarla.

1 comentarios

 
GN⁺ 2023-12-08
Comentarios de Hacker News
  • Resulta impresionante que esto muestre cómo incluso conceptos simples pueden ser difíciles de implementar en el ajuste fino de un LLM. Incluso con un buen conjunto de datos inicial y un buen modelo, fue una tarea desafiante.
  • Da la impresión de que los LLM son adecuados para problemas que no tienen una respuesta correcta natural. Elegir la carta perfecta es computacionalmente imposible, pero elegir una buena carta sí es posible, y un LLM puede acercarse a un rendimiento de nivel humano.
  • Parece existir un conjunto de problemas que pueden resolverse mediante ajuste fino de LLM. No es un cambio revolucionario para la vida cotidiana, pero sería interesante enfrentarse a bots con estilos de juego atractivos en juegos como Magic: the Gathering.
  • Se plantea la duda de cómo extraer “datos verdaderos” analizando las elecciones de draft de los mejores jugadores. Los datos ordenados por tasa de victorias podrían reflejar no a los mejores jugadores, sino a los más afortunados.
  • Aunque un LLM podría tener cierto conocimiento de las reglas, es probable que considere principalmente la rareza de la carta, el costo, etc. También se cuestiona la “precisión” del draft.
  • En lugar de llevar la pérdida del LLM a 0, podría ser útil probar una pérdida ponderada con Axolotl. La adaptación al dominio podría ayudar en el ajuste fino.
  • Parece que el prompt dado al agente solo incluye los nombres de las cartas y no mantiene el contexto de las elecciones anteriores. Esto sugiere que el buen desempeño del bot en el draft podría ser mera coincidencia.
  • Se compartió un enlace sobre un caso en el que hackearon Magic the Gathering: Arena para lograr una tasa de victorias del 100%. Esto sugiere que la IA virtual de MTGA llamada Sparky quizá no sea muy compleja.
  • Se expresó interés en el ajuste fino de LLM para Magic: The Gathering. Se está construyendo un navegador de similitud de cartas, y aunque se probaron varios prompts con InstructorXL, todavía no se han obtenido resultados satisfactorios. Esta publicación sirvió de inspiración.
  • Surge la curiosidad de si podría usarse un modelo pequeño que trate cada carta como un token y utilice el estado del draft como entrada para predecir qué carta elegir.
  • Sería interesante compararlo con entrenar una red neuronal para hacer draft sin usar Mistral como punto de partida. No está claro por qué el componente LLM sería importante.
  • Es muy interesante que el draft pueda representarse con un LLM. Las mejores IA de draft aprovechan el aprendizaje de representaciones de una forma u otra.