8 puntos por GN⁺ 2024-04-24 | 2 comentarios | Compartir por WhatsApp

Introducción al modelo de lenguaje phi-3-mini

  • phi-3-mini es un modelo de lenguaje con 3.8B parámetros, entrenado con 3.3 billones de tokens
  • Según benchmarks académicos y pruebas internas, muestra un rendimiento comparable al de modelos como Mixtral 8x7B y GPT-3.5 (MMLU 69%, MT-bench 8.38)
  • A pesar de ser lo suficientemente pequeño como para desplegarse en un teléfono móvil, ofrece un rendimiento sobresaliente
  • Está compuesto por una versión ampliada del dataset usado en phi-2, con datos web filtrados y datos sintéticos
  • Además, fue alineado adicionalmente para mejorar su robustez, seguridad y formato de chat

Introducción a los modelos phi-3-small y phi-3-medium

  • También se presentan resultados iniciales de escalado de parámetros para phi-3-small y phi-3-medium, modelos de 7B y 14B entrenados con 4.8 billones de tokens
  • Muestran un rendimiento muy superior al de phi-3-mini (MMLU 75%, 78%, MT-bench 8.7, 8.9)

Opinión de GN⁺

  • Resulta impresionante que un modelo de lenguaje de tamaño tan reducido como para usarse en un teléfono móvil muestre un alto rendimiento. Todo indica que el potencial de uso de la IA en dispositivos móviles seguirá creciendo
  • Sin embargo, puede haber preocupación por temas de protección de datos personales y privacidad. Incluso si el procesamiento se hace en el dispositivo local, los datos del usuario deberán gestionarse de forma segura
  • Es interesante el enfoque de entrenamiento que aprovecha datos web y datos sintéticos. Parece que debió requerir mucho esfuerzo en la recopilación y depuración de datos. Es un caso que muestra cómo los datos de alta calidad conducen a un buen rendimiento
  • También es interesante la comparación de rendimiento según el tamaño del modelo. Elegir un modelo del tamaño adecuado parece importante desde el punto de vista de la eficiencia
  • Están apareciendo modelos de lenguaje open source ligeros, como StableLM de Stability AI y Claude de Anthropic. Se espera que surjan diversos casos de uso

2 comentarios

 
GN⁺ 2024-04-24
Comentarios en Hacker News
  • Los resultados de benchmark del modelo Phi-3 deben interpretarse con cautela. Ya hubo precedentes con el modelo anterior, Phi-2, cuyo rendimiento real fue inferior a lo que sugerían las cifras de benchmark. Puede que no se traduzca directamente en uso real ni en una posición alta en el leaderboard de LMSYS.

  • Aun así, Phi-3 muestra un buen rendimiento con un tamaño de modelo pequeño. Esto sugiere que el enfoque de destilación mediante "datos sintéticos" para transferir el rendimiento de GPT-4 a un modelo pequeño podría ser efectivo. También deja entrever el potencial de un enfoque tipo Chinchilla, en el que un modelo gigante se entrena de forma óptima y luego se destila a uno más pequeño.

  • En el leaderboard en inglés de LMSYS, los modelos Phi-3 muestran un rendimiento comparable al de Llama 3 y GPT-3.5, entre otros. En particular, Phi-3-mini 3.8B, con 3.8 mil millones de parámetros, está a la par de Llama 3 8B. Esto apunta a la posibilidad de que aparezca un LLM open source con nivel GPT-4 que pueda ejecutarse en un teléfono.

  • Aun así, este tipo de benchmarks tiene la limitación de que es fácil que los modelos hagan gaming. Más que en tareas individuales, conviene fijarse en el rendimiento general. Parece necesario revisarlo con detenimiento desde varias perspectivas.

  • Algunos de los modelos Phi-3 se publicaron en HuggingFace. Se espera que así sea más fácil aprovecharlos.

  • El entrenamiento con unos enormes 3.3 billones de tokens de datos sintéticos contribuyó a aligerar el modelo. También podría ayudar a resolver problemas de copyright.

  • Sin embargo, en uso real, fuera del ámbito de los datos de entrenamiento, dice muchas tonterías. Puede ser efectivo para finetuning en tareas acotadas, pero parece difícil que reemplace a GPT-3.5 en conversación general.

  • Los pesos del modelo se publicaron en HuggingFace en versiones de contexto 4k y 128k. Esto está despertando interés sobre su posible uso en finetuning o en RAG (Retrieval-Augmented Generation).