3 puntos por GN⁺ 2024-04-22 | 1 comentarios | Compartir por WhatsApp

Rendimiento de Meta-Llama-3-8B-Instruct

  • Aunque es un modelo de 8B, muestra un rendimiento casi al nivel de Wizard 22B
  • Muestra una capacidad de razonamiento superior incluso a la de modelos previos de 70B
  • Ofrece un rendimiento muy sobresaliente en diversas áreas, como resolución de problemas y programación

Características de Meta-Llama-3-8B-Instruct

  • Es el resultado de que Meta invirtiera recursos masivos para entrenarlo durante mucho tiempo con más datos
  • Hay diferencias de rendimiento según el desarrollador y el hardware. Los resultados también cambian según los parámetros de inferencia
  • En la versión FP16 muestra un rendimiento casi idéntico a Q8_0. Para un modelo de 8B, este nivel de rendimiento lo coloca entre lo mejor en modelos cuantizados
  • El contenido generado tiene un tono algo áspero e ingenioso. Capta la intención de las frases y responde de manera adecuada

Opinión de GN⁺

  • Para una sola consulta ofrece respuestas confiables, pero en conversaciones interactivas de múltiples turnos todavía muestra limitaciones. Hace falta mejorar mediante optimización de plantillas de prompt o ajuste de hiperparámetros
  • Como el rendimiento del modelo de 8B es muy superior al del modelo de 3B, parece prometedor crear modelos especializados haciendo fine-tuning de distintos modelos de clase 8B
  • Como su comprensión del lenguaje y capacidad de razonamiento son sobresalientes, tiene altas posibilidades de uso en campos intensivos en conocimiento o áreas especializadas. Podría desarrollarse en modelos especializados para dominios como medicina, derecho y finanzas
  • Es un gran logro que Meta haya llevado un modelo de 8B hasta este nivel con sus recursos y capacidades técnicas. Se espera que en el futuro también sea posible ejecutar modelos de IA de alto rendimiento en PCs personales
  • Es una lástima que no se haya publicado un modelo de tamaño intermedio entre 8B y 70B. Si apareciera un modelo de alrededor de 32B, se espera que muestre un equilibrio óptimo entre rendimiento y eficiencia

1 comentarios

 
GN⁺ 2024-04-22
Opiniones de Hacker News
  • El modelo Llama 3 8B responde a la pregunta de qué pasa cuando entrenas un modelo pequeño durante muchísimo tiempo. Es una tendencia que comenzó con los modelos de Mistral y que en Llama 3 se profundiza aún más. Usar 15T tokens para un modelo de 8B parámetros es un nivel que no se había visto hasta ahora.
  • Es un lanzamiento que eleva las expectativas sobre la mejora de calidad de los modelos pequeños.
  • Llama 3 parece ser hablador y da la impresión de hacer algunas suposiciones equivocadas. Por ejemplo, imaginó que al escupir hacia el cielo podría alcanzar las nubes, pero luego se corrigió solo diciendo que en realidad no es así.
  • Da curiosidad si estos resultados provienen de más entrenamiento y de la mejora de capacidades que eso trae, o si se debe a que este tipo de acertijos ya es bien conocido y por eso está bien representado en los datos de entrenamiento.
  • Lo especial de Llama 3 es que puso esfuerzo adicional en la deduplicación de los datos de entrenamiento (calidad) y en el aumento de los datos de entrenamiento (cantidad), además de usar 4 veces más código como material de entrenamiento, lo que favorece el razonamiento.
  • Tal vez, al poner más esfuerzo en la curación y generación de datos de entrenamiento, se pueda esperar una mejora enorme de rendimiento incluso en modelos pequeños como este.
  • Llama 3 sigue sin usar Mixture of Experts (MoE). Esto sugiere que crear modelos MoE gigantes podría ser un desperdicio.
  • Meta está gastando miles de millones de dólares en chips de IA de Nvidia. Parece posible que dentro de los próximos 5 años se pueda ejecutar en teléfonos y laptops un modelo de 8B con nivel de GPT-4.
  • Me impresiona mucho la capacidad de razonamiento del modelo 8b-instruct. Ilusiona el futuro de los modelos pequeños.
  • El mayor problema de los LLM locales es que la gente puede quedarse con impresiones distintas según cómo los use.
  • La mayoría de las empresas siguen entrenando sus modelos de forma continua y no existe realmente un punto en el que el entrenamiento termine. Eso explica por qué el gasto en GPU es tan enorme.
  • Si quisieras ejecutar hoy mismo este modelo en un teléfono, primero tendrías que empezar por correr llama.cpp en Termux y cargar archivos de modelo como ggml.
  • Sorprende que el modelo 8B falle en la pregunta: "¿Qué pesa más, 1 kg de hierro o 2 kg de plumas?". GPT-3.5 también falló, pero el modelo 70B y GPT-4 sí acertaron.