Meta presenta Llama 3.1

xguru · 2024-07-24T09:04:18+09:00

Longitud de contexto de 128K, soporte para 8 idiomas y se agrega el modelo 405B (8B, 70B, 405B) Modelo de IA open source ajustado por instrucciones que cualquiera puede afinar, refinar y desplegar en cualquier lugar El nuevo modelo 405B alcanza un nivel casi igual o mejor que GPT-4o en benchmarks como MMLU (general), Human Eval (código) y GSM8K (matemáticas) Un modelo de IA de primer nivel en flexibilidad y control Permite que la comunidad aproveche nuevos flujos de trabajo como generación de datos sintéticos y destilación de modelos Fue entrenado con más de 15 billones de tokens y usando más de 16,000 GPU H100 El modelo 70B mejorado supera ampliamente a GPT-3.5 Turbo en la mayoría de los benchmarks

(ai.meta.com)

10 puntos por xguru 2024-07-24 | 3 comentarios | Compartir por WhatsApp

Longitud de contexto de 128K, soporte para 8 idiomas y se agrega el modelo 405B (8B, 70B, 405B)
- Modelo de IA open source ajustado por instrucciones que cualquiera puede afinar, refinar y desplegar en cualquier lugar
El nuevo modelo 405B alcanza un nivel casi igual o mejor que GPT-4o en benchmarks como MMLU (general), Human Eval (código) y GSM8K (matemáticas)
- Un modelo de IA de primer nivel en flexibilidad y control
- Permite que la comunidad aproveche nuevos flujos de trabajo como generación de datos sintéticos y destilación de modelos
- Fue entrenado con más de 15 billones de tokens y usando más de 16,000 GPU H100
El modelo 70B mejorado supera ampliamente a GPT-3.5 Turbo en la mayoría de los benchmarks

3 comentarios

wedding 2024-07-24

Vaya, me pregunto cómo habría que configurar las GPU para poder levantar 405B.

gcback 2024-07-24

Parece que el 405B no está pensado para fine-tuning directo ni para serving. Como el CEO mencionó varias veces la destilación, da la impresión de que podría usarse como modelo teacher para fine-tuning y así mejorar la calidad de modelos más ligeros.

xguru 2024-07-24

Opiniones en Hacker News

Los modelos Llama 3.1 mejoraron su rendimiento
- Los modelos 8B y 70B mejoraron frente a Llama 3
- El modelo 405B está a un nivel en el que puede competir con GPT-4o, GPT-4 turbo, Claude 3.5 Sonnet y Claude 3 Opus
Comparación entre GPT-4o y el modelo Llama 3.1 405B
- MMLU: GPT-4o 88.7, Llama 3.1 405B 88.6
- GPQA: GPT-4o 53.6, Llama 3.1 405B 51.1
- MATH: GPT-4o 76.6, Llama 3.1 405B 73.8
- HumanEval: GPT-4o 90.2, Llama 3.1 405B 89.0
- MGSM: GPT-4o 90.5, Llama 3.1 405B 91.6
En Groq.com se puede conversar con los nuevos modelos con latencia ultrabaja
- Hay acceso a la API de 8B y 70B
- La API de 405B solo está disponible para clientes seleccionados
Si se usa el hardware adecuado, es posible ejecutar en casa un LLM que compita con GPT-4o
Es posible ejecutar los modelos localmente con Ollama, Huggingface, Groq y otros
- Con LLMStack se pueden probar modelos localmente o crear aplicaciones rápidamente
El resultado de ejecutar la versión 70B en Ollama fue muy bueno
- Fue posible ejecutar comandos para desactivar las guías y los disclaimers
- Se recibió una lista de comandos para reducir posibles sesgos del ingeniero
Claude 3.5 Sonnet es muy bueno para tareas de programación
- Sigue siendo de lo mejor en benchmarks de programación junto con la función Artifacts
Consulta sobre la información de precios de los modelos open source
- El self-hosting es muy interesante, pero el precio de inferencia hospedada por token no resulta competitivo frente a OpenAI y Anthropic
- Ejemplo: Llama 3 70B cuesta entre $1 y $10 por millón de tokens en varias plataformas, mientras que Claude Sonnet 3.5 cuesta $3 por millón de tokens

Meta presenta Llama 3.1

Lecturas relacionadas

3 comentarios

Opiniones en Hacker News