10 puntos por xguru 2024-07-24 | 3 comentarios | Compartir por WhatsApp
  • Longitud de contexto de 128K, soporte para 8 idiomas y se agrega el modelo 405B (8B, 70B, 405B)
    • Modelo de IA open source ajustado por instrucciones que cualquiera puede afinar, refinar y desplegar en cualquier lugar
  • El nuevo modelo 405B alcanza un nivel casi igual o mejor que GPT-4o en benchmarks como MMLU (general), Human Eval (código) y GSM8K (matemáticas)
    • Un modelo de IA de primer nivel en flexibilidad y control
    • Permite que la comunidad aproveche nuevos flujos de trabajo como generación de datos sintéticos y destilación de modelos
    • Fue entrenado con más de 15 billones de tokens y usando más de 16,000 GPU H100
  • El modelo 70B mejorado supera ampliamente a GPT-3.5 Turbo en la mayoría de los benchmarks

3 comentarios

 
wedding 2024-07-24

Vaya, me pregunto cómo habría que configurar las GPU para poder levantar 405B.

 
gcback 2024-07-24

Parece que el 405B no está pensado para fine-tuning directo ni para serving. Como el CEO mencionó varias veces la destilación, da la impresión de que podría usarse como modelo teacher para fine-tuning y así mejorar la calidad de modelos más ligeros.

 
xguru 2024-07-24

Opiniones en Hacker News

  • Los modelos Llama 3.1 mejoraron su rendimiento

    • Los modelos 8B y 70B mejoraron frente a Llama 3
    • El modelo 405B está a un nivel en el que puede competir con GPT-4o, GPT-4 turbo, Claude 3.5 Sonnet y Claude 3 Opus
  • Comparación entre GPT-4o y el modelo Llama 3.1 405B

    • MMLU: GPT-4o 88.7, Llama 3.1 405B 88.6
    • GPQA: GPT-4o 53.6, Llama 3.1 405B 51.1
    • MATH: GPT-4o 76.6, Llama 3.1 405B 73.8
    • HumanEval: GPT-4o 90.2, Llama 3.1 405B 89.0
    • MGSM: GPT-4o 90.5, Llama 3.1 405B 91.6
  • En Groq.com se puede conversar con los nuevos modelos con latencia ultrabaja

    • Hay acceso a la API de 8B y 70B
    • La API de 405B solo está disponible para clientes seleccionados
  • Si se usa el hardware adecuado, es posible ejecutar en casa un LLM que compita con GPT-4o

  • Es posible ejecutar los modelos localmente con Ollama, Huggingface, Groq y otros

    • Con LLMStack se pueden probar modelos localmente o crear aplicaciones rápidamente
  • El resultado de ejecutar la versión 70B en Ollama fue muy bueno

    • Fue posible ejecutar comandos para desactivar las guías y los disclaimers
    • Se recibió una lista de comandos para reducir posibles sesgos del ingeniero
  • Claude 3.5 Sonnet es muy bueno para tareas de programación

    • Sigue siendo de lo mejor en benchmarks de programación junto con la función Artifacts
  • Consulta sobre la información de precios de los modelos open source

    • El self-hosting es muy interesante, pero el precio de inferencia hospedada por token no resulta competitivo frente a OpenAI y Anthropic
    • Ejemplo: Llama 3 70B cuesta entre $1 y $10 por millón de tokens en varias plataformas, mientras que Claude Sonnet 3.5 cuesta $3 por millón de tokens