3 puntos por GN⁺ 2024-11-20 | 1 comentarios | Compartir por WhatsApp

Aspectos destacados de Llama 3.1 405B en Cerebras Inference

  • Genera 969 tokens de salida por segundo: 12 veces más rápido que el mejor resultado con GPU
  • Tiempo hasta el primer token de 240 ms: menor que la mayoría de las API
  • Soporta una longitud de contexto de 128K: el mayor rendimiento registrado
  • Pesos de 16 bits: mantiene la precisión del modelo completo
  • Disponibilidad general prevista para el primer trimestre de 2025, con un precio de $6 por millón de tokens de entrada y $12 por millón de tokens de salida

IA de frontera a velocidad instantánea

  • Cerebras impulsó este año Llama 3.1 8B y 70B a más de 2,000 tokens por segundo
  • Los modelos de frontera como GPT-4o, Claude 3.5 Sonnet y Llama 3.1 405B nunca habían superado los 200 tokens por segundo en GPU, ASIC o la nube
  • Cerebras Inference resuelve este problema para que Llama 3.1 405B ofrezca rendimiento completo con un contexto de 128K
  • Rompió el récord al generar 969 tokens de salida por segundo con un prompt de 1,000 tokens
  • Alcanzó 539 tokens/segundo con un prompt de entrada de 100,000 tokens: 11 veces más rápido que Fireworks y 44 veces más rápido que AWS

La mejor latencia

  • El tiempo hasta el primer token es una de las métricas más importantes en aplicaciones reales
  • Con 240 milisegundos, Cerebras ofrece el tiempo hasta el primer token más rápido entre todas las plataformas que ejecutan Llama 3.1-405B
  • Mejora significativamente la experiencia del usuario con tiempos de respuesta muy superiores a las soluciones basadas en GPU

Disponibilidad

  • Cerebras Inference para Llama 3.1-405B está actualmente en pruebas con clientes y su disponibilidad general está prevista para el primer trimestre de 2025
  • El precio de salida es 20% más barato que AWS, Azure y GCP

Los modelos abiertos son los más rápidos

  • Gracias al enfoque abierto de Meta y a la innovadora tecnología de inferencia de Cerebras, Llama 3.1-405B se ejecuta más de 10 veces más rápido que los modelos de frontera cerrados
  • Proporciona una base adecuada para aplicaciones de voz, video y razonamiento

1 comentarios

 
GN⁺ 2024-11-20
Opiniones de Hacker News
  • Es difícil superar los 100 tok/s al implementar el modelo Llama 3.1 70b en un clúster de 8x H100

    • Da curiosidad cómo lograron esa velocidad
    • Parece que haría falta inferencia multinodo o un mecanismo de atención dispersa
  • No hay seguridad de que la comparación de latencia sea justa

    • La latencia incluye el procesamiento del contexto/prompt, el tiempo de espera para acceder al hardware y otros overheads de la API
    • Es muy probable que la cifra de Cerebras casi no incluya tiempo de espera
  • Para ofrecer alto throughput con buena latencia, hace falta sobreaprovisionamiento excesivo

    • No está claro si la latencia incluye la carga del modelo
    • En trabajos por lotes, se puede usar la máquina de Cerebras al 100% y sostener 1k tokens/s de forma continua
  • Con los modelos de la generación actual y usando RAG, múltiples agentes e intérprete de código, la latencia del modelo se vuelve el cuello de botella

    • El throughput de tokens de un modelo de la clase 405B permite muchas experiencias interactivas
  • El chip de Cerebras usa una oblea completa y solo incluye 44 GB de SRAM

    • Para que un modelo 405B quepa en precisión bf16 se necesitan 19 chips
    • En costo de fabricación por oblea, equivale a usar más de 1500 H100
  • Hay una lista de espera para probar la API

    • Cuando no se puede comprar el servicio, es necesario ser escéptico con las afirmaciones de la empresa
  • Parece muy probable que Nvidia termine adquiriendo Cerebras

  • Impresiona que sea posible mejorar el rendimiento con hardware nuevo

    • Da curiosidad cuál es el límite de las mejoras en rendimiento de entrenamiento mediante hardware
  • Me gustaría ver una comparación de tokens/segundo/vatio

  • No se menciona al competidor Groq

  • Da curiosidad cuánto cuesta ofrecer un servicio con esta latencia

    • El costo determina qué tan ampliamente puede adoptarse
    • Queda la duda de si esto es solo para negocios que realmente necesitan esa latencia o si puede desplegarse de forma general