Aspectos destacados de Llama 3.1 405B en Cerebras Inference
- Genera 969 tokens de salida por segundo: 12 veces más rápido que el mejor resultado con GPU
- Tiempo hasta el primer token de 240 ms: menor que la mayoría de las API
- Soporta una longitud de contexto de 128K: el mayor rendimiento registrado
- Pesos de 16 bits: mantiene la precisión del modelo completo
- Disponibilidad general prevista para el primer trimestre de 2025, con un precio de $6 por millón de tokens de entrada y $12 por millón de tokens de salida
IA de frontera a velocidad instantánea
- Cerebras impulsó este año Llama 3.1 8B y 70B a más de 2,000 tokens por segundo
- Los modelos de frontera como GPT-4o, Claude 3.5 Sonnet y Llama 3.1 405B nunca habían superado los 200 tokens por segundo en GPU, ASIC o la nube
- Cerebras Inference resuelve este problema para que Llama 3.1 405B ofrezca rendimiento completo con un contexto de 128K
- Rompió el récord al generar 969 tokens de salida por segundo con un prompt de 1,000 tokens
- Alcanzó 539 tokens/segundo con un prompt de entrada de 100,000 tokens: 11 veces más rápido que Fireworks y 44 veces más rápido que AWS
La mejor latencia
- El tiempo hasta el primer token es una de las métricas más importantes en aplicaciones reales
- Con 240 milisegundos, Cerebras ofrece el tiempo hasta el primer token más rápido entre todas las plataformas que ejecutan Llama 3.1-405B
- Mejora significativamente la experiencia del usuario con tiempos de respuesta muy superiores a las soluciones basadas en GPU
Disponibilidad
- Cerebras Inference para Llama 3.1-405B está actualmente en pruebas con clientes y su disponibilidad general está prevista para el primer trimestre de 2025
- El precio de salida es 20% más barato que AWS, Azure y GCP
Los modelos abiertos son los más rápidos
- Gracias al enfoque abierto de Meta y a la innovadora tecnología de inferencia de Cerebras, Llama 3.1-405B se ejecuta más de 10 veces más rápido que los modelos de frontera cerrados
- Proporciona una base adecuada para aplicaciones de voz, video y razonamiento
1 comentarios
Opiniones de Hacker News
Es difícil superar los 100 tok/s al implementar el modelo Llama 3.1 70b en un clúster de 8x H100
No hay seguridad de que la comparación de latencia sea justa
Para ofrecer alto throughput con buena latencia, hace falta sobreaprovisionamiento excesivo
Con los modelos de la generación actual y usando RAG, múltiples agentes e intérprete de código, la latencia del modelo se vuelve el cuello de botella
El chip de Cerebras usa una oblea completa y solo incluye 44 GB de SRAM
Hay una lista de espera para probar la API
Parece muy probable que Nvidia termine adquiriendo Cerebras
Impresiona que sea posible mejorar el rendimiento con hardware nuevo
Me gustaría ver una comparación de tokens/segundo/vatio
No se menciona al competidor Groq
Da curiosidad cuánto cuesta ofrecer un servicio con esta latencia