Cerebras Inference procesa 969 tokens por segundo en Llama 3.1 405B

(cerebras.ai)

3 puntos por GN⁺ 2024-11-20 | 1 comentarios | Compartir por WhatsApp

Los grandes modelos de frontera suelen tener cuellos de botella en velocidad y latencia, pero Cerebras Inference registró 969 tokens de salida por segundo en cargas de trabajo de clientes con Llama 3.1 405B
Con un prompt de 1,000 tokens, el resultado fue 8 veces más rápido que SambaNova, 12 veces más rápido que la nube GPU más rápida y 75 veces más rápido que AWS
Con una entrada de 100,000 tokens, solo 6 proveedores devolvieron resultados, y Cerebras fue el único proveedor no basado en GPU en completar el benchmark, alcanzando 539 tokens por segundo
El tiempo hasta el primer token fue de 240 ms, y clientes que migraron desde GPT-4 reportaron una reducción del 75% en la latencia total
Cerebras Inference para Llama 3.1 405B está disponible actualmente como prueba para clientes, con disponibilidad general prevista para el primer trimestre de 2025 y precios de US$6/M tokens de entrada y US$12/M tokens de salida

Récord de rendimiento de Llama 3.1 405B

Cerebras Inference alcanzó 969 output tokens/s ejecutando Llama 3.1 405B
- Es un resultado basado en un prompt de 1,000 tokens
- Según mediciones de Artificial Analysis, estableció récords en velocidad de salida, rendimiento con contexto largo y tiempo hasta el primer token
En la misma comparación, Llama 3.1 405B en Cerebras se presenta como 12 veces más rápido que GPT-4o y 18 veces más rápido que Claude 3.5 Sonnet
Cerebras explica que este año llevó Llama 3.1 8B y 70B a más de 2,000 tokens/s, mientras que modelos de frontera como GPT-4o, Claude 3.5 Sonnet y Llama 3.1 405B no habían superado los 200 tokens/s en GPU, ASIC ni nubes
La comparación con un prompt de 1,000 tokens es la siguiente
- 8 veces más rápido que SambaNova
- 12 veces más rápido que la nube GPU más rápida
- 75 veces más rápido que AWS
Con un prompt de entrada de 100,000 tokens registró 539 tokens/s
- Solo 6 proveedores devolvieron resultados
- Cerebras fue el único proveedor no basado en GPU que completó el benchmark
- 11 veces más rápido que Fireworks y 44 veces más rápido que AWS

Latencia, calendario de disponibilidad y precio

Cerebras Inference para Llama 3.1 405B registró un tiempo hasta el primer token de 240 ms
- El tiempo hasta el primer token es una métrica clave de latencia que los usuarios perciben en aplicaciones reales
- En soluciones basadas en GPU, el tiempo de respuesta inicial puede extenderse hasta varios segundos
Clientes que migraron de GPT-4 a Cerebras Inference reportaron una reducción del 75% en la latencia total
- Esto se traduce en una mejor experiencia de usuario en casos de uso donde la interacción en tiempo real es clave, como aplicaciones de IA de voz y video
Cerebras Inference para Llama 3.1 405B está disponible actualmente como prueba para clientes
- La disponibilidad general está prevista para el primer trimestre de 2025
- El precio es de US$6 por millón de tokens de entrada y US$12 por millón de tokens de salida
- El precio de salida es 20% menor que el de AWS, Azure y GCP
Se explica que la combinación del enfoque abierto de Meta con la tecnología de inferencia de Cerebras permite que Llama 3.1 405B se ejecute más de 10 veces más rápido que los modelos de frontera cerrados
- Se presenta como una base adecuada para aplicaciones de voz, video y razonamiento donde son importantes la baja latencia y muchas etapas de inferencia

1 comentarios

GN⁺ 2024-11-20

Opiniones en Hacker News

Realmente es sorprendentemente rápido. Incluso con una implementación propia de Llama 3.1 70B en un clúster de 8x H100 cuesta superar los 100 tokens/s, así que me intriga cómo lo hacen.
No creo que técnicas comunes, como speculative decoding o FlashAttention, lleguen ni cerca; como mínimo parece que haría falta algo como inferencia multinodo o atención dispersa.
- Cerebras fabrica una CPU de aproximadamente 1 millón de núcleos y hace la inferencia sobre eso, no sobre GPU. Es una arquitectura completamente distinta, así que no entra la red de por medio.
  También es posible que una parte considerable se esté resolviendo desde la caché de CPU más que desde HBM. Para entender el diseño del chip, recomiendo los videos de YouTube de TechTechPotato sobre Cerebras.
- Lo hacen con silicio personalizado con un área varias veces mayor que 8x H100. Seguramente también hay optimizaciones de ejecución/runtime, pero la diferencia clave probablemente sea la cantidad abrumadora de transistores.
  https://cerebras.ai/product-chip/
- El chip tiene el tamaño de un plato. Al ver las fotos se entiende: https://cerebras.ai/product-chip/
- Cerebras es una empresa de chips y no usa GPU. Este chip usa integración a escala de oblea, así que físicamente tiene el tamaño de una oblea completa; es como combinar decenas de GPU en una sola.
  La memoria on-chip es limitada y toda es SRAM, y no está claro cuánto ancho de banda HBM hay por oblea. Es un problema de optimización completamente distinto a correrlo en un clúster de GPU.
- El gran secreto son dos cosas. El chip es enorme y usa SRAM como memoria, mucho más rápida que la HBM de las GPU.
  De hecho, esa es la razón principal de que sea tan rápido. Groq también obtiene velocidad por el mismo motivo.
No tengo claro si aquí están comparando la latencia realmente en las mismas condiciones. La latencia se divide, a grandes rasgos, en tres partes: throughput de contexto/prompt, tiempo de cola esperando acceso al hardware, y overhead general de API como la red.
Entiendo que varios de los servicios comparados, quizá todos, no se basan en capacidad reservada, por lo que las mediciones incluyen tiempo de cola. En LLM, ese tiempo puede ser bastante grande. En cambio, las cifras de Cerebras probablemente se obtuvieron con acceso garantizado al hardware, así que casi no incluirían un tiempo de cola que puede crecer indefinidamente.
El throughput en sí es impresionante, pero para ofrecer ese throughput con baja latencia al usuario final hace falta sobreaprovisionamiento, y no está claro cómo impactará la cola en eso. También me pregunto si las mediciones son con el modelo ya listo en la máquina o si incluyen el tiempo de carga del modelo cuando hace falta. También habría que ver si la latencia cambia al usar modelos fine-tuned.
Para trabajos batch que puedan mantener una máquina Cerebras al 100% de uso y sacar constantemente 1.000 tokens/s, claramente parece ventajoso.
- Incluso asumiendo que todos están en condiciones ideales, es increíble. Con batch size 1, un modelo de 405B parámetros a 1.000 tokens/s es absurdamente rápido.
Viendo lo que se puede hacer con modelos de la generación actual sumándoles RAG, múltiples agentes y code interpreters, ahora el muro parece estar más cerca de la latencia del modelo que de la precisión.
Con este nivel de throughput de tokens en un modelo de 405B, se vuelven posibles muchas experiencias interactivas.
- No entiendo bien cómo un manual de reglas ayudaría a resolver incidentes. Creo que cada incidente debería ser nuevo, porque se corrige la causa raíz.
  Por eso, cada vez hay que meterse en el código o en el código desplegado recientemente y correlacionarlo con métricas operativas. O me pregunto si ese manual de reglas simplemente significa un procedimiento de rollback.
Para dejarlo claro: un solo chip de Cerebras usa una oblea completa y aun así solo tiene 44 GB de SRAM encima. Para cargar un modelo de 405B en precisión bf16, incluso excluyendo KV cache y memoria de activaciones, hacen falta 19 de estos “chips”.
A medida que aumenta la longitud de secuencia, los requisitos suben todavía más por la KV cache. Si uno busca, parece que en una oblea caben alrededor de 60 a 80 chips H100, así que en términos de costo de fabricación de obleas es parecido a usar más de 1.500 H100.
- El presupuesto que estas empresas destinan a esta tecnología realmente supera la imaginación.
- Me pregunto qué proporción del precio real de un chip representa el costo de la oblea.
Es un rendimiento realmente impresionante. Veo bastante probable que Nvidia intente adquirir Cerebras.
- Cerebras está evaluando una IPO. La posibilidad de adquisición parece baja. Aun así, si la adquirieran, creo que tendría más valor para Facebook o MS.
Para probar la API hay que anotarse en una lista de espera. Si una empresa hace afirmaciones así pero no ofrece el servicio para que se pueda comprar, conviene mantener cierto escepticismo.
Entre las startups de chips de IA, Cerebras probablemente sea de las que van en serio.
- Groq también va en serio. Pero hasta ahora Cerebras no parece haber escalado tan ampliamente como Groq. Habrá que ver.
- El timing encaja justo con la IPO.
¿No hay menciones a su competidor directo, Groq?
- Soy cliente pago de Groq y estoy satisfecho, pero en el terreno de 405B no compite con Cerebras.
  Groq tiene la ventaja de aceptar clientes pagos por debajo de enterprise y ofrecer una variedad amplia de modelos sin ser tan selectivo como Cerebras. Pero en velocidad pura y con modelos de máximo tamaño, a Groq le cuesta entrar en la comparación.
- Sambanova tampoco se menciona con frecuencia [0]. Uno de sus cofundadores es conocido como el “padre del procesador multicore” [1].
  [0]: https://sambanova.ai/
  [1]: https://en.wikipedia.org/wiki/Kunle_Olukotun
Me pregunto cuánto cuesta ofrecer un servicio con esta latencia. Desde el punto de vista del cliente, el costo fijo dependerá de la estrategia de precios, pero al final el costo determinará el alcance de adopción de esta tecnología.
Lo importante es si solo encaja para negocios que realmente necesitan latencia baja, o si está a un nivel que se pueda desplegar de forma general.
- ¿Podría volverse estándar que todos fabriquen chips enormes y usen SRAM?
  ¿Cuántos fabricantes de SRAM hay? ¿O necesariamente tiene que estar completamente integrada dentro del chip?
Si con hardware nuevo se puede lograr esta mejora de rendimiento, me pregunto cuánto más se podría impulsar también el rendimiento de entrenamiento mediante hardware.
- Si no hay un gran cambio en machine learning, no creo que sea gigantesco. Aquí hay dos ejes: mejora de eficiencia y aumento de cómputo.
  Aumentar el cómputo es la forma más clara de subir la velocidad, pero para un nodo de proceso y una precisión de tipo de datos específicos parece que ya estamos bastante cerca de los límites físicos. Es difícil demostrarlo con certeza, pero hay varios indicios. La operación básica de los LLM, la multiplicación de matrices, es muy simple a diferencia de las cargas de CPU, por lo que se minimizan muchas partes como la lógica de flujo de control. La mayor parte de la energía se usa en la multiplicación de matrices en sí, y la multiplicación de matrices efectivamente está limitada por potencia[1]. Cambiar la precisión daría beneficios, pero es difícil; ya se usan precisiones muy bajas como fp8, y fp8 ni siquiera puede representar 17. La investigación reciente también muestra límites.
  La eficiencia de entrenamiento de LLM se mide con un criterio muy exigente llamado “utilización de FLOPS del modelo (MFU)”. Consiste en dividir los FLOPS teóricos que puede ofrecer el hardware entre los FLOPS teóricos necesarios para implementar las operaciones matemáticas. Solo con FSDP es fácil llegar al 30%, y 50–60% tampoco es imposible ni sin precedentes. La ineficiencia aparece sobre todo porque 1) el hardware, por varias razones, no entrega realmente los FLOPS anunciados y 2) hay que sincronizar terabytes de datos entre decenas de miles de máquinas. El límite teórico es 2x, pero en la práctica no queda mucho margen para exprimir.
  Las ganancias futuras se concentrarán, en general, en TPU que reduzcan los márgenes de Nvidia, mejoras de nodos de proceso, reducción de tipos de datos como B100, o chips más grandes para reducir la costosa comunicación entre chips. Con la misma precisión y el mismo nodo de proceso, no parece haber margen para una mejora de 10x.
  [1]: https://www.thonking.ai/p/strangely-matrix-multiplications
- La solución definitiva probablemente sea convertir los LLM en ASIC puros.
  El rendimiento podría subir unas 10 veces, pero sería una solución muy cara.

Cerebras Inference procesa 969 tokens por segundo en Llama 3.1 405B

Récord de rendimiento de Llama 3.1 405B

Latencia, calendario de disponibilidad y precio

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News