Groq impulsa Mixtral 8x7B-32k a 500 T/s

(groq.com)

1 puntos por GN⁺ 2024-02-21 | 1 comentarios | Compartir por WhatsApp

En un contexto donde la velocidad de respuesta y el costo de inferencia se vuelven cuellos de botella en los servicios de IA, Groq pone al frente una infraestructura de inferencia rápida y barata
Su diferenciador es que no usa un enfoque centrado en GPU, sino un stack basado en LPU desarrollado exclusivamente para inferencia desde 2016
GroqCloud opera el stack LPU en centros de datos de todo el mundo para ofrecer baja latencia, y afirma que lo usan 3 millones de desarrolladores y equipos
Los desarrolladores pueden integrarlo con relativa facilidad en clientes compatibles con OpenAI cambiando solo base_url y GROQ_API_KEY
Fintool reportó que, tras adoptar GroqCloud, la velocidad del chat mejoró 7.41 veces y el costo se redujo 89%; además, McLaren Formula 1 Team eligió a Groq como socio de inferencia

Plataforma de inferencia rápida y barata

Groq considera que la inferencia (inference) es el combustible central de la IA, y presenta una plataforma de inferencia rápida y barata que funciona de forma estable incluso con cargas reales
El mensaje principal de su sitio se acerca a “inferencia rápida y barata que no se tambalea ni en situaciones reales”
Fue fundada en 2016 y se presenta como una empresa creada con el objetivo de enfocarse únicamente en la inferencia

Un stack dedicado a inferencia construido con LPU

A diferencia de otros proveedores que dependen de GPU, Groq pone su propio silicio como fortaleza principal
Afirma que fue pionera en la LPU en 2016 y la describe como el primer chip creado específicamente para inferencia
Las decisiones de diseño de la LPU están enfocadas en mantener respuestas de modelos inteligentes rápidas y baratas
Con el mensaje “lo que se despliega de verdad son las cargas de trabajo, no los benchmarks”, enfatiza los entornos de despliegue reales

Centros de datos globales y GroqCloud

El stack basado en LPU se ejecuta en centros de datos de todo el mundo y está enfocado en ofrecer respuestas de baja latencia
Partiendo de la premisa de que la inferencia funciona mejor cuando está local, destaca una arquitectura que entrega respuestas del modelo desde ubicaciones más cercanas al usuario
GroqCloud es el servicio en la nube con el que los desarrolladores pueden usar inferencia rápida y barata
Groq afirma que 3 millones de desarrolladores y equipos usan Groq

Integración para desarrolladores compatible con OpenAI

Groq destaca la compatibilidad con OpenAI e indica que se puede migrar en “dos líneas”
El ejemplo en Python configura los siguientes valores en el cliente openai.OpenAI
- base_url="https://api.groq.com/openai/v1";
- api_key=os.environ.get("GROQ_API_KEY")
Los desarrolladores pueden comenzar desde la consola de Groq o emitir una API key gratuita para usarlo

Casos de clientes y alianzas

McLaren Formula 1 Team se presenta como un caso de socio que eligió a Groq para inferencia global
McLaren F1 Team eligió a Groq para toma de decisiones, análisis, desarrollo e insights en tiempo real
Kevin Scott, CTO de PGA of America, dijo que usan Groq para tareas donde el rendimiento es más importante
Nicolas Bustamante, CEO de Fintool, experimentó los siguientes cambios tras adoptar GroqCloud
- aumento de 7.41 veces en la velocidad del chat
- reducción de 89% en el costo
- aumento de 3 veces en el consumo de tokens
Abhigyan Arya, CTO de Opennote, señaló que Groq generó ahorro de costos y menor carga operativa, y que ayudó a mantener razonable el precio del plan premium para estudiantes

Noticias publicadas junto con esto

Groq Raises $750 Million as Inference Demand Surges: entrada del 17 de septiembre de 2025
Day Zero Support for OpenAI Open Models: entrada del 5 de agosto de 2025
From Speed to Scale: How Groq Is Optimized for MoE & Other Large Models: entrada del 27 de mayo de 2025

1 comentarios

GN⁺ 2024-02-21

Opiniones en Hacker News

Esto es una de las demos tecnológicas más impresionantes que he visto en mi vida, y me gusta que sea una demo pública real que cualquiera puede probar de inmediato sin registrarse.
Ver cómo los tokens salen a una velocidad absurda se siente casi irreal, y sorprende todavía más porque uno está acostumbrado a velocidades que ni llegan a 1/5 de eso. Me sorprende que todavía no los hayan adquirido con una gran prima empresas como Microsoft, Apple o Google.
- Si lo entendí bien, cada chip tiene 200 MB de RAM, así que para correr un solo LLM se necesitan varios racks, y eso no suena como un avance.
  Lo que se necesita es una sola placa PCIe con decenas o cientos de GB de RAM y un procesador que la maneje bien.
- Perplexity Labs también tiene una demo pública de Mixtral 8x7b, pero no es tan rápida.
  https://labs.perplexity.ai/
- De verdad no entiendo por qué es tan impresionante, y me da curiosidad.
  Lo clave es cuántos TFLOPS/$ y TFLOPS/W ofrece, y cómo se compara con Nvidia, AMD y TPU. Buscando por encima, parece que Groq viene haciendo afirmaciones similares desde 2020, pero la gente sigue pagando una gran prima por Nvidia y no parece que Groq esté sacudiendo mucho ese mercado. Si corres un modelo mucho más pequeño que ChatGPT en hardware similar o más potente, puede ser más rápido, pero eso no significa que sea un punto de inflexión para la mayoría de los modelos o casos de uso en los que la latencia no es la métrica principal.
- ¿Por qué tendrían que vender? Parece mucho más divertido ganarles en su propio juego.
El problema central de las LPU de Groq es que no tienen HBM en absoluto, solo una SRAM ultrarrápida de 230 MiB muy pequeña.
Es cierto que es 20 veces más rápida que HBM3, pero por eso se necesitan alrededor de 256 LPU, es decir, unos 4 racks de servidores, para servir un solo modelo. En cambio, incluso una sola H200 puede servir estos modelos de forma bastante razonable. Puede encajar bien si se trata de un único modelo con muchos clientes, pero en cuanto se necesitan varios modelos y mucho fine-tuning o LoRA de alto rango, se vuelve difícil de usar. Tampoco encaja con despliegues on-premise, porque su ventaja clave está en agrupar a muchos usuarios en el mismo modelo.
https://wow.groq.com/groqcard-accelerator/
https://twitter.com/tomjaguarpaw/status/1759615563586744334
- Desde la perspectiva de un ingeniero de Groq, no veo bien por qué sería un problema poder escalar el cómputo más allá de una sola tarjeta o un solo nodo.
  Me gusta la analogía de una fábrica de autos: puedes construir un auto con uno o dos taladros, pero una fábrica moderna automatizada tiene cientos de taladros. Con un solo taladro quizá puedas fabricar varios tipos de autos, pero la línea de ensamblaje de una fábrica solo puede producir autos con una configuración específica. Eso no significa que la fábrica sea ineficiente. Decir que la H200 funciona bastante bien también puede ser razonable para usos de interacción humana sincrónica, aunque es debatible. Me gustaría ver en Nvidia un ejemplo de un modelo de 30B+ parámetros que haga RAG durante una conversación y entregue además una respuesta de voz en menos de 1 segundo.
- Groq dice en el artículo que usó 576 chips para este resultado.
  También hay que considerar que cada usuario necesita una caché KV separada, lo que puede sumar varios GB más por usuario. Como observador independiente, mi juicio profesional es que el costo de ventas para lograr estas cifras de rendimiento probablemente supere varios millones de dólares, y amortizarlo con el uso esperado para igualar los precios teóricos publicados parece poco realista. Desde la perspectiva del rendimiento real por dólar, no parece muy viable, aunque si ignoras el costo, sí es una demo muy impresionante que muestra un rendimiento demencial.
  https://www.nextplatform.com/2023/11/27/groq-says-it-can-dep...
- Si el objetivo es baja latencia, hay que tener mucho cuidado con HBM. El problema no es solo la latencia en sí, sino también la no determinación.
  Una gran ventaja de la arquitectura LPU es que permite construir sistemas de cientos de chips con una interconexión rápida y aun así conocer el timing exacto de todo el sistema hasta el nivel de ppm. En cuanto empiezas a introducir componentes no deterministas, las garantías de latencia desaparecen muy rápido.
- Los dispositivos de Groq encajan muy bien con la inferencia en lotes pequeños gracias a la SRAM.
  Aun así, no estoy seguro de que tengan una ventaja en tokens/segundo/dólar, especialmente para usuarios de lotes medianos y grandes que pueden comprar mucho silicio. Por arquitectura, Groq probablemente no se acelere al pasar de un batch size de 1, mientras que las tarjetas Nvidia parecen mejorar significativamente el throughput cuando el batch size sube al orden de cientos.
- Podría ser posible cargar un modelo base y varias LoRA usando casi nada más de RAM que la necesaria para el modelo base.
  Podría hacerse fine-tuning cambiando solo alrededor del 0,1% de los pesos, y en cada cálculo calcular no la diferencia de pesos, sino la diferencia en las activaciones de la capa de salida.
A primera vista es muy impresionante. Pero sin benchmarks conviene verlo con cierto escepticismo
porque hay muchos atajos, como una cuantización fuerte, que sacrifican calidad para aumentar la velocidad. Si no es eso, me gustaría ver que el avance de tokens/segundo en LLM continúe como lo hicieron hace décadas las instrucciones/segundo en CPU
- Estoy de acuerdo con la actitud científica de abordar esto con escepticismo por defecto
  La app de chat y la API están abiertas para que cualquiera pueda experimentar y comparar la calidad de salida con la de otros proveedores
- Como dijo tome antes, no usamos cuantización, y todos los valores activos son FP16
  También hay benchmarks independientes: https://artificialanalysis.ai/models/llama-2-chat-70b
- En la demo anterior de Llama 70B afirmaron que lo ejecutaban sin cuantización
  https://twitter.com/lifebypixels/status/1757619926360096852
  Aunque en este comentario dicen que “algunos datos se almacenan en FP8 al guardarse”, y no sé exactamente qué significa eso: https://news.ycombinator.com/item?id=39432025
- Durante el proceso de benchmarking de Groq pregunté si usaban cuantización, y me confirmaron que están ejecutando el modelo en FP-16 completo
  Es un buen punto para verificar y una parte importante. Enlace al benchmark: https://artificialanalysis.ai/
  La pregunta fue sobre la API, no sobre la demo de chat
- Tal vez esté llevando demasiado lejos la analogía, pero ¿los LLM ya habrán entrado en la era del transistor?
  Al ver monstruos de 70 mil millones de parámetros, todavía parece que estuviéramos construyendo ENIAC con tubos de vacío. En otras palabras, me pregunto si ya estamos listos para mejorar de forma constante los tokens/segundo de los LLM año tras año, o si antes todavía hace falta uno o dos grandes avances
Trabajo en Groq. Pueden preguntarme lo que sea
Si ven mi historial de publicaciones en HN, hablo mucho de Haskell, y sí. Parte del pipeline de compilación de Groq está escrito en Haskell
- Quizá sea un bug de la interfaz web, pero después de ingresar un prompt con el modelo Mixtral y recibir una respuesta, cambié el desplegable a Llama e ingresé el mismo prompt, y obtuve exactamente la misma respuesta
  Podría ser caché, que el modelo consultado en realidad no haya cambiado, u otra cosa
- Haskell parece bastante inusual en el ámbito de machine learning
  Me pregunto si esta elección tiene alguna ventaja especial y si la recomendarían a otros equipos. También quisiera saber qué partes del proyecto usan Haskell y cuáles no
- Según entiendo, están aumentando la velocidad de generación de tokens con hardware especializado, y la generación de tokens está muy ligada a la latencia de la velocidad de cómputo
  Pero la generación de tokens normalmente solo requiere multiplicación de matrices unidimensionales. Si uno ingresa un prompt de unos 100 tokens, el servicio se vuelve mucho más lento, probablemente porque tiene que multiplicar matrices bidimensionales. Me pregunto qué están haciendo para aumentar la velocidad de cómputo del procesamiento de prompts
- Parecen ser una de las pocas empresas enfocadas en inferencia de baja latencia, y no solo en throughput y, por ende, costo por inferencia
  Me pregunto cuál consideran que es su mercado principal
- Gracias por el AMA. Me pregunto cuántas GroqCard usan para correr la demo, y si usan una versión nueva con más SRAM que los 230 MB que se ven en línea
  Creo que ese número influye en el aprovechamiento del procesamiento por lotes y en la reducción de costos. Además, si se pudiera integrar un pipeline de TTS en el stack, permitiría llamadas con latencia realmente baja. Asumo que están usando este producto: https://www.bittware.com/products/groq/
Demo impresionante
Pero por los requisitos de hardware y el costo, parece difícil de acceder salvo para grandes empresas. Me pregunto cuándo creen que podría estar disponible en un rango de precio que también pueda pagar un desarrollador aficionado. La demo de CNN Vapi también fue impresionante, pero https://smarterchild.chat/, compartido hace unas semanas, también permitía una conversación natural con latencia de voz muy baja. Según esa discusión, parece haber sido creado por https://www.sindarin.tech/, y me pregunto si usan Groq LPU u otra cosa. Creo que al llegar a unos 50 t/s ya es posible la interacción en tiempo real. Más allá de eso, sirve para acelerar la generación masiva de datos, pero como supera por mucho la velocidad que un humano puede procesar, la ganancia percibida disminuye. Podría ser útil para comunicación entre IA, transferencia de conocimiento y contexto, etc. Entonces pienso que un producto LPU enfocado solo en la interacción IA-humano tal vez podría ser posible con mucho menor rendimiento y mucho menor costo
https://news.ycombinator.com/item?id=39180237
- El acceso a la API de tokens como servicio garantiza un costo por token menor que cualquier otro proveedor
  Ver https://wow.groq.com. En cuanto a la venta de hardware, estamos enfocados en vender sistemas completos, y en la práctica solo es adecuado para empresas o instituciones de investigación
- Para interactuar en tiempo real con sistemas de IA, es imprescindible una velocidad mucho mayor que 50 t/s
  La mayor parte de la salida de los LLM se usará para monólogo interno, planificación, RAG, resúmenes, etc., y solo la salida final se entregará al usuario. Imaginen a un GPT-5 increíblemente rápido que, en unos pocos parpadeos, planifica varias veces su respuesta, busca en la web, escribe una reseña, debate consigo mismo, refina lo encontrado, critica la respuesta y la reescribe
- Dado que el equipo de Sindarin parece ser de unas 3 personas, parece más bien una combinación muy ingeniosa de tecnologías existentes
  Hay APIs de voz que ofrecen transcripción en tiempo real palabra por palabra, y Google también tiene algo así. Es muy probable que el secreto principal sea un pipeline muy bien diseñado entre reconocimiento de voz → LLM → TTS. No intento quitarles mérito; al contrario, me interesó porque quiero saber cómo se podría reproducir ese resultado
No siempre es rápido; si haces una pregunta compleja o incluyes un prompt previo pidiendo que responda con otro tono, todavía tarda en cargar.
Es interesante, pero al final parece bastante probable que termine siendo un fracaso.
Si la página no puede acceder a ciertas fuentes, falla y sigue reintentando la solicitud.
Lo descubrí porque el navegador bloquea por defecto estos rastreadores de facto.
https://fonts.gstatic.com/s/notosansarabic/[...]
https://fonts.gstatic.com/s/notosanshebrew/[...]
https://fonts.gstatic.com/s/notosanssc/[...]
- Parece una forma de mostrarle a Google qué tan popular e interesante eres como objetivo de adquisición, sin instalar directamente rastreadores de Google en el sitio web.
- Aunque intentes usar sustitución de fuentes con un plugin de privacidad, ocurre el mismo problema.
  Es bastante raro que exista esta dependencia.
Pregunto porque soy un poco ingenuo en este campo: ¿por qué esto es impresionante?
Para hacer que las respuestas sean rápidas, ¿no basta con meterle más cómputo? El hecho de que se formen colas cuando hay carga, ¿no solo muestra el trade-off entre la cantidad de solicitudes que puedes procesar por unidad de tiempo y la cantidad de cómputo que dedicas para responder más rápido? Este gráfico de NVIDIA parece indicar que el H100 corre llama v2 70B a más de 500 tok/s.
https://raw.githubusercontent.com/NVIDIA/TensorRT-LLM/rel/do...
- Aumentar el cómputo puede mejorar el throughput, pero la latencia entre tokens no mejora fácilmente.
  En la generación, el cuello de botella suele ser el tiempo que tarda cada token en pasar por la red. Para acelerar eso, tienes que hacer el cálculo en sí más rápido, y después de agotar las opciones obvias, como usar los aceleradores más rápidos o cachés, se vuelve un problema difícil.
- La inferencia de LLM es, por naturaleza, un problema secuencial.
  Hacer más cosas en paralelo no la vuelve más rápida. No puedes generar el token 101 antes de generar el token 100.
- El throughput de tokens y la latencia son cosas distintas.
  El throughput de tokens es el rendimiento del GPU o del sistema completo, mientras que la latencia es el rendimiento de tokens desde el punto de vista de un usuario individual. Groq ofrece una latencia extremadamente baja, es decir, un throughput de tokens por usuario muy alto, pero todavía no hay cifras del throughput total de tokens de todo el sistema. En cambio, la métrica de Nvidia aquí muestra el throughput de tokens de todo el GPU o sistema. Incluso si en realidad puedes obtener 1.5k t/s en un H100, el throughput de tokens por usuario en términos de latencia podría ser mucho más bajo, como 20 t/s. La métrica realmente importante es el costo por token. Que Groq pueda ejecutarlo con baja latencia no significa que pueda hacerlo barato. Una aproximación útil es dividir el costo del sistema entre el throughput de tokens por segundo de todo el sistema, pero como no tenemos el total de tokens por segundo del sistema de Groq, es difícil hablar de eficiencia; por ahora podrían estar subsidiando el costo del sistema por PR y luego subir los precios.
- Al final, parece depender de cuánto cueste la infraestructura del artículo.
  El H100 cuesta solo unos 3,300 dólares producirlo, pero en promedio se vende por unos 30 mil dólares.
  https://www.hpcwire.com/2023/08/17/nvidia-h100-are-550000-gp...
- Parece que Nvidia está citando el throughput máximo con procesamiento por lotes. Por ejemplo, 50 tok/s para cada uno de 10 prompts distintos al mismo tiempo.
  El LPU de Groq definitivamente supera al H100 en velocidad pura. Pero, fundamentalmente, es un sistema que cuesta 500 veces más y es 10 veces más rápido, y da la impresión de que una empresa que opera blockchain está promocionando agresivamente para inferencia de LLM un chip que originalmente estaba pensado para minería de criptomonedas. También es una coincidencia bastante graciosa que, cada vez que alguien se sorprende y publica este enlace cada semana, haya ingenieros de Groq esperando en los comentarios, listos para responder de todo.
¿Esto no tiene nada que ver con el modelo Grok de x.ai?
Lo probé y la velocidad es muy impresionante.
- No tiene nada que ver con Elon; nosotros, Groq, usamos el nombre primero.
  En el campo de la IA es una elección de nombre natural por su conexión con el espíritu hacker, pero la marca registrada la tenemos nosotros y Elon no.
  https://wow.groq.com/hey-elon-its-time-to-cease-de-grok/
- Si no fuera por este comentario, habría pensado que era algo hecho por Twitter.
- También hay un juguete infantil llamado Grok que usa un LLM para conversar con niños.
Tanto Groq como Mixtral me dejaron con la boca abierta.
Probé el siguiente prompt: genera un archivo yaml de GitLab CI para un proyecto híbrido frontend/backend, donde bajo /frontend hay un frontend Node empaquetado con yarn y compilado con vite para colocarse en /backend/public, y el backend es un servidor Python Flask.
- Aun así cometió un error en código Python simple.
  particles = np.zeros((2, 3)) # position, velocity, and acceleration
  particles[:, 0] = [0.0, 0.0, 0.0] # initial position

Groq impulsa Mixtral 8x7B-32k a 500 T/s

Plataforma de inferencia rápida y barata

Un stack dedicado a inferencia construido con LPU

Centros de datos globales y GroqCloud

Integración para desarrolladores compatible con OpenAI

Casos de clientes y alianzas

Noticias publicadas junto con esto

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News