La demostración técnica es muy impresionante y está muy bien que sea una demo abierta real, que cualquiera puede probar sin necesidad de registrarse.
Es surrealista ver la generación de tokens a una velocidad mucho más rápida de lo que solíamos ver.
Comentó que es sorprendente que no haya sido adquirida por gigantes como Microsoft, Apple o Google.
Resumen del segundo comentario:
El mayor problema de las LPUs de Groq es que no tienen HBM y solo incorporan una cantidad muy pequeña de SRAM ultrarrápida (230 MiB).
Se necesitan 256 LPUs (equivalente a 4 racks de servidores) para servir un único modelo.
Es útil cuando hay muchos clientes para un solo modelo, pero se vuelve difícil de usar cuando se necesitan varios modelos y ajuste fino.
Resumen del tercer comentario:
La demo es impresionante, pero sin benchmarks hay que ser escépticos.
Existen formas de acelerar un modelo sacrificando calidad, como la cuantización del modelo.
Esperamos que el avance en tokens por segundo de LLM progrese como alguna vez lo hizo el de instrucciones por segundo de CPU, hace décadas.
Resumen del cuarto comentario:
Una persona de Groq dijo que cualquier pregunta es bienvenida.
Mencionó que parte del pipeline de compilación de Groq está escrita en Haskell.
Resumen del quinto comentario:
La demo es impresionante, pero los requisitos de hardware y el costo hacen que solo las grandes compañías puedan acceder.
Pregunta cuándo será más barato también para gente que usa esto por hobby.
También dijo que la demo de CNN Vapi fue impresionante, pero otros servicios permiten conversaciones más naturales al tener menor latencia de audio.
Compartió su opinión sobre el umbral de tokens por segundo para habilitar interacción en tiempo real, y que una velocidad mayor puede ser útil para la comunicación entre IA.
Resumen del sexto comentario:
Preguntó por qué esto es tan impresionante y por qué no se puede aumentar la velocidad de respuesta usando más potencia de cómputo.
Citó un gráfico de NVIDIA que muestra que el H100 ejecuta un modelo de 70B por encima de 500 tokens por segundo.
Resumen del séptimo comentario:
Señaló que la página no funciona si no se puede acceder a una fuente tipográfica específica, y que repite los intentos.
Encontró esto porque los navegadores bloquean este tipo de rastreadores de forma predeterminada.
Resumen del octavo comentario:
Preguntó si esto está relacionado con el modelo Grok de x.ai.
Dijo que, tras usarlo, quedó muy impresionado con la velocidad.
Resumen del noveno comentario:
Quedó maravillado con Groq y con Mixtral.
Compartió su experiencia con una demo para generar un archivo YAML de GitLab CI con un prompt específico.
Resumen del décimo comentario:
El rendimiento de la API de Groq también está cerca de este nivel.
Compartió que, en benchmarks con tiempo, logró sostener más de 400 tokens por segundo de forma sostenida.
1 comentarios
Comentarios de Hacker News
Resumen del primer comentario:
Resumen del segundo comentario:
Resumen del tercer comentario:
Resumen del cuarto comentario:
Resumen del quinto comentario:
Resumen del sexto comentario:
Resumen del séptimo comentario:
Resumen del octavo comentario:
Grokde x.ai.Resumen del noveno comentario:
Resumen del décimo comentario: