1 puntos por GN⁺ 2024-02-21 | 1 comentarios | Compartir por WhatsApp

1 comentarios

 
GN⁺ 2024-02-21
Comentarios de Hacker News
  • Resumen del primer comentario:

      • La demostración técnica es muy impresionante y está muy bien que sea una demo abierta real, que cualquiera puede probar sin necesidad de registrarse.
      • Es surrealista ver la generación de tokens a una velocidad mucho más rápida de lo que solíamos ver.
      • Comentó que es sorprendente que no haya sido adquirida por gigantes como Microsoft, Apple o Google.
  • Resumen del segundo comentario:

      • El mayor problema de las LPUs de Groq es que no tienen HBM y solo incorporan una cantidad muy pequeña de SRAM ultrarrápida (230 MiB).
      • Se necesitan 256 LPUs (equivalente a 4 racks de servidores) para servir un único modelo.
      • Es útil cuando hay muchos clientes para un solo modelo, pero se vuelve difícil de usar cuando se necesitan varios modelos y ajuste fino.
  • Resumen del tercer comentario:

      • La demo es impresionante, pero sin benchmarks hay que ser escépticos.
      • Existen formas de acelerar un modelo sacrificando calidad, como la cuantización del modelo.
      • Esperamos que el avance en tokens por segundo de LLM progrese como alguna vez lo hizo el de instrucciones por segundo de CPU, hace décadas.
  • Resumen del cuarto comentario:

      • Una persona de Groq dijo que cualquier pregunta es bienvenida.
      • Mencionó que parte del pipeline de compilación de Groq está escrita en Haskell.
  • Resumen del quinto comentario:

      • La demo es impresionante, pero los requisitos de hardware y el costo hacen que solo las grandes compañías puedan acceder.
      • Pregunta cuándo será más barato también para gente que usa esto por hobby.
      • También dijo que la demo de CNN Vapi fue impresionante, pero otros servicios permiten conversaciones más naturales al tener menor latencia de audio.
      • Compartió su opinión sobre el umbral de tokens por segundo para habilitar interacción en tiempo real, y que una velocidad mayor puede ser útil para la comunicación entre IA.
  • Resumen del sexto comentario:

      • Preguntó por qué esto es tan impresionante y por qué no se puede aumentar la velocidad de respuesta usando más potencia de cómputo.
      • Citó un gráfico de NVIDIA que muestra que el H100 ejecuta un modelo de 70B por encima de 500 tokens por segundo.
  • Resumen del séptimo comentario:

      • Señaló que la página no funciona si no se puede acceder a una fuente tipográfica específica, y que repite los intentos.
      • Encontró esto porque los navegadores bloquean este tipo de rastreadores de forma predeterminada.
  • Resumen del octavo comentario:

      • Preguntó si esto está relacionado con el modelo Grok de x.ai.
      • Dijo que, tras usarlo, quedó muy impresionado con la velocidad.
  • Resumen del noveno comentario:

      • Quedó maravillado con Groq y con Mixtral.
      • Compartió su experiencia con una demo para generar un archivo YAML de GitLab CI con un prompt específico.
  • Resumen del décimo comentario:

      • El rendimiento de la API de Groq también está cerca de este nivel.
      • Compartió que, en benchmarks con tiempo, logró sostener más de 400 tokens por segundo de forma sostenida.