- Taalas es una startup que grabó directamente el modelo Llama 3.1 8B en un chip ASIC y logró una velocidad de inferencia de 17,000 tokens por segundo
- Afirma ser 10 veces más barato, consumir 10 veces menos energía y ofrecer una inferencia 10 veces más rápida que los sistemas basados en GPU
- Con una arquitectura que graba directamente los pesos del modelo en transistores de silicio, elimina el cuello de botella de memoria de las GPU
- Sin DRAM/HBM externa, procesa la caché KV y los adaptadores LoRA usando solo SRAM dentro del chip
- Para fabricar chips por modelo, personaliza solo las dos capas superiores y así completó un chip para Llama 3.1 en 2 meses
Resumen del chip de Taalas
- Taalas es una empresa fundada hace 2.5 años, y este chip es su primer producto
- El chip es un ASIC de función fija que solo puede almacenar un modelo y no puede reescribirse
- Tiene una estructura dedicada a un solo modelo, como un CD-ROM o un cartucho de videojuegos
La ineficiencia de la inferencia de LLM basada en GPU
- Un LLM está compuesto por varias capas (layers); por ejemplo, Llama 3.1 8B tiene 32 capas
- La GPU repite el proceso de cargar la matriz de pesos de cada capa desde la VRAM, hacer el cálculo y volver a guardarla
- Este proceso debe repetirse 32 veces por cada token generado
- Este ida y vuelta de memoria provoca latencia y consumo de energía, y se conoce como cuello de botella de ancho de banda de memoria o cuello de botella de Von Neumann
El enfoque ‘cableado’ de Taalas
- Taalas graba secuencialmente las 32 capas de Llama 3.1 sobre el silicio
- Los pesos del modelo se implementan como transistores físicos
- Cuando entra un vector de entrada, pasa por los transistores de cada capa y se procesa de forma continua como señal eléctrica
- En vez de guardar resultados intermedios en la VRAM, se envían directamente a la siguiente capa a través del cableado (pipeline registers)
- La empresa afirma haber desarrollado una estructura de ‘magic multiplier’ que realiza almacenamiento de datos de 4 bits y operaciones de multiplicación con un solo transistor
Estructura de memoria
- No usa DRAM/HBM externa; en su lugar, integra una pequeña cantidad de SRAM dentro del chip
- Esto se debe a que es difícil fabricar juntos DRAM y compuertas lógicas
- Esta SRAM on-chip se usa para almacenar la caché KV (memoria temporal durante la conversación) y los adaptadores LoRA
Cómo fabrica chips para cada modelo
- En general, fabricar un chip nuevo para cada modelo tiene un costo alto
- Taalas diseña una estructura base común del chip y modifica solo las dos capas superiores (máscaras) para ajustarlo a un modelo específico
- Es un método mucho más rápido que fabricar un chip completamente nuevo
- El desarrollo del chip para Llama 3.1 8B tomó aproximadamente 2 meses
- Según los estándares de la industria de IA es lento, pero para la velocidad de desarrollo de chips personalizados es extremadamente rápido
Expectativas a futuro
- Desde la perspectiva de los usuarios que ejecutan modelos locales sin GPU, se espera la producción masiva de este tipo de hardware
5 comentarios
Opiniones de Hacker News
8B coeficientes (coefficients) están empaquetados en 53B transistores. Se usan unos 6.5 transistores por coeficiente
Parece que usan cuantización por bloques (block quantization). Por ejemplo, si es un bloque de 4 coeficientes de 3 bits, solo se necesitan 330 bloques distintos
La matriz de Llama 3.1 es de 4096x4096, o sea, está compuesta por 16 millones de coeficientes, y parecería posible comprimirla en 330 bloques
Asumiendo un presupuesto de unos 250 mil transistores por bloque, da unos 5 transistores por coeficiente. Parece totalmente viable incluso a nivel FP4
model.toVHDL()Me sorprende más que a la gente le sorprenda que esto sea posible
Al final, la razón por la que aparecieron las GPU también fue mover operaciones de software a hardware. Como los LLM tienen la misma estructura matemática, me parece una evolución natural en esa dirección
Más que el form factor, la verdadera innovación es la latencia (latency)
La inferencia en la nube tiene solo de sobrecarga de red entre 50 y 200 ms, mientras que un ASIC dedicado conectado por PCIe puede emitir el primer token en microsegundos
Para generación de video en tiempo real o agentes que requieren respuestas por debajo de 100 ms, esto es decisivo. Puede costar más que una GPU, pero habilita nuevas aplicaciones en tiempo real
Me parece interesante un futuro donde modelos como Gemma 5 Mini se ejecuten directamente en hardware local
Podrían aparecer “núcleos de IA” para modelos específicos, como los codificadores H.264 o AV1
Gracias a plataformas de Structured ASIC, podría incluso bajar el costo y reabrirse la era de los ASIC estructurados
Esto me hace imaginar un chip que contenga un solo modelo, como un CD-ROM o cartucho de videojuegos. Algo como cambiar de modelo insertando una ranura en la computadora
Si se pudieran imprimir ASIC de forma barata, cambiaría por completo la manera de usar modelos
Los modelos se venderían como dispositivos USB, y para un asistente personal bastaría con un modelo denso de menos de 20 mil millones
Se siente como una repetición de la tarjeta gráfica. Ahora que hay más modelos open-weight, se abriría un mercado grande incluso con costos bajos de compra y operación
Me pregunto cómo funcionaría esto con arquitecturas MoE
En un LLM denso conviene tener todos los pesos cerca, pero en MoE el foco está en el acceso a memoria, así que aparece un desbalance entre MAC y memoria. Al final, es muy posible que se vuelva al enfoque de chiplets
Algún día parece que las tarjetas de expansión PCIe dedicadas a IA se volverán algo común
Como las viejas tarjetas gráficas o de sonido, llegaría una nueva época donde cambias la tarjeta cada vez que sale un nuevo modelo para actualizar la “inteligencia” de tu PC
La computación siempre ha repetido el ciclo de local vs servidor, pero la demanda on-premise nunca va a desaparecer
Al final, probablemente aparezcan motherboards con ranuras para chips de IA, o periféricos de IA que se conecten a puertos de alta velocidad
Me pregunto si fabricantes como Apple podrán integrar directamente este tipo de chip en los próximos 3 años. Espero rendimiento local ultrarrápido al nivel de los modelos actuales
Me hace pensar en la diferencia entre hacer cálculo en digital y hacerlo en analógico.
Más que un modelo LLM, estaría bien usar esto para crear un modelo de embeddings de texto.
Así es, una vez que lo haces, lo sigues usando.
Si la velocidad del diseño y desarrollo de nuevos chips se acelera gracias a la IA, quizá este sí podría ser el verdadero futuro. También me recuerda a hace unos 25 años, cuando el rendimiento del hardware subía en medio de una competencia feroz.