La forma de Taalas de ‘imprimir’ un LLM sobre un chip

(anuragk.com)

23 puntos por GN⁺ 2026-02-23 | 5 comentarios | Compartir por WhatsApp

Taalas es una startup que grabó directamente el modelo Llama 3.1 8B en un chip ASIC y logró una velocidad de inferencia de 17,000 tokens por segundo
Afirma ser 10 veces más barato, consumir 10 veces menos energía y ofrecer una inferencia 10 veces más rápida que los sistemas basados en GPU
Con una arquitectura que graba directamente los pesos del modelo en transistores de silicio, elimina el cuello de botella de memoria de las GPU
Sin DRAM/HBM externa, procesa la caché KV y los adaptadores LoRA usando solo SRAM dentro del chip
Para fabricar chips por modelo, personaliza solo las dos capas superiores y así completó un chip para Llama 3.1 en 2 meses

Resumen del chip de Taalas

Taalas es una empresa fundada hace 2.5 años, y este chip es su primer producto
El chip es un ASIC de función fija que solo puede almacenar un modelo y no puede reescribirse
- Tiene una estructura dedicada a un solo modelo, como un CD-ROM o un cartucho de videojuegos

La ineficiencia de la inferencia de LLM basada en GPU

Un LLM está compuesto por varias capas (layers); por ejemplo, Llama 3.1 8B tiene 32 capas
La GPU repite el proceso de cargar la matriz de pesos de cada capa desde la VRAM, hacer el cálculo y volver a guardarla
- Este proceso debe repetirse 32 veces por cada token generado
Este ida y vuelta de memoria provoca latencia y consumo de energía, y se conoce como cuello de botella de ancho de banda de memoria o cuello de botella de Von Neumann

El enfoque ‘cableado’ de Taalas

Taalas graba secuencialmente las 32 capas de Llama 3.1 sobre el silicio
- Los pesos del modelo se implementan como transistores físicos
Cuando entra un vector de entrada, pasa por los transistores de cada capa y se procesa de forma continua como señal eléctrica
- En vez de guardar resultados intermedios en la VRAM, se envían directamente a la siguiente capa a través del cableado (pipeline registers)
La empresa afirma haber desarrollado una estructura de ‘magic multiplier’ que realiza almacenamiento de datos de 4 bits y operaciones de multiplicación con un solo transistor

Estructura de memoria

No usa DRAM/HBM externa; en su lugar, integra una pequeña cantidad de SRAM dentro del chip
- Esto se debe a que es difícil fabricar juntos DRAM y compuertas lógicas
Esta SRAM on-chip se usa para almacenar la caché KV (memoria temporal durante la conversación) y los adaptadores LoRA

Cómo fabrica chips para cada modelo

En general, fabricar un chip nuevo para cada modelo tiene un costo alto
Taalas diseña una estructura base común del chip y modifica solo las dos capas superiores (máscaras) para ajustarlo a un modelo específico
- Es un método mucho más rápido que fabricar un chip completamente nuevo
El desarrollo del chip para Llama 3.1 8B tomó aproximadamente 2 meses
- Según los estándares de la industria de IA es lento, pero para la velocidad de desarrollo de chips personalizados es extremadamente rápido

Expectativas a futuro

Desde la perspectiva de los usuarios que ejecutan modelos locales sin GPU, se espera la producción masiva de este tipo de hardware

5 comentarios

GN⁺ 2026-02-23

Opiniones de Hacker News

8B coeficientes (coefficients) están empaquetados en 53B transistores. Se usan unos 6.5 transistores por coeficiente
Parece que usan cuantización por bloques (block quantization). Por ejemplo, si es un bloque de 4 coeficientes de 3 bits, solo se necesitan 330 bloques distintos
La matriz de Llama 3.1 es de 4096x4096, o sea, está compuesta por 16 millones de coeficientes, y parecería posible comprimirla en 330 bloques
Asumiendo un presupuesto de unos 250 mil transistores por bloque, da unos 5 transistores por coeficiente. Parece totalmente viable incluso a nivel FP4
- Espero que PyTorch llegue a tener una función como model.toVHDL()
Me sorprende más que a la gente le sorprenda que esto sea posible
Al final, la razón por la que aparecieron las GPU también fue mover operaciones de software a hardware. Como los LLM tienen la misma estructura matemática, me parece una evolución natural en esa dirección
- Probablemente a la gente le sorprende por el momento del ROI. La clave es cuándo va a ser rentable hacer tape-out de chips dedicados a un modelo. La arquitectura MoE probablemente va a plantear nuevos retos en ese proceso
- Yo lo veo no como CPU vs GPU, sino como CPU/GPU vs ASIC. Los ASIC tienen ventaja en velocidad, consumo y costo, pero son difíciles de diseñar y no se pueden reprogramar. Para funciones sensibles al rendimiento, como los LLM, un ASIC encaja bien
- El enfoque de grabar directamente los pesos en las compuertas sí es realmente nuevo. Le queda bien la expresión “Weights to gates”
- Pero el problema es la falta de flexibilidad. Si cambia la demanda del datacenter o aparece un modelo nuevo, es difícil adaptarse. Aun así, en áreas como drones y defensa, donde la eficiencia energética y la velocidad importan mucho, sí parece realista
- Seguro que Nvidia también está experimentando con algo así. Tal vez todavía sea pronto comercialmente, pero la tendencia hacia hardware de IA centrado en eficiencia es clara
Más que el form factor, la verdadera innovación es la latencia (latency)
La inferencia en la nube tiene solo de sobrecarga de red entre 50 y 200 ms, mientras que un ASIC dedicado conectado por PCIe puede emitir el primer token en microsegundos
Para generación de video en tiempo real o agentes que requieren respuestas por debajo de 100 ms, esto es decisivo. Puede costar más que una GPU, pero habilita nuevas aplicaciones en tiempo real
- No solo importa la latencia, también la confiabilidad del ancho de banda y el control. La computación centralizada y la local siempre han estado en tensión. Las empresas quieren control y los usuarios autonomía. Al final, el mercado siempre va a mantener la demanda de “quiero controlar completamente mi propia computadora”
- Me da curiosidad dónde se sirven realmente los servicios de IA. Por ejemplo, cuando usas Claude desde Londres, es difícil saber adónde va la solicitud. Sería ideal tener una red edge para LLM, y quizá los ASIC podrían hacerlo posible
Me parece interesante un futuro donde modelos como Gemma 5 Mini se ejecuten directamente en hardware local
Podrían aparecer “núcleos de IA” para modelos específicos, como los codificadores H.264 o AV1
Gracias a plataformas de Structured ASIC, podría incluso bajar el costo y reabrirse la era de los ASIC estructurados
- Me parece que hay dos razones por las que las grandes empresas no muestran tanto interés. Primero, el avance de la IA es tan rápido que para cuando un chip entre en producción masiva, ya podría estar obsoleto. Segundo, el modelo de suscripción en la nube y la estructura de negocio centrada en recopilar datos no encajan bien con chips offline
- Creo que Apple debió empezar con esto ayer mismo. El futuro que de verdad quiero es IA totalmente local corriendo en mi teléfono o mi MacBook. La IA basada en la nube se siente como un residuo de la era de AOL
- ASIC programables como los de Cerebras o Groq ya ofrecen varias veces la velocidad de una GPU, y aun así la reacción del mercado ha sido tibia
Esto me hace imaginar un chip que contenga un solo modelo, como un CD-ROM o cartucho de videojuegos. Algo como cambiar de modelo insertando una ranura en la computadora
- Esa ranura en realidad probablemente sería USB-C. Me imagino conectar un ASIC de inferencia con forma de power bank
- Quiero un dispositivo local de modelos debajo del escritorio, como las eGPU de antes. Totalmente offline, con privacidad completamente garantizada
- Este tipo de hardware fomentaría los modelos open-weight y reforzaría la privacidad. Incluso podría haber MoE en hardware, con robots cambiando cartuchos de modelo según la tarea
- Los cartuchos dedicados a un modelo probablemente tendrían mucha mejor eficiencia de rendimiento/energía. Aun así, no está claro si cuadraría económicamente para consumo masivo
- El consumo eléctrico es la variable. Para uso doméstico, 170 tokens por segundo a 2.5 W sería genial. Algún día este tipo de avances podría llevar hasta un cerebro positrónico(https://en.wikipedia.org/wiki/Positronic_brain)
Si se pudieran imprimir ASIC de forma barata, cambiaría por completo la manera de usar modelos
Los modelos se venderían como dispositivos USB, y para un asistente personal bastaría con un modelo denso de menos de 20 mil millones
Se siente como una repetición de la tarjeta gráfica. Ahora que hay más modelos open-weight, se abriría un mercado grande incluso con costos bajos de compra y operación
Me pregunto cómo funcionaría esto con arquitecturas MoE
En un LLM denso conviene tener todos los pesos cerca, pero en MoE el foco está en el acceso a memoria, así que aparece un desbalance entre MAC y memoria. Al final, es muy posible que se vuelva al enfoque de chiplets
- El TPUv4 de Google usa un Optical Circuit Switch para crear una topología de toro 3D y reconfigurar dinámicamente las conexiones según el patrón de comunicación de MoE. Conecta 4,096 chips en un solo pod y maneja accesos discontinuos a memoria con SparseCore. Es una historia a escala datacenter, pero resulta interesante como ejemplo de escalabilidad
- Si se grabara cada modelo Expert en silicio, la velocidad sería brutal. Al final, la mayor limitación sería el costo de imprimir ASIC
Algún día parece que las tarjetas de expansión PCIe dedicadas a IA se volverán algo común
Como las viejas tarjetas gráficas o de sonido, llegaría una nueva época donde cambias la tarjeta cada vez que sale un nuevo modelo para actualizar la “inteligencia” de tu PC
- Creo que esta dirección es una evolución casi inevitable. Primero la van a exigir gobiernos y grandes empresas, y al final se expandirá al mercado de consumo.
  La computación siempre ha repetido el ciclo de local vs servidor, pero la demanda on-premise nunca va a desaparecer
Al final, probablemente aparezcan motherboards con ranuras para chips de IA, o periféricos de IA que se conecten a puertos de alta velocidad
Me pregunto si fabricantes como Apple podrán integrar directamente este tipo de chip en los próximos 3 años. Espero rendimiento local ultrarrápido al nivel de los modelos actuales
- ¿Se podrá actualizar el modelo con diffs en memoria modular? Me pregunto cuánto sería el impacto en rendimiento
- Pero también puede que no tenga mucho sentido correr un modelo obsoleto durante 3 años. El ritmo de avance es demasiado rápido

dolsangodkimchi 2026-03-04

Me hace pensar en la diferencia entre hacer cálculo en digital y hacerlo en analógico.

chcv0313 2026-03-04

Más que un modelo LLM, estaría bien usar esto para crear un modelo de embeddings de texto.

bungker 2026-03-04

Así es, una vez que lo haces, lo sigues usando.

parkindani 2026-02-23

Si la velocidad del diseño y desarrollo de nuevos chips se acelera gracias a la IA, quizá este sí podría ser el verdadero futuro. También me recuerda a hace unos 25 años, cuando el rendimiento del hardware subía en medio de una competencia feroz.