El camino hacia la universalización de la IA (17K tokens por segundo)

(taalas.com)

5 puntos por GN⁺ 2026-02-21 | 2 comentarios | Compartir por WhatsApp

Taalas desarrolló una plataforma que convierte modelos de IA en chips de silicio personalizados, lo que permite implementar un modelo en hardware en solo dos meses
Su primer producto, el modelo cableado Llama 3.1 8B, procesa 17K tokens por segundo, siendo 10 veces más rápido, 20 veces más barato y con un consumo eléctrico de una décima parte frente a lo existente
Hace posible una inferencia de bajo consumo, bajo costo y alta velocidad, y elimina la complejidad de los sistemas tradicionales basados en GPU con una nueva arquitectura de chip que integra memoria y cómputo
Con este enfoque, Taalas busca acelerar la operación en tiempo real y la masificación de la IA, permitiendo a los desarrolladores experimentar nuevas aplicaciones en entornos de ultra baja latencia y ultra bajo costo

Limitaciones actuales de la IA y lo que se necesita

La IA ya supera a los humanos en áreas específicas, pero la latencia y el costo se señalan como las mayores restricciones para su adopción masiva
- La interacción con modelos de lenguaje es más lenta que la velocidad del pensamiento humano, y las herramientas de asistencia para programación hacen esperar varios minutos por una respuesta
- La IA automatizada de tipo agente requiere respuestas en milisegundos, pero los sistemas actuales no logran cumplir con ello
El despliegue de los modelos más recientes exige infraestructura de nivel supercomputadora, con cientos de kW de energía y complejas estructuras de enfriamiento, empaquetado y memoria
- Esta estructura se expande a centros de datos a escala de ciudad y redes satelitales, provocando una explosión de los costos operativos
Taalas subraya que, al igual que la transición del ENIAC al transistor, la IA también debe evolucionar hacia una estructura eficiente y de bajo costo

La filosofía tecnológica de Taalas

En dos años y medio desde su fundación, Taalas completó una plataforma que convierte modelos de IA en silicio personalizado
- Tras recibir un nuevo modelo, puede llevarlo a hardware en menos de 2 meses
- El resultado, los Hardcore Models, ofrece mejoras de alrededor de 10 veces en velocidad, costo y eficiencia energética frente a enfoques tradicionales basados en software
Presenta tres principios clave
1. Especialización total (Total specialization)
  - Fabricar silicio optimizado para cada modelo de IA permite alcanzar una eficiencia extrema
2. Integración de almacenamiento y cómputo (Merging storage and computation)
  - Elimina el cuello de botella causado por la separación entre DRAM y chips de cómputo, e implementa una estructura integrada en un solo chip con un nivel de densidad comparable al de la DRAM
3. Simplificación radical (Radical simplification)
  - Elimina tecnologías complejas como HBM, apilamiento 3D y enfriamiento líquido para reducir el costo del sistema a un solo dígito

Primer producto: modelo cableado Llama 3.1 8B

Se presenta como la plataforma de inferencia más rápida, barata y de menor consumo energético del mundo
- Al implementar directamente el modelo Llama 3.1 8B en silicio, logra procesar 17K tokens por segundo, con una velocidad 10 veces mayor, un costo de fabricación 20 veces menor y un consumo eléctrico 10 veces más bajo
Asegura practicidad y facilidad de desarrollo al basarse en un modelo de código abierto
- Admite ajuste del tamaño de la ventana de contexto y fine-tuning basado en LoRA
El chip de primera generación usa cuantización mixta de 3 bits y 6 bits, por lo que existe cierta pérdida de calidad frente a una GPU
- El silicio de segunda generación (HC2) adopta un formato estándar de punto flotante de 4 bits para mejorar calidad y eficiencia

Hoja de ruta de modelos futuros

El segundo modelo será un LLM de razonamiento de tamaño intermedio, que se completará en el laboratorio en primavera y luego se integrará al servicio de inferencia
El tercer modelo será un LLM de nivel frontier basado en la plataforma HC2, con mayor densidad y velocidad, y su despliegue está previsto para invierno

Accesibilidad para desarrolladores y estructura del equipo

El modelo Llama, actualmente disponible como beta, se ofrece para experimentar un entorno de ultra baja latencia y ultra bajo costo
- Está disponible mediante la demo de chatjimmy.ai y el servicio de API
Taalas completó su primer producto con un equipo de 24 personas y un costo de 30 millones de dólares, presentado como resultado de objetivos precisos y una ejecución enfocada
El equipo está conformado por un pequeño grupo de expertos que ha colaborado durante más de 20 años y prioriza la calidad, la precisión y el oficio artesanal

Conclusión: la IA en tiempo real y su masificación

La tecnología de Taalas ofrece un salto escalonado en rendimiento, eficiencia energética y costo
Propone una nueva filosofía de arquitectura de sistemas de IA distinta del enfoque centrado en GPU
Al eliminar las barreras de latencia y costo, brinda a los desarrolladores un entorno donde la IA puede usarse en tiempo real
En el futuro se expandirá hacia modelos más potentes, avanzando hacia una accesibilidad universal de la IA

2 comentarios

colus001 2026-02-21

No sé qué tanto significado tenga. Como al mercado le gusta el hype, seguro conseguirán financiamiento, pero como están sacando modelos nuevos a toda velocidad, en dos meses ya se siente como algo lejísimo.

GN⁺ 2026-02-21

Opiniones de Hacker News

Este chip no es de propósito general, sino un diseño especializado en inferencia de alta velocidad y baja latencia
Con 8B dense 3bit quant (Llama 3.1) procesa 15k tokens por segundo, con un die de 880mm² en proceso de 6nm, 53B transistores, consumo de unos 200W, costo de producción 20 veces menor y 10 veces menos energía por token
El equipo fundador viene de AMD y Nvidia, con 25 años de experiencia, y ya aseguró 200 millones de dólares en inversión de VC
Si se calcula en unos 0.2 dólares por mm², serían alrededor de 20 dólares por cada mil millones de parámetros, aunque los dies grandes tienen menor rendimiento de fabricación
Para más detalles, ver la entrevista al fundador
Parece ideal para aplicaciones de ultra baja latencia de menos de 10k tokens, y si sale en primavera es probable que atraiga mucho capital VC
- El cálculo matemático es útil. 16k tokens por segundo es una velocidad asombrosa, y podría verse como una nueva categoría de producto
  La Nvidia H200 ronda los 12k tok/s, pero en procesamiento por lotes, así que la latencia del primer token es mucho mayor
  Taalas responde en milisegundos, por lo que encaja bien para generación de voz y video en tiempo real
  Aun así, producir chips en dos meses suena demasiado optimista. De todos modos, esperan que la versión v3 llegue a manejar solicitudes reales de API
- Bromean con que, si el die cuesta 20 dólares, quizá podrían venderlo por modelo como si fuera un cartucho de Game Boy
- Se preguntan si usar un Recursive Language Model (enlace al paper) podría compensar la limitación de contexto
  Consume muchos tokens, pero si los tokens son baratos, quizá ayude a mejorar la precisión
- 880mm² es más grande que un M1 Ultra e incluso más que un H100
  Cuando el die crece, el rendimiento de fabricación baja, y se preguntan si algunos errores de bits realmente serían un problema grave
- Resulta interesante pensar cómo este tipo de chip podría impulsar robots inteligentes
Los comentarios discuten la precisión del modelo, pero parece que no entienden que esto usa el modelo Llama 3.1 8B
El punto clave no es el modelo, sino el rendimiento del hardware personalizado
Montarle un modelo reciente como GLM-5 sería realmente impresionante
La respuesta llega prácticamente “en cuanto presionas Enter”
Pero que haya que cambiar todo el hardware al cambiar de modelo podría afectar su viabilidad comercial
- La información de precio está en esta imagen
  Parece una política de precios exploratoria para tantear la reacción del mercado
  Eligieron maximizar la velocidad en vez de la flexibilidad, aunque dicen que sí soporta fine-tuning basado en LoRA
  Sería muy útil para etiquetado de datos simple o procesamiento masivo en paralelo
- Personalmente, creen que Cerebras va mucho más adelante. Comparar tok/s no sería apropiado
Probaron la demo de ChatJimmy y les sorprendió lo rápido que respondió, literalmente en un parpadeo
chatjimmy.ai
- Le pidieron diseñar un submarino para gatos y respondió de inmediato
  El contenido además fue sorprendentemente concreto y útil
- Con esta velocidad sería posible la generación iterativa automática de código hasta pasar las pruebas
  Podría abrir una forma totalmente nueva de desarrollar
- Si fueran inversionistas, tal vez invertirían en ChatJimmy en vez de OpenAI
- Aunque la función de adjuntar archivos no funcionó y la comprensión del contexto se desvió un poco
- Alguien dijo haber confirmado directamente los 16,000 tokens por segundo y quedó impresionado
Aunque muchos son escépticos, hay suficiente demanda incluso para modelos no frontier
Solo con ver el gráfico de actividad de Llama 3.1, va creciendo 22% semanalmente
Si baja la latencia, se podría usar un LLM incluso al nivel de carga de una página web
- También podría haber mercado para modelos frontier. Por ejemplo, si Anthropic grabara Opus 4.6 en el chip, se reduciría el costo de inferencia
- Los modelos antiguos siguen siendo buenos para trabajo creativo. Los modelos recientes están más afinados para código y razonamiento, y pierden creatividad
- Es ideal para tareas como extracción de contenido estructurado o conversión a Markdown
  Este chip convierte al LLM en una interfaz en tiempo real
- También encaja en áreas como la robótica, donde se necesita baja latencia y trayectorias de trabajo acotadas
Bromean con que nunca habían visto respuestas incorrectas tan rápido, pero la tecnología parece muy prometedora
El modelo de 8B es pequeño, pero a largo plazo podría convertirse en un mercado grande
- Se decía que no pudo responder la pregunta, pero que no responderla lo hizo a una velocidad difícil de creer
  Ahora mismo no sirve demasiado, pero da una sensación de tecnología completamente nueva
- Si sale una versión para Qwen 2.5, probablemente la comprarían de inmediato
  Para trabajo real no siempre hace falta un modelo frontier
- Los modelos de 7~9B ya son bastante buenos. Lo importante es consultar varios modelos en paralelo para mejorar la precisión por consenso
  A partir de 80B, la diferencia se vuelve pequeña
- Señalan errores ortográficos y reaccionan con humor
Se imaginan si sería posible poner una tarjeta así en una PC personal para reemplazar Claude Code
Con 17k tokens por segundo se podrían ejecutar varias pipelines de agentes al mismo tiempo
Cada agente podría encargarse de editar y validar código, permitiendo mejoras iterativas rápidas
Se preguntan si, aun sin ser el mejor modelo, repetir muchas veces un modelo intermedio podría dar mejores resultados
- Más que el modelo en sí, lo que define la calidad del resultado son las herramientas y el harness
  Si se combinan salida rápida de tokens y buen tooling, se podría reducir la brecha frente a modelos frontier
- Aun así, un modelo no puede mejorarse a sí mismo basándose en su propia salida. Hace falta aprendizaje basado en la realidad
Según la información corregida, en realidad se trata de una estructura de chip único con el modelo grabado en silicio
Parece ser una implementación del modelo Llama 8B q3 con contexto de 1k, y requeriría 10 chips (2.4kW en total)
Como no se puede cambiar el modelo, solo sirve para tareas fijas a largo plazo
- Es ideal para problemas cortos de menos de 100 tokens, como etiquetado de datos
- También podría diseñarse un modelo que haga más RAG o búsqueda tipo agente
- Con el ritmo actual de cambio de modelos, una fabricación de chips que toma más de 6 meses resulta poco realista
- Podría aplicarse a tareas de NLP en general
- También podría servir como chip para NPCs de videojuegos
17k tokens por segundo no solo cambian la eficiencia de despliegue, sino la forma misma de evaluar
Los benchmarks estáticos tradicionales como MMLU están pensados para velocidad humana, pero con este nivel de throughput se vuelven posibles decenas de miles de pruebas interactivas
Muestra que, mientras más sube la velocidad, menos adecuadas se vuelven las evaluaciones tradicionales
Al probar el chatbot, ver respuestas largas salir de inmediato a 15k tok/s fue impactante
Les gustaría tener una versión de modelo frontier para programación local
- Ver un texto que tardaría 2 minutos en leerse generarse en menos de 1 segundo fue una locura visual
- Les recordó la broma de que no encontramos civilizaciones alienígenas porque ellas operan en otra escala temporal
- Aplicar esta velocidad a bucles de inferencia o harnesses de generación de código podría detonar una innovación importante en IA
Aunque también hubo reacciones negativas, hay muchísimas aplicaciones que requieren modelos de baja latencia
Por ejemplo, convertir búsquedas de texto libre en consultas estructuradas era inviable por la latencia de los modelos actuales
Este tipo de chip permite una respuesta de IA con sensación de inmediatez para el usuario