- Taalas desarrolló una plataforma que convierte modelos de IA en chips de silicio personalizados, lo que permite implementar un modelo en hardware en solo dos meses
- Su primer producto, el modelo cableado Llama 3.1 8B, procesa 17K tokens por segundo, siendo 10 veces más rápido, 20 veces más barato y con un consumo eléctrico de una décima parte frente a lo existente
- Hace posible una inferencia de bajo consumo, bajo costo y alta velocidad, y elimina la complejidad de los sistemas tradicionales basados en GPU con una nueva arquitectura de chip que integra memoria y cómputo
- Con este enfoque, Taalas busca acelerar la operación en tiempo real y la masificación de la IA, permitiendo a los desarrolladores experimentar nuevas aplicaciones en entornos de ultra baja latencia y ultra bajo costo
Limitaciones actuales de la IA y lo que se necesita
- La IA ya supera a los humanos en áreas específicas, pero la latencia y el costo se señalan como las mayores restricciones para su adopción masiva
- La interacción con modelos de lenguaje es más lenta que la velocidad del pensamiento humano, y las herramientas de asistencia para programación hacen esperar varios minutos por una respuesta
- La IA automatizada de tipo agente requiere respuestas en milisegundos, pero los sistemas actuales no logran cumplir con ello
- El despliegue de los modelos más recientes exige infraestructura de nivel supercomputadora, con cientos de kW de energía y complejas estructuras de enfriamiento, empaquetado y memoria
- Esta estructura se expande a centros de datos a escala de ciudad y redes satelitales, provocando una explosión de los costos operativos
- Taalas subraya que, al igual que la transición del ENIAC al transistor, la IA también debe evolucionar hacia una estructura eficiente y de bajo costo
La filosofía tecnológica de Taalas
- En dos años y medio desde su fundación, Taalas completó una plataforma que convierte modelos de IA en silicio personalizado
- Tras recibir un nuevo modelo, puede llevarlo a hardware en menos de 2 meses
- El resultado, los Hardcore Models, ofrece mejoras de alrededor de 10 veces en velocidad, costo y eficiencia energética frente a enfoques tradicionales basados en software
- Presenta tres principios clave
- Especialización total (Total specialization)
- Fabricar silicio optimizado para cada modelo de IA permite alcanzar una eficiencia extrema
- Integración de almacenamiento y cómputo (Merging storage and computation)
- Elimina el cuello de botella causado por la separación entre DRAM y chips de cómputo, e implementa una estructura integrada en un solo chip con un nivel de densidad comparable al de la DRAM
- Simplificación radical (Radical simplification)
- Elimina tecnologías complejas como HBM, apilamiento 3D y enfriamiento líquido para reducir el costo del sistema a un solo dígito
Primer producto: modelo cableado Llama 3.1 8B
- Se presenta como la plataforma de inferencia más rápida, barata y de menor consumo energético del mundo
- Al implementar directamente el modelo Llama 3.1 8B en silicio, logra procesar 17K tokens por segundo, con una velocidad 10 veces mayor, un costo de fabricación 20 veces menor y un consumo eléctrico 10 veces más bajo
- Asegura practicidad y facilidad de desarrollo al basarse en un modelo de código abierto
- Admite ajuste del tamaño de la ventana de contexto y fine-tuning basado en LoRA
- El chip de primera generación usa cuantización mixta de 3 bits y 6 bits, por lo que existe cierta pérdida de calidad frente a una GPU
- El silicio de segunda generación (HC2) adopta un formato estándar de punto flotante de 4 bits para mejorar calidad y eficiencia
Hoja de ruta de modelos futuros
- El segundo modelo será un LLM de razonamiento de tamaño intermedio, que se completará en el laboratorio en primavera y luego se integrará al servicio de inferencia
- El tercer modelo será un LLM de nivel frontier basado en la plataforma HC2, con mayor densidad y velocidad, y su despliegue está previsto para invierno
Accesibilidad para desarrolladores y estructura del equipo
- El modelo Llama, actualmente disponible como beta, se ofrece para experimentar un entorno de ultra baja latencia y ultra bajo costo
- Taalas completó su primer producto con un equipo de 24 personas y un costo de 30 millones de dólares, presentado como resultado de objetivos precisos y una ejecución enfocada
- El equipo está conformado por un pequeño grupo de expertos que ha colaborado durante más de 20 años y prioriza la calidad, la precisión y el oficio artesanal
Conclusión: la IA en tiempo real y su masificación
- La tecnología de Taalas ofrece un salto escalonado en rendimiento, eficiencia energética y costo
- Propone una nueva filosofía de arquitectura de sistemas de IA distinta del enfoque centrado en GPU
- Al eliminar las barreras de latencia y costo, brinda a los desarrolladores un entorno donde la IA puede usarse en tiempo real
- En el futuro se expandirá hacia modelos más potentes, avanzando hacia una accesibilidad universal de la IA
2 comentarios
No sé qué tanto significado tenga. Como al mercado le gusta el hype, seguro conseguirán financiamiento, pero como están sacando modelos nuevos a toda velocidad, en dos meses ya se siente como algo lejísimo.
Opiniones de Hacker News
Este chip no es de propósito general, sino un diseño especializado en inferencia de alta velocidad y baja latencia
Con 8B dense 3bit quant (Llama 3.1) procesa 15k tokens por segundo, con un die de 880mm² en proceso de 6nm, 53B transistores, consumo de unos 200W, costo de producción 20 veces menor y 10 veces menos energía por token
El equipo fundador viene de AMD y Nvidia, con 25 años de experiencia, y ya aseguró 200 millones de dólares en inversión de VC
Si se calcula en unos 0.2 dólares por mm², serían alrededor de 20 dólares por cada mil millones de parámetros, aunque los dies grandes tienen menor rendimiento de fabricación
Para más detalles, ver la entrevista al fundador
Parece ideal para aplicaciones de ultra baja latencia de menos de 10k tokens, y si sale en primavera es probable que atraiga mucho capital VC
La Nvidia H200 ronda los 12k tok/s, pero en procesamiento por lotes, así que la latencia del primer token es mucho mayor
Taalas responde en milisegundos, por lo que encaja bien para generación de voz y video en tiempo real
Aun así, producir chips en dos meses suena demasiado optimista. De todos modos, esperan que la versión v3 llegue a manejar solicitudes reales de API
Consume muchos tokens, pero si los tokens son baratos, quizá ayude a mejorar la precisión
Cuando el die crece, el rendimiento de fabricación baja, y se preguntan si algunos errores de bits realmente serían un problema grave
Los comentarios discuten la precisión del modelo, pero parece que no entienden que esto usa el modelo Llama 3.1 8B
El punto clave no es el modelo, sino el rendimiento del hardware personalizado
Montarle un modelo reciente como GLM-5 sería realmente impresionante
La respuesta llega prácticamente “en cuanto presionas Enter”
Pero que haya que cambiar todo el hardware al cambiar de modelo podría afectar su viabilidad comercial
Parece una política de precios exploratoria para tantear la reacción del mercado
Eligieron maximizar la velocidad en vez de la flexibilidad, aunque dicen que sí soporta fine-tuning basado en LoRA
Sería muy útil para etiquetado de datos simple o procesamiento masivo en paralelo
Probaron la demo de ChatJimmy y les sorprendió lo rápido que respondió, literalmente en un parpadeo
chatjimmy.ai
El contenido además fue sorprendentemente concreto y útil
Podría abrir una forma totalmente nueva de desarrollar
Aunque muchos son escépticos, hay suficiente demanda incluso para modelos no frontier
Solo con ver el gráfico de actividad de Llama 3.1, va creciendo 22% semanalmente
Si baja la latencia, se podría usar un LLM incluso al nivel de carga de una página web
Este chip convierte al LLM en una interfaz en tiempo real
Bromean con que nunca habían visto respuestas incorrectas tan rápido, pero la tecnología parece muy prometedora
El modelo de 8B es pequeño, pero a largo plazo podría convertirse en un mercado grande
Ahora mismo no sirve demasiado, pero da una sensación de tecnología completamente nueva
Para trabajo real no siempre hace falta un modelo frontier
A partir de 80B, la diferencia se vuelve pequeña
Se imaginan si sería posible poner una tarjeta así en una PC personal para reemplazar Claude Code
Con 17k tokens por segundo se podrían ejecutar varias pipelines de agentes al mismo tiempo
Cada agente podría encargarse de editar y validar código, permitiendo mejoras iterativas rápidas
Se preguntan si, aun sin ser el mejor modelo, repetir muchas veces un modelo intermedio podría dar mejores resultados
Si se combinan salida rápida de tokens y buen tooling, se podría reducir la brecha frente a modelos frontier
Según la información corregida, en realidad se trata de una estructura de chip único con el modelo grabado en silicio
Parece ser una implementación del modelo Llama 8B q3 con contexto de 1k, y requeriría 10 chips (2.4kW en total)
Como no se puede cambiar el modelo, solo sirve para tareas fijas a largo plazo
17k tokens por segundo no solo cambian la eficiencia de despliegue, sino la forma misma de evaluar
Los benchmarks estáticos tradicionales como MMLU están pensados para velocidad humana, pero con este nivel de throughput se vuelven posibles decenas de miles de pruebas interactivas
Muestra que, mientras más sube la velocidad, menos adecuadas se vuelven las evaluaciones tradicionales
Al probar el chatbot, ver respuestas largas salir de inmediato a 15k tok/s fue impactante
Les gustaría tener una versión de modelo frontier para programación local
Aunque también hubo reacciones negativas, hay muchísimas aplicaciones que requieren modelos de baja latencia
Por ejemplo, convertir búsquedas de texto libre en consultas estructuradas era inviable por la latencia de los modelos actuales
Este tipo de chip permite una respuesta de IA con sensación de inmediatez para el usuario