Tinybox – máquina de IA offline con soporte para 120B de parámetros

(tinygrad.org)

6 puntos por GN⁺ 2026-03-22 | 1 comentarios | Compartir por WhatsApp

tinygrad es un framework de redes neuronales que combina simplicidad y rendimiento, e implementa modelos complejos con una estructura mínima de operaciones
Basado en esto, tinybox es una computadora de IA offline de alto rendimiento para entrenamiento e inferencia de deep learning, y se ofrece en tres modelos: red, green y exa
El modelo superior green v2 blackwell ofrece 3086 TFLOPS de rendimiento con 4 GPU RTX PRO 6000, y está disponible para envío inmediato por $65,000
El modelo tope de gama exabox apunta a un rendimiento de aprox. 1 EXAFLOP, con lanzamiento previsto para 2027 y un precio de aprox. 10 millones de dólares
Su fabricante, tiny corp, busca comercializar el petaflop y hacer realidad la IA para todos

Descripción general de tinygrad

tinygrad es un framework de redes neuronales enfocado en la simplicidad y el rendimiento, y es un proyecto en rápido crecimiento
Construye redes complejas con solo 3 tipos de OpType: ElementwiseOps, ReduceOps y MovementOps
- ElementwiseOps realiza operaciones elemento por elemento sobre 1 a 3 tensores, e incluye SQRT, LOG2, ADD, MUL y WHERE
- ReduceOps recibe un tensor como entrada y devuelve uno más pequeño; incluye SUM y MAX
- MovementOps es una operación virtual que mueve datos sin copiarlos, y usa ShapeTracker para realizar RESHAPE, PERMUTE, EXPAND y más
La implementación de operaciones como CONV o MATMUL puede revisarse directamente en el código

Línea de productos tinybox

tinybox es una computadora de alto rendimiento para deep learning, compuesta por tres modelos: red, green y exa
Las especificaciones principales de cada modelo son las siguientes
- red v2
  - GPU: 4x 9070XT
  - Rendimiento FP16(FP32 acc): 778 TFLOPS
  - RAM de GPU: 64GB, ancho de banda de 2560 GB/s
  - CPU: AMD EPYC de 32 núcleos
  - RAM del sistema: 128GB, ancho de banda de 204.8 GB/s
  - Disco: 2TB NVMe, velocidad de lectura de 7.3 GB/s
  - Red: 2x 1GbE + OCP3.0
  - Energía: 1600W
  - Ruido: menos de 50dB
  - Precio: $12,000, disponible para envío inmediato
- green v2 blackwell
  - GPU: 4x RTX PRO 6000 Blackwell
  - Rendimiento FP16(FP32 acc): 3086 TFLOPS
  - RAM de GPU: 384GB, ancho de banda de 7168 GB/s
  - CPU: AMD GENOA de 32 núcleos
  - RAM del sistema: 192GB, ancho de banda de 460.8 GB/s
  - Disco: 4TB RAID + 1TB para arranque, velocidad de lectura de 59.3 GB/s
  - Red: 2x 10GbE + OCP3.0
  - Energía: 2x 1600W
  - Ruido: 65dB (a una distancia de 10 m)
  - Precio: $65,000, disponible para envío inmediato
- exabox
  - GPU: 720x RDNA5 AT0 XL
  - Rendimiento FP16(FP32 acc): aprox. 1 EXAFLOP
  - RAM de GPU: 25,920GB, ancho de banda de 1244 TB/s
  - CPU: 120x AMD GENOA de 32 núcleos
  - RAM del sistema: 23,040GB, ancho de banda de 55.2 TB/s
  - Disco: 480TB RAID, velocidad de lectura de 7.1 TB/s
  - Red: expansión compatible con PCIe5 3.2 TB/s
  - Energía: 600kW
  - Tamaño: 20x8x8.5 ft, peso 20,000 lbs
  - Lanzamiento previsto: 2027, precio estimado aprox. $10M
  - Todos los modelos usan el sistema operativo Ubuntu 24.04 y pueden instalarse en formato standalone o rack-mount
  - Las actualizaciones de productos e inventario se ofrecen a través de una lista de correo

FAQ

Descripción general de tinybox
- Es una computadora de alto rendimiento para deep learning** ,** con una relación precio-rendimiento muy alta
  - Fue comparada en el benchmark MLPerf Training 4.0 con sistemas 10 veces más caros
  - Además del entrenamiento, también puede realizar inferencia (inference)
Pedido y envío
- Se puede ordenar en el sitio web, con envío dentro de 1 semana después del pago
- Compatible con recogida local en San Diego o envío a todo el mundo
Personalización y pago
- No se permite personalización para mantener el precio y la calidad
  - El pago solo puede hacerse por transferencia bancaria (wire transfer)
  - El formulario W-9 está disponible en el enlace de descarga
Uso de tinygrad
- Se usa en openpilot para ejecutar modelos de conducción basados en la GPU Snapdragon 845
- Sustituye a Qualcomm SNPE, y ofrece mayor velocidad, carga de ONNX, soporte para entrenamiento y funcionalidad de attention
Funciones y rendimiento
- No es solo para inferencia; soporta tanto el forward pass como el backward pass basados en autodiff
- Ofrece una API similar a PyTorch, pero con una estructura más simple
- Está en versión alfa y su estabilidad es baja, aunque recientemente ha sido relativamente estable
- Planean salir de la etapa alfa cuando sea posible reproducir papers 2 veces más rápido que con PyTorch
- Factores de mejora de velocidad
  - Compilación de kernels personalizados para cada operación, optimizada según la forma
  - Estructura de lazy tensor para una fusión agresiva de operaciones
  - Un backend conciso permite que la optimización de kernels mejore el rendimiento general
Desarrollo y comunidad
- El desarrollo continúa en GitHub y Discord
- Las contribuciones (PR) a tinygrad se consideran una vía principal para contratación y participación en inversión
- El objetivo de tiny corp es la comercialización del petaflop y hacer realidad la IA para todos

1 comentarios

GN⁺ 2026-03-22

Comentarios de Hacker News

Resulta irónico que este sitio web dé una sensación de haber sido hecho por manos humanas y no por IA
El diseño y el tono de la escritura se sienten muy humanos
Aun así, la idea es excelente, y creo que este tipo de modelos entrenados en local puede ser el futuro para reducir la dependencia de los modelos de las grandes empresas
Eso sí, estaría bien que pudiera conectarse directamente a un circuito de 240V. Tener que encontrar dos circuitos de 120V es bastante molesto
- La mayoría de los textos sobre IA que de verdad se ganan respeto casi no muestran rastros de haber sido escritos por IA
  Creo que es porque la gente del sector es muy sensible a distinguir la señal del ruido
- Me pareció raro que reciban contribuciones de código públicamente con “Invest with your PRs”, pero no tengan una política sobre código generado por IA
  Supongo que el volumen es lo bastante bajo como para poder ignorar cortésmente los PR de mala calidad, así que la forma en que fueron generados no importa mucho
- Para alguien que compra un equipo de 65 mil dólares, encontrar dos circuitos probablemente será un problema menor
- En realidad, en EE. UU. los circuitos de 240V son dos líneas de 120V combinadas, así que volver a cablearlo no es tan difícil
Que el modelo base cueste 12 mil dólares me parece demasiado caro
Yo corro modelos de 120B parámetros en un Apple M3 Max (128GB RAM) a 15~20 tokens por segundo con 80W de consumo
No es perfecto, pero me parece mejor que un equipo de 12 mil dólares
- El rendimiento en TFLOPS del M3 Max ni se puede comparar con la caja de 12k
- Este tipo de equipo es para tontos. El año pasado compré 160GB de VRAM por 1,000 dólares, y 96GB de VRAM P40 también cuesta menos de mil dólares
  Con eso puedes correr gpt-oss-120b Q8 a unos 30 tokens por segundo
No hay forma de que red v2 pueda correr correctamente un modelo de 120B
Yo mismo armé un homelab de IA con dual A100, uniendo 80GB de VRAM con NVLink
Un modelo de 120B es imposible sin una cuantización agresiva, y a ese nivel el modelo se vuelve inestable
Tampoco hay suficiente espacio para la caché KV, así que da OOM cerca de un contexto de 4k
Incluso corriendo un modelo de 70B ya voy justo. Mi equipo tiene 16GB más de VRAM que el red v2
Además, no entiendo por qué es 12U. Mi rig es 4U
El green v2 tiene mejores GPU, pero por 65 mil dólares también debería tener mucho mejor CPU y RAM
Me alegra que exista, pero sinceramente no entiendo la proporción de la configuración
- El rendimiento está bien, pero no es una locura
  Yo corro gpt-oss-120b Q4 en una caja Epyc Milan repartiendo la carga entre RAM y GPU, y obtengo unos 30~50 tokens por segundo
  Una configuración de 64G VRAM/128G RAM es ineficiente. Incluso los modelos MoE solo necesitan unos 20B para el router y el resto de la VRAM se desperdicia
- Probablemente es 12U porque usan un único SKU de gabinete
  Seguramente responderían algo como: “Para bajar el precio y mantener la calidad, no ofrecemos personalización del tamaño del servidor”
- Sinceramente, dos RTX 8000 probablemente tendrían mejor ROI que el red v2
  Yo uso un servidor de 8 GPU (5 RTX 8000, 3 RTX 6000 Ada), y para inferencia base las 8000 son suficientes
  El modelo green será más rápido, pero no me convence el costo adicional de 25 mil dólares
- Me pregunto si les salió más barato que usar Blackwell 6000
  Cuatro Blackwell 6000 cuestan entre 32 y 36 mil dólares, así que no sé a dónde se fueron los otros 30 mil
- Pienso que podrías usar contextos más largos si haces offloading de la KV hacia RAM del sistema o almacenamiento
  Algunos frameworks de IA local soportan una política LRU que usa solo parte de la VRAM como caché, así que el sobrecosto puede ser manejable
exabox me parece interesante
Me pregunto quién será el cliente. Después de ver el video del lanzamiento de Vera Rubin, ni siquiera me imagino competir con NVIDIA en el mercado hyperscale
Supongo que apuntan a startups de ML enfocadas en costo-beneficio
Viendo el precio, Vera Rubin en realidad cuesta la mitad con un nivel parecido de RAM de GPU
Aunque no llegue a la calidad de interconexión de NV
No sé quién compraría esto. NV ya está enviando producto
- La infraestructura de las grandes empresas muchas veces tiene más de 5 años, así que el costo de actualización es demasiado alto y no pueden cambiar fácilmente
  Si apuntan a ese nicho, sí podrían competir. Si tu participación de mercado es menor al 0.01%, a las grandes empresas ni les va a importar
- Como broma a “exabox me parece interesante”, alguien respondió: “¿Puede correr Crysis?”
Esto me hace pensar si será una nueva máquina de minado cripto
Antes vendían hardware para minería, y ahora da la impresión de que lo venden para IA
- Se parece, pero la diferencia es que no hay bloques de recompensa
Tinybox está genial, pero probablemente el mercado quiera más productos con garantías de rendimiento explícitas, tipo “puede correr Kimi 2.5 a 50 tokens por segundo”
Me hizo pensar en el concepto de Decoy effect
Me pregunto cómo manejan la refrigeración en este equipo
Sobre la condición de tinygrad de que “sale de alfa cuando sea 2 veces más rápido que pytorch”
Haría falta una explicación concreta de en qué cargas de trabajo pytorch es más de 2 veces más lento que el hardware
La mayoría de los papers usan componentes estándar, y pytorch ya está en un nivel donde saca más del 50% del rendimiento del GPU
Si se trata de un caso especial donde solo se obtiene rendimiento escribiendo kernels personalizados, entonces es otro problema
No entiendo por qué dejaron de ofrecer la configuración de 6 GPU
La de 4 GPU (9070, RTX6000) tiene diseño de 2 slots, así que se puede montar incluso con una motherboard común
La de 6 GPU requiere risers, PCIe retimers, fuente dual y un gabinete personalizado, así que es más compleja
Aun así, creo que daba mejor relación costo-rendimiento

Tinybox – máquina de IA offline con soporte para 120B de parámetros

Descripción general de tinygrad

Línea de productos tinybox

red v2

green v2 blackwell

exabox

FAQ

Descripción general de tinybox

Es una computadora de alto rendimiento para deep learning** ,** con una relación precio-rendimiento muy alta

Pedido y envío

Personalización y pago

No se permite personalización para mantener el precio y la calidad

Uso de tinygrad

Funciones y rendimiento

Desarrollo y comunidad

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News

Es una computadora de alto rendimiento para deep learning , con una relación precio-rendimiento muy alta