- tinygrad es un framework de redes neuronales que combina simplicidad y rendimiento, e implementa modelos complejos con una estructura mínima de operaciones
- Basado en esto, tinybox es una computadora de IA offline de alto rendimiento para entrenamiento e inferencia de deep learning, y se ofrece en tres modelos: red, green y exa
- El modelo superior green v2 blackwell ofrece 3086 TFLOPS de rendimiento con 4 GPU RTX PRO 6000, y está disponible para envío inmediato por $65,000
- El modelo tope de gama exabox apunta a un rendimiento de aprox. 1 EXAFLOP, con lanzamiento previsto para 2027 y un precio de aprox. 10 millones de dólares
- Su fabricante, tiny corp, busca comercializar el petaflop y hacer realidad la IA para todos
Descripción general de tinygrad
- tinygrad es un framework de redes neuronales enfocado en la simplicidad y el rendimiento, y es un proyecto en rápido crecimiento
- Construye redes complejas con solo 3 tipos de OpType: ElementwiseOps, ReduceOps y MovementOps
- ElementwiseOps realiza operaciones elemento por elemento sobre 1 a 3 tensores, e incluye SQRT, LOG2, ADD, MUL y WHERE
- ReduceOps recibe un tensor como entrada y devuelve uno más pequeño; incluye SUM y MAX
- MovementOps es una operación virtual que mueve datos sin copiarlos, y usa ShapeTracker para realizar RESHAPE, PERMUTE, EXPAND y más
- La implementación de operaciones como CONV o MATMUL puede revisarse directamente en el código
Línea de productos tinybox
- tinybox es una computadora de alto rendimiento para deep learning, compuesta por tres modelos: red, green y exa
- Las especificaciones principales de cada modelo son las siguientes
-
red v2
- GPU: 4x 9070XT
- Rendimiento FP16(FP32 acc): 778 TFLOPS
- RAM de GPU: 64GB, ancho de banda de 2560 GB/s
- CPU: AMD EPYC de 32 núcleos
- RAM del sistema: 128GB, ancho de banda de 204.8 GB/s
- Disco: 2TB NVMe, velocidad de lectura de 7.3 GB/s
- Red: 2x 1GbE + OCP3.0
- Energía: 1600W
- Ruido: menos de 50dB
- Precio: $12,000, disponible para envío inmediato
-
green v2 blackwell
- GPU: 4x RTX PRO 6000 Blackwell
- Rendimiento FP16(FP32 acc): 3086 TFLOPS
- RAM de GPU: 384GB, ancho de banda de 7168 GB/s
- CPU: AMD GENOA de 32 núcleos
- RAM del sistema: 192GB, ancho de banda de 460.8 GB/s
- Disco: 4TB RAID + 1TB para arranque, velocidad de lectura de 59.3 GB/s
- Red: 2x 10GbE + OCP3.0
- Energía: 2x 1600W
- Ruido: 65dB (a una distancia de 10 m)
- Precio: $65,000, disponible para envío inmediato
-
exabox
- GPU: 720x RDNA5 AT0 XL
- Rendimiento FP16(FP32 acc): aprox. 1 EXAFLOP
- RAM de GPU: 25,920GB, ancho de banda de 1244 TB/s
- CPU: 120x AMD GENOA de 32 núcleos
- RAM del sistema: 23,040GB, ancho de banda de 55.2 TB/s
- Disco: 480TB RAID, velocidad de lectura de 7.1 TB/s
- Red: expansión compatible con PCIe5 3.2 TB/s
- Energía: 600kW
- Tamaño: 20x8x8.5 ft, peso 20,000 lbs
- Lanzamiento previsto: 2027, precio estimado aprox. $10M
- Todos los modelos usan el sistema operativo Ubuntu 24.04 y pueden instalarse en formato standalone o rack-mount
- Las actualizaciones de productos e inventario se ofrecen a través de una lista de correo
FAQ
-
Descripción general de tinybox
-
Es una computadora de alto rendimiento para deep learning** ,** con una relación precio-rendimiento muy alta
- Fue comparada en el benchmark MLPerf Training 4.0 con sistemas 10 veces más caros
- Además del entrenamiento, también puede realizar inferencia (inference)
-
Pedido y envío
- Se puede ordenar en el sitio web, con envío dentro de 1 semana después del pago
- Compatible con recogida local en San Diego o envío a todo el mundo
-
Personalización y pago
-
No se permite personalización para mantener el precio y la calidad
- El pago solo puede hacerse por transferencia bancaria (wire transfer)
- El formulario W-9 está disponible en el enlace de descarga
-
Uso de tinygrad
- Se usa en openpilot para ejecutar modelos de conducción basados en la GPU Snapdragon 845
- Sustituye a Qualcomm SNPE, y ofrece mayor velocidad, carga de ONNX, soporte para entrenamiento y funcionalidad de attention
-
Funciones y rendimiento
- No es solo para inferencia; soporta tanto el forward pass como el backward pass basados en autodiff
- Ofrece una API similar a PyTorch, pero con una estructura más simple
- Está en versión alfa y su estabilidad es baja, aunque recientemente ha sido relativamente estable
- Planean salir de la etapa alfa cuando sea posible reproducir papers 2 veces más rápido que con PyTorch
- Factores de mejora de velocidad
- Compilación de kernels personalizados para cada operación, optimizada según la forma
- Estructura de lazy tensor para una fusión agresiva de operaciones
- Un backend conciso permite que la optimización de kernels mejore el rendimiento general
-
Desarrollo y comunidad
- El desarrollo continúa en GitHub y Discord
- Las contribuciones (PR) a tinygrad se consideran una vía principal para contratación y participación en inversión
- El objetivo de tiny corp es la comercialización del petaflop y hacer realidad la IA para todos
1 comentarios
Comentarios de Hacker News
Resulta irónico que este sitio web dé una sensación de haber sido hecho por manos humanas y no por IA
El diseño y el tono de la escritura se sienten muy humanos
Aun así, la idea es excelente, y creo que este tipo de modelos entrenados en local puede ser el futuro para reducir la dependencia de los modelos de las grandes empresas
Eso sí, estaría bien que pudiera conectarse directamente a un circuito de 240V. Tener que encontrar dos circuitos de 120V es bastante molesto
Creo que es porque la gente del sector es muy sensible a distinguir la señal del ruido
Supongo que el volumen es lo bastante bajo como para poder ignorar cortésmente los PR de mala calidad, así que la forma en que fueron generados no importa mucho
Que el modelo base cueste 12 mil dólares me parece demasiado caro
Yo corro modelos de 120B parámetros en un Apple M3 Max (128GB RAM) a 15~20 tokens por segundo con 80W de consumo
No es perfecto, pero me parece mejor que un equipo de 12 mil dólares
Con eso puedes correr gpt-oss-120b Q8 a unos 30 tokens por segundo
No hay forma de que red v2 pueda correr correctamente un modelo de 120B
Yo mismo armé un homelab de IA con dual A100, uniendo 80GB de VRAM con NVLink
Un modelo de 120B es imposible sin una cuantización agresiva, y a ese nivel el modelo se vuelve inestable
Tampoco hay suficiente espacio para la caché KV, así que da OOM cerca de un contexto de 4k
Incluso corriendo un modelo de 70B ya voy justo. Mi equipo tiene 16GB más de VRAM que el red v2
Además, no entiendo por qué es 12U. Mi rig es 4U
El green v2 tiene mejores GPU, pero por 65 mil dólares también debería tener mucho mejor CPU y RAM
Me alegra que exista, pero sinceramente no entiendo la proporción de la configuración
Yo corro gpt-oss-120b Q4 en una caja Epyc Milan repartiendo la carga entre RAM y GPU, y obtengo unos 30~50 tokens por segundo
Una configuración de 64G VRAM/128G RAM es ineficiente. Incluso los modelos MoE solo necesitan unos 20B para el router y el resto de la VRAM se desperdicia
Seguramente responderían algo como: “Para bajar el precio y mantener la calidad, no ofrecemos personalización del tamaño del servidor”
Yo uso un servidor de 8 GPU (5 RTX 8000, 3 RTX 6000 Ada), y para inferencia base las 8000 son suficientes
El modelo green será más rápido, pero no me convence el costo adicional de 25 mil dólares
Cuatro Blackwell 6000 cuestan entre 32 y 36 mil dólares, así que no sé a dónde se fueron los otros 30 mil
Algunos frameworks de IA local soportan una política LRU que usa solo parte de la VRAM como caché, así que el sobrecosto puede ser manejable
exabox me parece interesante
Me pregunto quién será el cliente. Después de ver el video del lanzamiento de Vera Rubin, ni siquiera me imagino competir con NVIDIA en el mercado hyperscale
Supongo que apuntan a startups de ML enfocadas en costo-beneficio
Viendo el precio, Vera Rubin en realidad cuesta la mitad con un nivel parecido de RAM de GPU
Aunque no llegue a la calidad de interconexión de NV
No sé quién compraría esto. NV ya está enviando producto
Si apuntan a ese nicho, sí podrían competir. Si tu participación de mercado es menor al 0.01%, a las grandes empresas ni les va a importar
Esto me hace pensar si será una nueva máquina de minado cripto
Antes vendían hardware para minería, y ahora da la impresión de que lo venden para IA
Tinybox está genial, pero probablemente el mercado quiera más productos con garantías de rendimiento explícitas, tipo “puede correr Kimi 2.5 a 50 tokens por segundo”
Me hizo pensar en el concepto de Decoy effect
Me pregunto cómo manejan la refrigeración en este equipo
Sobre la condición de tinygrad de que “sale de alfa cuando sea 2 veces más rápido que pytorch”
Haría falta una explicación concreta de en qué cargas de trabajo pytorch es más de 2 veces más lento que el hardware
La mayoría de los papers usan componentes estándar, y pytorch ya está en un nivel donde saca más del 50% del rendimiento del GPU
Si se trata de un caso especial donde solo se obtiene rendimiento escribiendo kernels personalizados, entonces es otro problema
No entiendo por qué dejaron de ofrecer la configuración de 6 GPU
La de 4 GPU (9070, RTX6000) tiene diseño de 2 slots, así que se puede montar incluso con una motherboard común
La de 6 GPU requiere risers, PCIe retimers, fuente dual y un gabinete personalizado, así que es más compleja
Aun así, creo que daba mejor relación costo-rendimiento