Resumen del proyecto Dojo de Tesla
(perspectives.mvdirona.com)<p>Artículo de James Hamilton, VP de AWS<br />
- El sistema de aprendizaje automático Dojo es interesante en tres aspectos <br />
1. Redes a gran escala <br />
→ Cada chip D1 ofrece conectividad de 16,000 Gbps (4 canales de 4 Tbps), y al combinarse en un MCM de 25 chips (Multi-Chip Modules), proporciona un ancho de banda de 36,000 Gbps (4x 9 Tb)<br />
2. Una proporción de memoria respecto a cómputo extremadamente baja <br />
→ Cada chip D1 tiene 354 unidades funcionales, y cada unidad solo cuenta con 1.25 megas de SRAM y no tiene DRAM, por lo que un chip D1 tiene menos de medio giga de memoria en total (442.5 Mb)<br />
→ Se coloca un gran pool de DRAM al final de una unidad de rack de 5 bloques, y el rack de cómputo en sí no tiene DRAM<br />
→ Si pensamos cómo puede funcionar con tan poca memoria, probablemente se trate de una combinación de un ancho de banda de red enorme y un sistema diseñado para ejecutar modelos de visión que usan mucha menos memoria que otras cargas típicas de entrenamiento de ML<br />
3. Densidad de potencia enorme <br />
→ Cada chip D1 consume solo 400 W, lo cual está en línea con lo esperado para tecnología de punta en ese tamaño, pero al combinarlos en un MCM bastante denso de 25 chips lograron que consumiera solo 15 kW (10 kW de los D1 y 5 kW de los reguladores de voltaje)<br />
→ Eso significa que un sistema de entrenamiento Dojo de 10 racks completamente lleno consume 1.8 megawatts <br />
→ Desde la perspectiva de escala, un centro de datos de tamaño medio operaría en el rango de 30 a 40 megawatts<br />
<br />
- Aunque es un detalle menor, colocar el VRD (Voltage Regulator Down) directamente sobre el tile parece un buen intento para suministrar una alimentación inusualmente alta de 52 V. Incluso considerando un consumo de 15 kW, a 52 V todavía consume 288 A<br />
- 354 unidades funcionales están integradas en un único chip D1 de 645 mm^2. 25 chips D1 forman un módulo multichip llamado training tile, 12 training tiles conforman un rack, y 10 racks llenan un Exapod.<br />
- "Un sistema bastante innovador"</p>
1 comentarios