- Mejora
nanoGPT de Andrei Karpathy, que solo podía manejar 100M (100 millones) de parámetros, para permitir entrenamiento de hasta 100B (100 mil millones)
- No depende de otro código ni de frameworks de terceros, y aprovecha la gran capacidad de memoria y cómputo del "hardware de Cerebras" para hacer posible el entrenamiento a gran escala con código vanilla de
torch.nn
- Soporta longitudes de contexto largas sin modificaciones adicionales y funciona junto con diversas herramientas de optimización
- Cerebras es un fabricante de chipsets: la velocidad de multiplicación de matrices es similar a la de una GPU, pero los hace mucho más grandes para meter más transistores y memoria en un solo chip
- Gracias a ese tamaño, no hace falta hacer tareas como fragmentar y luego volver a integrar entre varios dispositivos, por lo que se puede mantener un LOC más bajo
Aún no hay comentarios.