gigaGPT - Un modelo GPT-3 hecho en 565 líneas de código

xguru · 2023-12-16T10:31:01+09:00

Mejora nanoGPT de Andrei Karpathy, que solo podía manejar 100M (100 millones) de parámetros, para permitir entrenamiento de hasta 100B (100 mil millones) No depende de otro código ni de frameworks de terceros, y aprovecha la gran capacidad de memoria y cómputo del "hardware de Cerebras" para hacer posible el entrenamiento a gran escala con código vanilla de torch.nn Soporta longitudes de contexto largas sin modificaciones adicionales y funciona junto con diversas herramientas de optimización Cerebras es un fabricante de chipsets: la velocidad de multiplicación de matrices es similar a la de una GPU, pero los hace mucho más grandes para meter más transistores y memoria en un solo chip Gracias a ese tamaño, no hace falta hacer tareas como fragmentar y luego volver a integrar entre varios dispositivos, por lo que se puede mantener un LOC más bajo

(cerebras.net)

12 puntos por xguru 2023-12-16 | Aún no hay comentarios. | Compartir por WhatsApp

Mejora nanoGPT de Andrei Karpathy, que solo podía manejar 100M (100 millones) de parámetros, para permitir entrenamiento de hasta 100B (100 mil millones)
No depende de otro código ni de frameworks de terceros, y aprovecha la gran capacidad de memoria y cómputo del "hardware de Cerebras" para hacer posible el entrenamiento a gran escala con código vanilla de torch.nn
Soporta longitudes de contexto largas sin modificaciones adicionales y funciona junto con diversas herramientas de optimización
Cerebras es un fabricante de chipsets: la velocidad de multiplicación de matrices es similar a la de una GPU, pero los hace mucho más grandes para meter más transistores y memoria en un solo chip
- Gracias a ese tamaño, no hace falta hacer tareas como fragmentar y luego volver a integrar entre varios dispositivos, por lo que se puede mantener un LOC más bajo

gigaGPT - Un modelo GPT-3 hecho en 565 líneas de código

Lecturas relacionadas

Aún no hay comentarios.