12 puntos por xguru 2023-12-16 | Aún no hay comentarios. | Compartir por WhatsApp
  • Mejora nanoGPT de Andrei Karpathy, que solo podía manejar 100M (100 millones) de parámetros, para permitir entrenamiento de hasta 100B (100 mil millones)
  • No depende de otro código ni de frameworks de terceros, y aprovecha la gran capacidad de memoria y cómputo del "hardware de Cerebras" para hacer posible el entrenamiento a gran escala con código vanilla de torch.nn
  • Soporta longitudes de contexto largas sin modificaciones adicionales y funciona junto con diversas herramientas de optimización
  • Cerebras es un fabricante de chipsets: la velocidad de multiplicación de matrices es similar a la de una GPU, pero los hace mucho más grandes para meter más transistores y memoria en un solo chip
    • Gracias a ese tamaño, no hace falta hacer tareas como fragmentar y luego volver a integrar entre varios dispositivos, por lo que se puede mantener un LOC más bajo

Aún no hay comentarios.

Aún no hay comentarios.