- Lanzamiento de los pesos y la arquitectura de un modelo Mixture-of-Experts de 314B (314 mil millones) de parámetros
- Modelo base sin procesar de la fase de preentrenamiento de Grok-1, finalizada en octubre de 2023
- Esto significa que el modelo no fue ajustado finamente para tareas específicas como conversación
- Detalles del modelo
- Modelo base entrenado con grandes volúmenes de datos de texto sin ajuste fino para tareas específicas
- Modelo Mixture of Experts de 314B parámetros con 25% de los pesos activados para un token dado
- Entrenado desde cero por xAI en octubre de 2023 usando un stack de entrenamiento personalizado sobre JAX y Rust
Cómo usar el repositorio de Grok-1
- El repositorio de Grok-1, que incluye código de ejemplo en JAX, se usa para cargar y ejecutar el modelo open-weight Grok-1.
- Descarga el checkpoint y coloca el directorio
ckpt-0 dentro del directorio checkpoint; luego ejecuta pip install -r requirements.txt y python run.py para probar el código.
- El script carga el checkpoint y genera muestras del modelo para entradas de prueba.
- Debido a que el modelo es extremadamente grande (314B parámetros), se necesita una máquina con suficiente memoria GPU.
- La implementación de las capas MoE (Mixture of Experts) en este repositorio no es eficiente y se eligió así para evitar kernels personalizados al validar la exactitud del modelo.
Descarga de pesos
- Puedes descargar los pesos usando un cliente torrent y el siguiente enlace:
magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce
Licencia
- El código incluido en esta publicación y los pesos de Grok-1 están licenciados bajo Apache 2.0.
- La licencia solo aplica a los archivos fuente de este repositorio y a los pesos del modelo Grok-1.
Opinión de GN⁺
- Grok-1 es un modelo con una enorme cantidad de parámetros, y ofrece una buena oportunidad para que investigadores e ingenieros de machine learning experimenten usando recursos de cómputo de alto rendimiento.
- Al usar la licencia open source Apache 2.0, la comunidad puede usar, modificar y distribuir libremente el modelo, lo que puede impulsar la colaboración y la innovación.
- Debido al enorme tamaño del modelo, para experimentar realmente con él se requieren recursos computacionales considerables, lo que puede limitar su accesibilidad.
- La implementación ineficiente de las capas MoE puede ser útil con fines de investigación, pero para aplicarla en productos o servicios reales habrá que buscar una implementación optimizada.
- Otros proyectos open source con funciones similares incluyen TensorFlow de Google y PyTorch de Facebook, que también pueden usarse para experimentar con modelos a gran escala.
1 comentarios
Comentarios de Hacker News
El modelo 8x86B parece ser el modelo abierto más grande hasta ahora. Sería interesante saber con cuántos tokens se entrenó este modelo.
¿Cuál sería la razón para usar este modelo en lugar de alternativas de código abierto como Mistral?
¿Es este el primer modelo importante que admite FP8 nativo? Parece que sería una gran ventaja cuando el hardware lo soporte, así que me pregunto por qué la gente todavía no lo había hecho.
¿Qué idiomas admite este modelo?
Publicación del blog: Grok-OS
Publicación del blog anunciada el año pasado: Grok
En términos de cantidad de parámetros y mezcla de expertos, ¿cuándo alcanzaremos el límite superior o el punto de rendimientos decrecientes?
¿Hay una model card en algún lado? Quisiera saber con qué se entrenó este modelo.
Matiz importante: Musk dijo "código abierto", pero en cambio obtuvimos "pesos abiertos" (aun así, estoy muy agradecido porque es mejor que no tener nada).
El otro repositorio no es más que un fork de Qdrant.