6 puntos por GN⁺ 2024-03-18 | 1 comentarios | Compartir por WhatsApp
  • Lanzamiento de los pesos y la arquitectura de un modelo Mixture-of-Experts de 314B (314 mil millones) de parámetros
  • Modelo base sin procesar de la fase de preentrenamiento de Grok-1, finalizada en octubre de 2023
    • Esto significa que el modelo no fue ajustado finamente para tareas específicas como conversación
  • Detalles del modelo
    • Modelo base entrenado con grandes volúmenes de datos de texto sin ajuste fino para tareas específicas
    • Modelo Mixture of Experts de 314B parámetros con 25% de los pesos activados para un token dado
    • Entrenado desde cero por xAI en octubre de 2023 usando un stack de entrenamiento personalizado sobre JAX y Rust

Cómo usar el repositorio de Grok-1

  • El repositorio de Grok-1, que incluye código de ejemplo en JAX, se usa para cargar y ejecutar el modelo open-weight Grok-1.
  • Descarga el checkpoint y coloca el directorio ckpt-0 dentro del directorio checkpoint; luego ejecuta pip install -r requirements.txt y python run.py para probar el código.
  • El script carga el checkpoint y genera muestras del modelo para entradas de prueba.
  • Debido a que el modelo es extremadamente grande (314B parámetros), se necesita una máquina con suficiente memoria GPU.
  • La implementación de las capas MoE (Mixture of Experts) en este repositorio no es eficiente y se eligió así para evitar kernels personalizados al validar la exactitud del modelo.

Descarga de pesos

  • Puedes descargar los pesos usando un cliente torrent y el siguiente enlace: magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

Licencia

  • El código incluido en esta publicación y los pesos de Grok-1 están licenciados bajo Apache 2.0.
  • La licencia solo aplica a los archivos fuente de este repositorio y a los pesos del modelo Grok-1.

Opinión de GN⁺

  • Grok-1 es un modelo con una enorme cantidad de parámetros, y ofrece una buena oportunidad para que investigadores e ingenieros de machine learning experimenten usando recursos de cómputo de alto rendimiento.
  • Al usar la licencia open source Apache 2.0, la comunidad puede usar, modificar y distribuir libremente el modelo, lo que puede impulsar la colaboración y la innovación.
  • Debido al enorme tamaño del modelo, para experimentar realmente con él se requieren recursos computacionales considerables, lo que puede limitar su accesibilidad.
  • La implementación ineficiente de las capas MoE puede ser útil con fines de investigación, pero para aplicarla en productos o servicios reales habrá que buscar una implementación optimizada.
  • Otros proyectos open source con funciones similares incluyen TensorFlow de Google y PyTorch de Facebook, que también pueden usarse para experimentar con modelos a gran escala.

1 comentarios

 
GN⁺ 2024-03-18
Comentarios de Hacker News
  • El modelo 8x86B parece ser el modelo abierto más grande hasta ahora. Sería interesante saber con cuántos tokens se entrenó este modelo.

    • Es un modelo base entrenado con grandes volúmenes de datos de texto y no fue ajustado finamente para tareas específicas.
    • Se presume que la versión mostrada previamente en Twitter es un modelo ajustado por instrucciones que se comporta de forma distinta a los pesos sin procesar.
  • ¿Cuál sería la razón para usar este modelo en lugar de alternativas de código abierto como Mistral?

  • ¿Es este el primer modelo importante que admite FP8 nativo? Parece que sería una gran ventaja cuando el hardware lo soporte, así que me pregunto por qué la gente todavía no lo había hecho.

  • ¿Qué idiomas admite este modelo?

  • Publicación del blog: Grok-OS

    • De 314B parámetros, 86B están activos.
    • De una mezcla de 8 expertos, 2 están activos.
    • Los pesos y la arquitectura están bajo la licencia Apache 2.0.
  • Publicación del blog anunciada el año pasado: Grok

    • Incluye benchmarks comparados con Claude 2, GPT-3.5 y GPT-4.
    • Tiene capacidades similares a GPT-3.5, Mixtral y Qwen-1.5-72B, pero es mucho más grande que los modelos de pesos abiertos.
  • En términos de cantidad de parámetros y mezcla de expertos, ¿cuándo alcanzaremos el límite superior o el punto de rendimientos decrecientes?

  • ¿Hay una model card en algún lado? Quisiera saber con qué se entrenó este modelo.

  • Matiz importante: Musk dijo "código abierto", pero en cambio obtuvimos "pesos abiertos" (aun así, estoy muy agradecido porque es mejor que no tener nada).

  • El otro repositorio no es más que un fork de Qdrant.