10 puntos por xguru 2023-03-31 | Aún no hay comentarios. | Compartir por WhatsApp
  • Basado en el modelo LLaMA
    • Recolección de datos supervisados
    • Fine-tuning supervisado
    • Entrenamiento del modelo de recompensa
    • Fine-tuning con aprendizaje por refuerzo
  • Contenido incluido
    • Demo interactiva que se ejecuta en línea
    • Código de entrenamiento RLHF open source completo, incluyendo modelos 7B/13B
    • Dataset bilingüe de 104k en chino/inglés
    • Cuantización de 4-bit del modelo 7B. Solo requiere 4 GB de memoria GPU
    • Incluye pesos del modelo. Se puede reproducir fácilmente en un solo servidor
    • Se seguirán agregando modelos, datasets, optimización y más

Aún no hay comentarios.

Aún no hay comentarios.