- Basado en el modelo LLaMA
- Recolección de datos supervisados
- Fine-tuning supervisado
- Entrenamiento del modelo de recompensa
- Fine-tuning con aprendizaje por refuerzo
- Contenido incluido
- Demo interactiva que se ejecuta en línea
- Código de entrenamiento RLHF open source completo, incluyendo modelos 7B/13B
- Dataset bilingüe de 104k en chino/inglés
- Cuantización de 4-bit del modelo 7B. Solo requiere 4 GB de memoria GPU
- Incluye pesos del modelo. Se puede reproducir fácilmente en un solo servidor
- Se seguirán agregando modelos, datasets, optimización y más
Aún no hay comentarios.