Meta presenta Llama 2, su modelo de lenguaje de próxima generación

(ai.meta.com)

5 puntos por GN⁺ 2023-07-19 | 1 comentarios | Compartir por WhatsApp

Un modelo de lenguaje grande de código abierto que puede usarse tanto para investigación como para fines comerciales
Entrenado con 2 billones de tokens de datos, un 40% más que Llama 1
El doble de longitud de contexto: 4096
Modelos en tres tamaños: 7B, 13B, 70B
Mejor rendimiento que otros modelos de lenguaje de código abierto en muchos benchmarks de razonamiento, programación, competencia y pruebas de conocimiento (MPT, Falcon, Llama-1)
Fue entrenado con fuentes de datos públicas, y el Llama-2-chat ajustado también aprovecha conjuntos públicos de instrucciones y más de un millón de anotaciones humanas
- Uso de Reinforcement Learning from Human Feedback (RLHF). Incluye Rejection Sampling y Proximal Policy Optimization (PPO)
Incluye en la descarga
- Model code
- Model Weights
- README (User Guide)
- Responsible Use Guide
- License
- Acceptable Use Policy
- Model Card

1 comentarios

GN⁺ 2023-07-19

Llama 2 está alcanzando y superando a GPT-3.5 en ciertos benchmarks
Llama 2 muestra un rendimiento sobresaliente en las pruebas AI2 Reasoning Challenge, HellaSwag y MMLU
Llama 2 tiene un rendimiento similar a GPT-3.5 con menos parámetros
Llama 2 se puede probar fácilmente y agregar a aplicaciones
Llama 2 tiene una licencia no abierta que algunos usuarios critican
Se puede acceder a Llama 2 a través de diversas herramientas y plataformas
Llama 2 cuenta con guardrails que en algunos casos pueden eludirse
El lanzamiento de Llama 2 se considera un movimiento positivo y beneficioso para la industria
El entrenamiento de Llama 2 con 2T tokens mejoró su rendimiento en comparación con Llama 1
La escalabilidad del modelo Llama podría impulsar modelos potentes en GPUs de consumo