5 puntos por GN⁺ 2023-07-19 | 1 comentarios | Compartir por WhatsApp
  • Un modelo de lenguaje grande de código abierto que puede usarse tanto para investigación como para fines comerciales
  • Entrenado con 2 billones de tokens de datos, un 40% más que Llama 1
  • El doble de longitud de contexto: 4096
  • Modelos en tres tamaños: 7B, 13B, 70B
  • Mejor rendimiento que otros modelos de lenguaje de código abierto en muchos benchmarks de razonamiento, programación, competencia y pruebas de conocimiento (MPT, Falcon, Llama-1)
  • Fue entrenado con fuentes de datos públicas, y el Llama-2-chat ajustado también aprovecha conjuntos públicos de instrucciones y más de un millón de anotaciones humanas
    • Uso de Reinforcement Learning from Human Feedback (RLHF). Incluye Rejection Sampling y Proximal Policy Optimization (PPO)
  • Incluye en la descarga
    • Model code
    • Model Weights
    • README (User Guide)
    • Responsible Use Guide
    • License
    • Acceptable Use Policy
    • Model Card

1 comentarios

 
GN⁺ 2023-07-19
Opiniones de Hacker News
  • Llama 2 está alcanzando y superando a GPT-3.5 en ciertos benchmarks
  • Llama 2 muestra un rendimiento sobresaliente en las pruebas AI2 Reasoning Challenge, HellaSwag y MMLU
  • Llama 2 tiene un rendimiento similar a GPT-3.5 con menos parámetros
  • Llama 2 se puede probar fácilmente y agregar a aplicaciones
  • Llama 2 tiene una licencia no abierta que algunos usuarios critican
  • Se puede acceder a Llama 2 a través de diversas herramientas y plataformas
  • Llama 2 cuenta con guardrails que en algunos casos pueden eludirse
  • El lanzamiento de Llama 2 se considera un movimiento positivo y beneficioso para la industria
  • El entrenamiento de Llama 2 con 2T tokens mejoró su rendimiento en comparación con Llama 1
  • La escalabilidad del modelo Llama podría impulsar modelos potentes en GPUs de consumo