- Mejor rendimiento en las respuestas, respuestas más largas y acceso mediante API pública
- Se pueden ingresar hasta 100 mil tokens en el prompt
- Mejor desempeño en programación, matemáticas y razonamiento
- Codex HumamEval (prueba de programación en Python): mejoró de 56% a 71.2%
- GSM8k (conjunto de problemas de matemáticas): 85.2% → 88%
- Bar Exam: 73% → 76.5%
- Se incorporaron diversas tecnologías de seguridad para proteger contra jailbreaks (Constitutional AI, Moral Self-Correction, Red Teaming Language Model)
Aún no hay comentarios.