ChatGPT es un modelo de tamaño 20B
(arxiv.org)En el artículo enviado por Microsoft Research a EMNLP 2023, "CodeFusion: A Pre-trained Diffusion Model for Code Generation", se reveló que la cantidad de parámetros de ChatGPT (gpt-3.5-turbo) es de 20B.
- T5 (
t5-large): 770M - CodeT5 (
codet5-large): 770M - GPT3 (
text-davinci-003): 175B - ChatGPT (
gpt-turbo-3.5): 20B
5 comentarios
¿Ese tamaño tiene sentido? Por lo que escuché de gente que trabaja en IA, estaban horrorizados...
All you need is 4090
¿Originalmente tampoco se había revelado el tamaño de parámetros de GPT-3.5?
Yo simplemente pensaba que era GPT-3 de 175B con RLHF, pero parece que no era así..
https://arxiv.org/abs/2310.17680v1 La v1 todavía se puede ver, al parecer
"There are some errors in the paper and we need to retract it", según dicen
No sé dónde está el error, pero si solo algunos números están mal, probablemente solo hicieron una simple revisión... entonces, ¿es más probable que 20B sea correcto?