GPT-3 ya no está solo en el mercado
(lastweekin.ai)-
Es cierto que GPT-3 tuvo un gran impacto en el mercado de la IA: un modelo de IA de escala masiva muy fuerte en "text-in text-out"
-
Como era de pago, muchas organizaciones empezaron a crear sus propias versiones de modelos parecidos a GPT-3
→ No era algo fácil por la potencia de cómputo necesaria. OpenAI, con su modelo de 175B parámetros, colaboró con Microsoft y usó 10 mil GPU y 45 TB de datos de texto
→ Si se calcula, entrenar GPT-3 costó alrededor de 10 a 20 mil millones de wones
- Empezaron a aparecer varios intentos
→ EleutherAI, CPM, PanGu-α, HyperCLOVA, Jurassic-1, Megatron-Turing NLG
- Sorprendentemente, el primer esfuerzo por crear algo similar a GPT-3 fue "EleutherAI", hecho por participantes de código abierto
→ Publicaron "The Pile", un dataset similar al de GPT-3
→ Después de eso, publicaron desde versiones pequeñas como GPT-Neo 1.3B y 2.7B hasta el reciente GPT-J-6B de 6B parámetros
- Seis meses después del anuncio de GPT-3, investigadores de la Universidad de Tsinghua en China y BAAI (Academia de IA de Beijing) presentaron CPM (Chinese Pre-trained Language Model)
→ Crearon un modelo de 2.6B parámetros a partir de 100 GB de texto en chino. No llega al nivel de GPT-3, pero llamó la atención por haberse entrenado con texto en chino
-
Poco después, Huawei presentó PanGu-α con 200B parámetros (usando 1.1 TB de texto en chino)
-
Naver presentó HyperCLOVA de 204B parámetros
-
La israelí AI21 Labs presentó Jurassic-1 de 178B
-
NVIDIA y Microsoft presentaron Megatron-Turing NLG, un modelo de 530B parámetros
-
En esencia, se están creando modelos cada vez más grandes y similares a GPT-3, y seguirán creciendo durante varios años
-
La tendencia de necesitar inversiones de miles de millones de dólares para entrenar estos modelos a gran escala probablemente se mantendrá por un tiempo
→ Preocupa que solo las empresas con abundante financiamiento puedan crear este tipo de modelos
-
Es difícil predecir cuánto tiempo seguirá esta tendencia o si habrá descubrimientos importantes más allá de GPT-3
-
Actualmente estamos en medio de este recorrido, y será interesante observar qué sucede en los próximos años
1 comentarios
GPT-Neo: un proyecto para hacer de código abierto y gratuito un modelo del tamaño de GPT-3 https://es.news.hada.io/topic?id=3599
MS y Nvidia anunciaron MT-NLG 530B, el modelo de lenguaje más grande del mundo https://es.news.hada.io/topic?id=5187