GPT-3 ya no está solo en el mercado

xguru · 2021-11-10T09:07:01+09:00

Es cierto que GPT-3 tuvo un gran impacto en el mercado de la IA: un modelo de IA de escala masiva muy fuerte en "text-in text-out" Como era de pago, muchas organizaciones empezaron a crear sus propias versiones de modelos parecidos a GPT-3 → No era algo fácil por la potencia de cómputo necesaria. OpenAI, con su modelo de 175B parámetros, colaboró con Microsoft y usó 10 mil GPU y 45 TB de datos de texto → Si se calcula, entrenar GPT-3 costó alrededor de 10 a 20 mil millones de wones Empezaron a aparecer varios intentos → EleutherAI, CPM, PanGu-α, HyperCLOVA, Jurassic-1, Megatron-Turing NLG Sorprendentemente, el primer esfuerzo por crear algo similar a GPT-3 fue "EleutherAI", hecho por participantes de código abierto → Publicaron "The Pile", un dataset similar al de GPT-3 → Después de eso, publicaron desde versiones pequeñas como GPT-Neo 1.3B y 2.7B hasta el reciente GPT-J-6B de 6B parámetros Seis meses después del anuncio de GPT-3, investigadores de la Universidad de Tsinghua en China y BAAI (Academia de IA de Beijing) presentaron CPM (Chinese Pre-trained Language Model) → Crearon un modelo de 2.6B parámetros a partir de 100 GB de texto en chino. No llega al nivel de GPT-3, pero llamó la atención por haberse entrenado con texto en chino Poco después, Huawei presentó PanGu-α con 200B parámetros (usando 1.1 TB de texto en chino) Naver presentó HyperCLOVA de 204B parámetros La israelí AI21 Labs presentó Jurassic-1 de 178B NVIDIA y Microsoft presentaron Megatron-Turing NLG, un modelo de 530B parámetros En esencia, se están creando modelos cada vez más grandes y similares a GPT-3, y seguirán creciendo durante varios años La tendencia de necesitar inversiones de miles de millones de dólares para entrenar estos modelos a gran escala probablemente se mantendrá por un tiempo → Preocupa que solo las empresas con abundante financiamiento puedan crear este tipo de modelos Es difícil predecir cuánto tiempo seguirá esta tendencia o si habrá descubrimientos importantes más allá de GPT-3 Actualmente estamos en medio de este recorrido, y será interesante observar qué sucede en los próximos años

(lastweekin.ai)

16 puntos por xguru 2021-11-10 | 1 comentarios | Compartir por WhatsApp

Es cierto que GPT-3 tuvo un gran impacto en el mercado de la IA: un modelo de IA de escala masiva muy fuerte en "text-in text-out"
Como era de pago, muchas organizaciones empezaron a crear sus propias versiones de modelos parecidos a GPT-3

→ No era algo fácil por la potencia de cómputo necesaria. OpenAI, con su modelo de 175B parámetros, colaboró con Microsoft y usó 10 mil GPU y 45 TB de datos de texto

→ Si se calcula, entrenar GPT-3 costó alrededor de 10 a 20 mil millones de wones

Empezaron a aparecer varios intentos

→ EleutherAI, CPM, PanGu-α, HyperCLOVA, Jurassic-1, Megatron-Turing NLG

Sorprendentemente, el primer esfuerzo por crear algo similar a GPT-3 fue "EleutherAI", hecho por participantes de código abierto

→ Publicaron "The Pile", un dataset similar al de GPT-3

→ Después de eso, publicaron desde versiones pequeñas como GPT-Neo 1.3B y 2.7B hasta el reciente GPT-J-6B de 6B parámetros

Seis meses después del anuncio de GPT-3, investigadores de la Universidad de Tsinghua en China y BAAI (Academia de IA de Beijing) presentaron CPM (Chinese Pre-trained Language Model)

→ Crearon un modelo de 2.6B parámetros a partir de 100 GB de texto en chino. No llega al nivel de GPT-3, pero llamó la atención por haberse entrenado con texto en chino

Poco después, Huawei presentó PanGu-α con 200B parámetros (usando 1.1 TB de texto en chino)
Naver presentó HyperCLOVA de 204B parámetros
La israelí AI21 Labs presentó Jurassic-1 de 178B
NVIDIA y Microsoft presentaron Megatron-Turing NLG, un modelo de 530B parámetros
En esencia, se están creando modelos cada vez más grandes y similares a GPT-3, y seguirán creciendo durante varios años
La tendencia de necesitar inversiones de miles de millones de dólares para entrenar estos modelos a gran escala probablemente se mantendrá por un tiempo

→ Preocupa que solo las empresas con abundante financiamiento puedan crear este tipo de modelos

Es difícil predecir cuánto tiempo seguirá esta tendencia o si habrá descubrimientos importantes más allá de GPT-3
Actualmente estamos en medio de este recorrido, y será interesante observar qué sucede en los próximos años

1 comentarios

xguru 2021-11-10

GPT-Neo: un proyecto para hacer de código abierto y gratuito un modelo del tamaño de GPT-3 https://es.news.hada.io/topic?id=3599
MS y Nvidia anunciaron MT-NLG 530B, el modelo de lenguaje más grande del mundo https://es.news.hada.io/topic?id=5187

GPT-3 ya no está solo en el mercado

Lecturas relacionadas

1 comentarios