16 puntos por xguru 2021-11-10 | 1 comentarios | Compartir por WhatsApp
  • Es cierto que GPT-3 tuvo un gran impacto en el mercado de la IA: un modelo de IA de escala masiva muy fuerte en "text-in text-out"

  • Como era de pago, muchas organizaciones empezaron a crear sus propias versiones de modelos parecidos a GPT-3

→ No era algo fácil por la potencia de cómputo necesaria. OpenAI, con su modelo de 175B parámetros, colaboró con Microsoft y usó 10 mil GPU y 45 TB de datos de texto

→ Si se calcula, entrenar GPT-3 costó alrededor de 10 a 20 mil millones de wones

  • Empezaron a aparecer varios intentos

→ EleutherAI, CPM, PanGu-α, HyperCLOVA, Jurassic-1, Megatron-Turing NLG

  • Sorprendentemente, el primer esfuerzo por crear algo similar a GPT-3 fue "EleutherAI", hecho por participantes de código abierto

→ Publicaron "The Pile", un dataset similar al de GPT-3

→ Después de eso, publicaron desde versiones pequeñas como GPT-Neo 1.3B y 2.7B hasta el reciente GPT-J-6B de 6B parámetros

  • Seis meses después del anuncio de GPT-3, investigadores de la Universidad de Tsinghua en China y BAAI (Academia de IA de Beijing) presentaron CPM (Chinese Pre-trained Language Model)

→ Crearon un modelo de 2.6B parámetros a partir de 100 GB de texto en chino. No llega al nivel de GPT-3, pero llamó la atención por haberse entrenado con texto en chino

  • Poco después, Huawei presentó PanGu-α con 200B parámetros (usando 1.1 TB de texto en chino)

  • Naver presentó HyperCLOVA de 204B parámetros

  • La israelí AI21 Labs presentó Jurassic-1 de 178B

  • NVIDIA y Microsoft presentaron Megatron-Turing NLG, un modelo de 530B parámetros

  • En esencia, se están creando modelos cada vez más grandes y similares a GPT-3, y seguirán creciendo durante varios años

  • La tendencia de necesitar inversiones de miles de millones de dólares para entrenar estos modelos a gran escala probablemente se mantendrá por un tiempo

→ Preocupa que solo las empresas con abundante financiamiento puedan crear este tipo de modelos

  • Es difícil predecir cuánto tiempo seguirá esta tendencia o si habrá descubrimientos importantes más allá de GPT-3

  • Actualmente estamos en medio de este recorrido, y será interesante observar qué sucede en los próximos años

1 comentarios

 
xguru 2021-11-10