15 puntos por xguru 2020-10-26 | 2 comentarios | Compartir por WhatsApp

Materiales similares a los datos que usó GPT-3 de OpenAI

  • books3.tar.gz : 37GB, extracción en txt de aproximadamente 197,000 libros

  • github.tar.gz : 106G, recopilación de varios repositorios de GitHub

  • stackexchange_dataset.tar : 34G, datos de preguntas y respuestas de Stack Exchange

Además, muchos otros materiales diversos

2 comentarios

 
ffdd270 2020-10-27

Aunque suene un poco fuera de lugar, al ver esos archivos y colecciones para entrenamiento, me doy cuenta una vez más de que en el mundo digital no existe la libertad de ser olvidado.

 
xguru 2020-10-26

Para ver la explicación de este material, consulta el hilo de Twitter a continuación.

https://threadreaderapp.com/thread/1320282149329784833.html