Colección de datos de texto para entrenamiento de IA

(the-eye.eu)

15 puntos por xguru 2020-10-26 | 2 comentarios | Compartir por WhatsApp

Materiales similares a los datos que usó GPT-3 de OpenAI

books3.tar.gz : 37GB, extracción en txt de aproximadamente 197,000 libros
github.tar.gz : 106G, recopilación de varios repositorios de GitHub
stackexchange_dataset.tar : 34G, datos de preguntas y respuestas de Stack Exchange

Además, muchos otros materiales diversos

2 comentarios

ffdd270 2020-10-27

Aunque suene un poco fuera de lugar, al ver esos archivos y colecciones para entrenamiento, me doy cuenta una vez más de que en el mundo digital no existe la libertad de ser olvidado.

xguru 2020-10-26

Para ver la explicación de este material, consulta el hilo de Twitter a continuación.

https://threadreaderapp.com/thread/1320282149329784833.html

Colección de datos de texto para entrenamiento de IA

Lecturas relacionadas

2 comentarios