Colección de datos de texto para entrenamiento de IA
(the-eye.eu)Materiales similares a los datos que usó GPT-3 de OpenAI
-
books3.tar.gz : 37GB, extracción en txt de aproximadamente 197,000 libros
-
github.tar.gz : 106G, recopilación de varios repositorios de GitHub
-
stackexchange_dataset.tar : 34G, datos de preguntas y respuestas de Stack Exchange
Además, muchos otros materiales diversos
2 comentarios
Aunque suene un poco fuera de lugar, al ver esos archivos y colecciones para entrenamiento, me doy cuenta una vez más de que en el mundo digital no existe la libertad de ser olvidado.
Para ver la explicación de este material, consulta el hilo de Twitter a continuación.
https://threadreaderapp.com/thread/1320282149329784833.html