AI2 Dolma: corpus abierto de 3T tokens para modelos de lenguaje
(blog.allenai.org)- Un conjunto de datos creado por Allen Institute for AI
- Una mezcla de contenido web, publicaciones académicas, código, libros y material enciclopédico
- Con 3 billones (trillion) de tokens, es el conjunto de datos más grande publicado hasta ahora
- Disponible para descarga en el hub de HuggingFace
- Licencia AI2 ImpACT (clasificada en Low/Medium/High según el riesgo del artifact)
Aún no hay comentarios.