- Dataset de 627M (627 millones) de tablas y 867B (867 mil millones) de tokens para entrenar LLM
- Incluye tablas extraídas de páginas web, Excel, CSV, SQLite, etc.
- Datos contextuales enriquecidos como nombres de archivos, URL de origen y texto alrededor de cada tabla
- Esperan que ayude a construir una mejor comprensión y mejores técnicas para trabajar con datos en formato tabular
- 650 mil millones de filas y hasta 8 mil millones de columnas
- La tabla más grande tiene 32 millones de filas
- La tabla más ancha tiene 3 millones de columnas
Aún no hay comentarios.