7 puntos por xguru 2023-10-19 | Aún no hay comentarios. | Compartir por WhatsApp
  • Dataset de 627M (627 millones) de tablas y 867B (867 mil millones) de tokens para entrenar LLM
    • Incluye tablas extraídas de páginas web, Excel, CSV, SQLite, etc.
    • Datos contextuales enriquecidos como nombres de archivos, URL de origen y texto alrededor de cada tabla
  • Esperan que ayude a construir una mejor comprensión y mejores técnicas para trabajar con datos en formato tabular
  • 650 mil millones de filas y hasta 8 mil millones de columnas
  • La tabla más grande tiene 32 millones de filas
  • La tabla más ancha tiene 3 millones de columnas

Aún no hay comentarios.

Aún no hay comentarios.