7 puntos por xguru 2025-01-08 | 3 comentarios | Compartir por WhatsApp
  • Se enumeran los benchmarks que quedaron obsoletos por el avance de la IA (ya no se puede medir con modelos más recientes)
    • Aún son útiles como benchmark, pero no aportan de manera significativa a la pregunta de si «¿la IA puede hacer X?»
  • 2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval
  • 2023: GSM8K, Turing Test, ARC (AI2), HellaSwag, MMLU, WinoGrande
  • 2022: BIG-Bench
  • 2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD
  • 2018: SWAG

3 comentarios

 
kandk 2025-01-08

¿También desaparece SQuAD?

 
nutella 2025-01-08

Me recuerda a “Killed by Google”.

 
xguru 2025-01-08

Todavía hay opiniones divididas sobre ciertos benchmarks, pero es interesante. https://news.ycombinator.com/item?id=42606231