Eliminado por LLM
(r0bk.github.io)- Se enumeran los benchmarks que quedaron obsoletos por el avance de la IA (ya no se puede medir con modelos más recientes)
- Aún son útiles como benchmark, pero no aportan de manera significativa a la pregunta de si «¿la IA puede hacer X?»
- 2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval
- 2023: GSM8K, Turing Test, ARC (AI2), HellaSwag, MMLU, WinoGrande
- 2022: BIG-Bench
- 2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD
- 2018: SWAG
3 comentarios
¿También desaparece SQuAD?
Me recuerda a “Killed by Google”.
Todavía hay opiniones divididas sobre ciertos benchmarks, pero es interesante. https://news.ycombinator.com/item?id=42606231