Eliminado por LLM

xguru · 2025-01-08T09:33:01+09:00

Se enumeran los benchmarks que quedaron obsoletos por el avance de la IA (ya no se puede medir con modelos más recientes) Aún son útiles como benchmark, pero no aportan de manera significativa a la pregunta de si «¿la IA puede hacer X?» 2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval 2023: GSM8K, Turing Test, ARC (AI2), HellaSwag, MMLU, WinoGrande 2022: BIG-Bench 2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD 2018: SWAG

(r0bk.github.io)

7 puntos por xguru 2025-01-08 | 3 comentarios | Compartir por WhatsApp

Se enumeran los benchmarks que quedaron obsoletos por el avance de la IA (ya no se puede medir con modelos más recientes)
- Aún son útiles como benchmark, pero no aportan de manera significativa a la pregunta de si «¿la IA puede hacer X?»
2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval
2023: GSM8K, Turing Test, ARC (AI2), HellaSwag, MMLU, WinoGrande
2022: BIG-Bench
2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD
2018: SWAG

3 comentarios

kandk 2025-01-08

¿También desaparece SQuAD?

nutella 2025-01-08

Me recuerda a “Killed by Google”.

xguru 2025-01-08

Todavía hay opiniones divididas sobre ciertos benchmarks, pero es interesante. https://news.ycombinator.com/item?id=42606231

Eliminado por LLM

Lecturas relacionadas

3 comentarios