- En la prueba de Lengua Coreana del CSAT 2025, O1-Preview registró un resultado sorprendente de 97 puntos
- Registró un único error en la pregunta 8 (3 puntos), correspondiente a un pasaje de texto no literario
- Eligió la opción 3, que era incorrecta, debido a un error lógico
- Si tienen curiosidad sobre el proceso de benchmarking, también escribí un blog donde resumí el proceso experimental y contenido adicional, ¡pueden consultarlo!
- Resultados de los modelos GPT en el benchmark de LLM para la prueba de Lengua Coreana del CSAT 2025
🥇 1st. o1-Preview: 97 puntos (nivel 1)
🥈 2nd. o1-mini: 78 puntos (nivel 4)
🥉 3rd. gpt-4o: 75 puntos (nivel 4): gpt-4o
4th. gpt-4o-mini: 59 puntos (nivel 5)
5th. gpt-3.5-turbo: 16 puntos (nivel 8)
- Objetivos del proyecto de leaderboard del benchmark de LLM para el CSAT
- Compartir información de benchmark para poder comparar el rendimiento humano con el rendimiento de los LLM
- Un dataset de benchmark cuidadosamente seleccionado por el KICE, la institución evaluadora más autorizada de Corea para medir la competencia en coreano
- Prevenir data leakage con un nuevo dataset de benchmark de Lengua Coreana del CSAT que se actualiza cada año
- Lograr que un LLM open source, no dependiente de un país o empresa en particular, alcance el nivel 1 en el CSAT coreano
- Este proyecto fue realizado por Markr.AI.
- ¡Este benchmark se llevó a cabo utilizando AutoRAG open source!
- ¡Se actualizó en el leaderboard un tutorial para hacer benchmark de la prueba de Lengua Coreana del CSAT 2023!
- ¡Si tienen cualquier duda, no duden en contactarme!
1 comentarios
¡Parece que se cortó el enlace del blog! ¡Lo volveré a publicar en los comentarios!
https://velog.io/@minsing-jin/…