o1-preview logra 97 puntos en la prueba de Lengua Coreana del CSAT 2025

ironman0722 · 2024-11-19T18:19:43+09:00

En la prueba de Lengua Coreana del CSAT 2025, O1-Preview registró un resultado sorprendente de 97 puntos Registró un único error en la pregunta 8 (3 puntos), correspondiente a un pasaje de texto no literario Eligió la opción 3, que era incorrecta, debido a un error lógico Si tienen curiosidad sobre el proceso de benchmarking, también escribí un blog donde resumí el proceso experimental y contenido adicional, ¡pueden consultarlo! Resultados de los modelos GPT en el benchmark de LLM para la prueba de Lengua Coreana del CSAT 2025 🥇 1st. o1-Preview: 97 puntos (nivel 1) 🥈 2nd. o1-mini: 78 puntos (nivel 4) 🥉 3rd. gpt-4o: 75 puntos (nivel 4): gpt-4o 4th. gpt-4o-mini: 59 puntos (nivel 5) 5th. gpt-3.5-turbo: 16 puntos (nivel 8) Objetivos del proyecto de leaderboard del benchmark de LLM para el CSAT Compartir información de benchmark para poder comparar el rendimiento humano con el rendimiento de los LLM Un dataset de benchmark cuidadosamente seleccionado por el KICE, la institución evaluadora más autorizada de Corea para medir la competencia en coreano Prevenir data leakage con un nuevo dataset de benchmark de Lengua Coreana del CSAT que se actualiza cada año Lograr que un LLM open source, no dependiente de un país o empresa en particular, alcance el nivel 1 en el CSAT coreano Este proyecto fue realizado por Markr.AI. ¡Este benchmark se llevó a cabo utilizando AutoRAG open source! ¡Se actualizó en el leaderboard un tutorial para hacer benchmark de la prueba de Lengua Coreana del CSAT 2023! ¡Si tienen cualquier duda, no duden en contactarme!

(velog.io)

5 puntos por ironman0722 2024-11-19 | 1 comentarios | Compartir por WhatsApp

En la prueba de Lengua Coreana del CSAT 2025, O1-Preview registró un resultado sorprendente de 97 puntos
- Registró un único error en la pregunta 8 (3 puntos), correspondiente a un pasaje de texto no literario
  - Eligió la opción 3, que era incorrecta, debido a un error lógico
Si tienen curiosidad sobre el proceso de benchmarking, también escribí un blog donde resumí el proceso experimental y contenido adicional, ¡pueden consultarlo!
Resultados de los modelos GPT en el benchmark de LLM para la prueba de Lengua Coreana del CSAT 2025
🥇 1st. o1-Preview: 97 puntos (nivel 1)
🥈 2nd. o1-mini: 78 puntos (nivel 4)
🥉 3rd. gpt-4o: 75 puntos (nivel 4): gpt-4o
4th. gpt-4o-mini: 59 puntos (nivel 5)
5th. gpt-3.5-turbo: 16 puntos (nivel 8)
Objetivos del proyecto de leaderboard del benchmark de LLM para el CSAT
1. Compartir información de benchmark para poder comparar el rendimiento humano con el rendimiento de los LLM
2. Un dataset de benchmark cuidadosamente seleccionado por el KICE, la institución evaluadora más autorizada de Corea para medir la competencia en coreano
3. Prevenir data leakage con un nuevo dataset de benchmark de Lengua Coreana del CSAT que se actualiza cada año
4. Lograr que un LLM open source, no dependiente de un país o empresa en particular, alcance el nivel 1 en el CSAT coreano

Este proyecto fue realizado por Markr.AI.
¡Este benchmark se llevó a cabo utilizando AutoRAG open source!
¡Se actualizó en el leaderboard un tutorial para hacer benchmark de la prueba de Lengua Coreana del CSAT 2023!
¡Si tienen cualquier duda, no duden en contactarme!

1 comentarios

ironman0722 2024-11-22

¡Parece que se cortó el enlace del blog! ¡Lo volveré a publicar en los comentarios!
https://velog.io/@minsing-jin/…

o1-preview logra 97 puntos en la prueba de Lengua Coreana del CSAT 2025

Lecturas relacionadas

1 comentarios