5 puntos por ironman0722 2024-11-19 | 1 comentarios | Compartir por WhatsApp
  • En la prueba de Lengua Coreana del CSAT 2025, O1-Preview registró un resultado sorprendente de 97 puntos
    • Registró un único error en la pregunta 8 (3 puntos), correspondiente a un pasaje de texto no literario
      • Eligió la opción 3, que era incorrecta, debido a un error lógico
  • Si tienen curiosidad sobre el proceso de benchmarking, también escribí un blog donde resumí el proceso experimental y contenido adicional, ¡pueden consultarlo!
  • Resultados de los modelos GPT en el benchmark de LLM para la prueba de Lengua Coreana del CSAT 2025
    🥇 1st. o1-Preview: 97 puntos (nivel 1)
    🥈 2nd. o1-mini: 78 puntos (nivel 4)
    🥉 3rd. gpt-4o: 75 puntos (nivel 4): gpt-4o
    4th. gpt-4o-mini: 59 puntos (nivel 5)
    5th. gpt-3.5-turbo: 16 puntos (nivel 8)
  • Objetivos del proyecto de leaderboard del benchmark de LLM para el CSAT
    1. Compartir información de benchmark para poder comparar el rendimiento humano con el rendimiento de los LLM
    2. Un dataset de benchmark cuidadosamente seleccionado por el KICE, la institución evaluadora más autorizada de Corea para medir la competencia en coreano
    3. Prevenir data leakage con un nuevo dataset de benchmark de Lengua Coreana del CSAT que se actualiza cada año
    4. Lograr que un LLM open source, no dependiente de un país o empresa en particular, alcance el nivel 1 en el CSAT coreano

  • Este proyecto fue realizado por Markr.AI.
  • ¡Este benchmark se llevó a cabo utilizando AutoRAG open source!
  • ¡Se actualizó en el leaderboard un tutorial para hacer benchmark de la prueba de Lengua Coreana del CSAT 2023!
  • ¡Si tienen cualquier duda, no duden en contactarme!

1 comentarios

 
ironman0722 2024-11-22

¡Parece que se cortó el enlace del blog! ¡Lo volveré a publicar en los comentarios!
https://velog.io/@minsing-jin/…