Proyecto open source que busca alcanzar nivel 1 en Lengua del Suneung mediante prompt engineering
(github.com/NomaDamas)- La puntuación de GPT-4 en Lengua del Suneung, que antes estaba en nivel 3 (86 puntos, top 22%), mejoró a nivel 2 (94 puntos, top 5%) mediante prompt engineering basado en CoT.
- Usando prompts especializados para ciertos tipos de preguntas de gramática, se logró incluso alcanzar nivel 1 (96 puntos, top 4%).
- El texto completo de los prompts, el código fuente y el dataset de Lengua del Suneung utilizado se publicaron como open source en GitHub.
- Es un caso que muestra que, aunque se dice que el desempeño de los LLM en coreano todavía es insuficiente, GPT-4 ya ha alcanzado un nivel lingüístico de primer nivel.
Hola. Usando directamente prompts CoT, logré hacer que GPT-4 resolviera muy bien la prueba de Lengua del Suneung.
Todavía no he encontrado un prompt que llegue a top 5% o más, ni a 100 puntos, y por el costo de la API solo pude probar con el Suneung 2023, así que quise publicarlo como open source para pedir la ayuda de muchas personas. ¡Me gustaría que muchas personas probaran libremente nuevos prompts con el código fuente publicado y que ojalá pudieran encontrar técnicas de prompting más avanzadas!
7 comentarios
Qué proyecto tan interesante~
¿Qué tal si, en lugar de abordarlo como una pregunta de opción múltiple de 5 alternativas donde se elige una, lo tratan como un problema de clasificación en el que cada opción se evalúa como True / False?
Si usan CoT para hacer que cada alternativa se juzgue de manera independiente como verdadera o falsa, y luego organizan agentes para que revisen los fundamentos de pensamiento de las 5 opciones antes de tomar la decisión final, pueden obtener resultados de mayor calidad incluso con modelos de menor nivel.
El método que están usando ahora hace que la evaluación empiece desde la opción 1, así que al evaluar las opciones siguientes se van sumando prejuicios sobre las anteriores. Una de las razones por las que GPT-4 es tan impresionante es que, al ser un modelo lo bastante grande, ese tipo de sesgos previos no le afectan tanto; aunque creo haber visto en un paper que incluso eso pierde efectividad a medida que el texto se hace más largo.
(Fue un paper de arXiv no revisado, pero aun así el contenido sonaba bastante plausible).
Claro, el costo del API sería 6 veces mayor, pero personalmente creo que, con un buen prompting, un GPT-3.5 también debería ser más que suficiente para algo como la sección de lengua del CSAT coreano.
Como mencionaste, si evalúas las cinco opciones de manera independiente, también puede pasar que haya dos o más respuestas correctas, o que no haya ninguna. Entonces habría que agregar además un prompt para volver a revisar cada respuesta correcta y su explicación antes de decidir. O también podría usarse un método en el que se pruebe el prompt varias veces para cada una de las cinco opciones y se tome como correcta la que salga elegida con más frecuencia, pero, como dijiste, el costo de la API seguramente se iría inflando como una bola de nieve;; de hecho, incluso con el prompt actual, un solo intento del Suneung ya cuesta entre 4 y 5 dólares T_T
Bienvenido al mundo de la ingeniería, donde también hay que pensar en reducir costos jajaja
El nombre es "Slayer de la Evaluación" jajajaja
Vaya, qué interesante.
Siento que desde
Step by step, el prompt engineering ha estado avanzando muchísimo.(Y me pregunto si llegará a aparecer un LLM de código abierto con un nivel de coreano comparable al de GPT-4....)
Los LLM coreanos de código abierto todavía están muy por debajo incluso de GPT-3.5 :(( Ojalá que los LLM de código abierto lleguen sí o sí al nivel de GPT-4.