- Con la expansión de los modelos de lenguaje grandes (LLM), las tareas y exámenes tradicionales dejaron de medir correctamente la comprensión del aprendizaje, por lo que el profesorado experimentó con la introducción de exámenes orales en tiempo real usando la IA de voz de ElevenLabs
- El examen se componía de dos partes, explicación del proyecto y preguntas sobre casos, en las que el estudiante debía explicar directamente a la IA la base de sus decisiones y su proceso de razonamiento
- Claude, Gemini y ChatGPT calificaron en un esquema de deliberación conjunta para mejorar la consistencia y la calidad de la retroalimentación, y también quedaron en evidencia temas débiles del curso real (diseño experimental)
- Se evaluó a 36 estudiantes durante 9 días, con un promedio de 25 minutos por persona, y el costo por estudiante fue de 0.42 dólares, extremadamente bajo
- Los exámenes orales con IA podrían convertirse en un nuevo modelo de evaluación escalable centrado en la comprensión
Identificación del problema y contexto para introducir exámenes orales
- La calidad de las tareas estudiantiles era anormalmente alta, lo que despertó sospechas de redacción con IA, y al hacer preguntas aleatorias se confirmó que había muchos casos en los que no podían explicarse por sí mismos
- Con la accesibilidad a los LLM, colapsó la confiabilidad de tareas y exámenes tradicionales, y los exámenes orales, capaces de evaluar el razonamiento en tiempo real, surgieron como alternativa
- Sin embargo, los exámenes orales tienen la limitación de ser imposibles de operar a gran escala, por lo que se recurrió a agentes de voz con IA para resolverlo
Configuración del agente de voz basado en ElevenLabs
- Se utilizó ElevenLabs Conversational AI para integrar elementos complejos como reconocimiento y síntesis de voz, y gestión de turnos
- Mediante variables dinámicas se transmitían el nombre del estudiante y la información del proyecto, y con una estructura de workflow se separaron los agentes de autenticación, proyecto y casos
- Agente de autenticación: verificación del ID del estudiante
- Agente de proyecto: preguntas basadas en el material entregado
- Agente de casos: selección aleatoria de un caso y formulación de preguntas
- Al dividirlo en varios agentes pequeños se logró evitar desvíos en la conversación y facilitar la depuración
Operación del examen y resultados numéricos
- Se aplicó a 36 personas durante 9 días, con una duración promedio de 25 minutos (mínimo 9, máximo 64)
- Promedio de 65 intercambios de mensajes, con un costo total de 15 dólares (0.42 por estudiante)
- En los resultados de calificación con LLM, el 89% coincidió dentro de 1 punto, y el examen más corto (9 minutos) obtuvo la puntuación más alta (19/20)
- Frente a la calificación humana, se logró una reducción de costos de más de 50 veces, además de automatizar evaluación, registro y retroalimentación en tiempo real
Tropiezos en la implementación y medidas de mejora
- Retroalimentación estudiantil de que el tono de voz era intimidante → se planean pruebas A/B con distintas voces
- Problema de acumulación de preguntas (stacking) → se añadió la regla de “una pregunta a la vez”
- Cambio de significado al repetir preguntas → se especificó “repetir la oración exactamente”
- Falta de tiempo para pensar → el tiempo de espera se amplió a 10 segundos
- Fallo en la selección aleatoria de casos → se resolvió a nivel de código con mapeo aleatorio
Calificación por deliberación entre LLM (council grading)
- Claude, Gemini y ChatGPT calificaron de forma independiente y luego revisaron y ajustaron mutuamente sus evaluaciones
- La tasa de desacuerdo en la primera ronda era alta, pero tras la segunda deliberación la coincidencia dentro de 1 punto mejoró de 62% a 85%
- Gemini ajustó sus notas a un promedio 2 puntos más bajo, mientras que hubo alta consistencia entre Claude y OpenAI
- En el rubro de diseño experimental fue donde hubo mayor desacuerdo en la calificación, lo que se atribuyó a la ambigüedad de las respuestas estudiantiles
- La calificación con IA fue más estricta pero justa que la humana, y la retroalimentación destacó por ser específica y orientada a la acción
Hallazgos pedagógicos y diagnóstico
- En el análisis de desempeño por tema, diseño experimental fue el más bajo, con un promedio de 1.94/4
- 0 puntos 8%, 1 punto 19%, 2 puntos 42%, 4 puntos 0%
- Se detectó que la causa fue una explicación insuficiente de las pruebas A/B dentro del curso, lo que confirmó la necesidad de mejorar la enseñanza por parte del profesorado
- No hubo correlación entre la duración del examen y la puntuación (r=-0.03), y las respuestas breves y claras se asociaron con notas más altas
Prevención de trampas y transparencia
- Se exigió a los estudiantes webcam y grabación de audio para bloquear ayuda externa
- La estructura del examen y los tipos de preguntas se operaron con lineamientos públicos, eliminando el riesgo de filtración de preguntas
- Los estudiantes podían practicar repetidamente con la misma estructura, reforzando así el aprendizaje real
Reacción de los estudiantes
- Solo el 13% prefirió el examen oral con IA, el 57% prefirió el examen escrito tradicional y el 83% respondió que sintió más estrés
- Sin embargo, el 70% reconoció que evaluaba bien la comprensión real, por lo que la confianza en la evaluación fue alta
- La flexibilidad de presentarlo de forma autónoma en tiempo y lugar fue valorada positivamente
- Solicitudes de mejora: reducir la velocidad, usar una voz más calmada y hacer una sola pregunta por vez
Planes de mejora a futuro
- Ajuste de velocidad y mayor variedad de voces, preguntas con RAG basadas en las entregas del estudiante y distribución de casos con semillas aleatorias explícitas
- Introducción de un disparador de revisión humana cuando haya desacuerdo de calificación entre LLM
- Mayor accesibilidad: modo de práctica, tiempo adicional y medios alternativos
Conclusión: evaluación centrada en la comprensión y escalable con IA
- Las tareas y exámenes escritos quedan debilitados en la era de los LLM, y es necesario pasar a evaluar el razonamiento en tiempo real
- Los exámenes orales con IA miden comprensión, juicio y pensamiento improvisado, y representan una nueva forma de evaluación viable a gran escala
- Permiten reforzar el aprendizaje mediante práctica repetida sin riesgo de filtración de preguntas
- “Fight fire with fire” — una innovación en evaluación que resuelve con IA los problemas creados por la propia IA
1 comentarios
Opiniones en Hacker News
Creo que los datos y las conclusiones presentados en el artículo no coinciden
Los estudiantes siguieron prefiriendo los exámenes escritos incluso después de hablar con la IA
Las universidades han administrado exámenes escritos durante siglos evitando trampas, y aunque después del COVID se introdujo la "rueda cuadrada" de la evaluación en línea, dan ganas de decir que en realidad sería mejor volver a la rueda redonda
Ni siquiera se verificó la precisión de la evaluación del LLM. Al final da la impresión de que primero decidió la conclusión y luego acomodó los datos
Que los exámenes take-home se acabaron es algo obvio, no un resultado del experimento
Hoy en día hacer trampa por cuenta propia se volvió demasiado fácil
Además, la forma de evaluar debería variar según el campo académico, y en áreas nuevas como ciencias de la computación todavía falta madurez en la evaluación
Por último, la preferencia del estudiante no es un criterio para juzgar la calidad del examen
En la práctica, muchas veces hay que explicar el fundamento de las decisiones frente a otras personas
Entiendo que una generación que tuvo menos experiencias presenciales durante la pandemia tenga miedo de hablar, pero este tipo de entrenamiento para superar la ansiedad podría incluso ayudar
Como aumentó la posibilidad de trampa en los exámenes take-home, un examen oral, aunque no sea perfecto, podría ser una mejor alternativa
Antes, todos los exámenes se hacían sin ninguna posibilidad de intervención de IA
Se escribían a mano con pluma y se rendían en un gimnasio vigilado por supervisores
Hacer trampa significaba expulsión y solo se graduaba el 1% de miles de estudiantes
Cuando hoy escucho que hay que cambiar los exámenes para adaptarlos a la IA, me parece una locura. La solución ya existía
Al final es una estructura que solo responsabiliza al estudiante, y el problema era la pereza del profesor y la reutilización de preguntas de examen
La verdadera solución es crear preguntas nuevas cada vez y plantearlas de forma diversa
Más bien creo que sería mejor rendir el examen en computadoras provistas por la escuela con entorno de desarrollo
Si eso es cierto, entonces tiene sentido buscar una forma escalable de examen oral
No hace falta obsesionarse con la escalabilidad
Las universidades tienen dinero, así que el profesor simplemente podría tomar el examen oral personalmente
En los posgrados en Alemania también se toman muchos exámenes orales, y funcionaba bien
Depender de la IA parece un símbolo de flojera
La IA sirve para tareas repetitivas, pero cuesta confiar en ella en situaciones adversariales
Yo también rendí un examen oral en la licenciatura, y el cambio de actitud del profesor era tan fuerte que la tensión era extrema
Dudo que la IA pueda generar esa misma presión emocional
Más bien, a mí me irritan los pequeños errores de la IA
Pero a mí en esas situaciones se me queda la mente en blanco y no puedo decir nada. Es realmente horrible
Antes, en procesos de contratación dábamos una tarea take-home, pero algunos candidatos no podían explicar el código que habían entregado
Ahora que existen los LLM, la tentación de hacer que la IA lo escriba por uno es mucho mayor
Pero nosotros tenemos que evaluar la capacidad de resolver problemas y de comunicarse del candidato
Una entrevista que permite LLM termina convirtiéndose en una “prueba de habilidad para usar IA”
No estoy de acuerdo con el método del artículo, pero la preocupación de fondo sí es real
Quizá el siguiente paso sea que una IA responda por voz en lugar de la IA que contesta por voz
Al final, el ser humano tendría que volver a quedar en el centro
En adelante será aún más sofisticado con lentes inteligentes, micrófonos de conducción ósea, etc.
Al final, los únicos perjudicados serán los estudiantes honestos pero con ansiedad social
Estaría bien ofrecer simulacros voluntarios de examen oral durante el semestre
Así el estudiante se acostumbra al formato y también al tono de voz
Me sorprende que digan que con unas 36 personas sea imposible hacer exámenes orales
Ese aprendizaje repetido sí que es una forma real de aprender
Me reembolsan $25 y aun así no quiero que un LLM me tome el examen de ninguna manera
Si se evalúa solo a una muestra de estudiantes, eso puede generar a la vez motivación o frustración
Aunque sea solo con los estudiantes de mejor nivel, es totalmente posible hacer un examen oral de 10 minutos de conversación
Solo imaginar que una app de voz con IA me interrogue ya me parece espantoso
Si este método se mantiene, tal vez haría falta más bien un modelo educativo sin evaluación
Me resultó fácil decir cosas que jamás habría dicho frente a un ser humano
Yo soy precisamente el autor de esa entrada del blog
Solo probamos algo nuevo en nuestra clase de IA
No estamos intentando eliminar los exámenes escritos, sino agregar el examen oral como otra herramienta
El objetivo era comprobar si, en un proyecto en equipo, el estudiante realmente entendía su propio trabajo
Como era de esperarse, los estudiantes que sacaron baja nota en el examen oral entendían poco el proyecto
Con 36 estudiantes todavía es posible entrevistarlos directamente, pero con más de 100 se vuelve difícil
Sobre todo, había investigaciones que mostraban que la IA ofrece una evaluación consistente porque no se fatiga. Por eso confié en ella
No es distinto de usar un montacargas en el gimnasio
Tal vez en materias simples de nivel MBA podría funcionar, pero en asignaturas que requieren juicio matizado la IA no es justa
Si fuera un examen tan simple de verificación, preferiría más bien un kiosco con preguntas de opción múltiple
En mi época todos los exámenes eran orales
Los exámenes grandes duraban hasta dos días, pero el profesor y los ayudantes organizaban 6 sesiones al año
Una de las razones fue la diferencia en las interpretaciones culturales de la equidad
En entornos con mucha diversidad, los exámenes orales pueden generar controversias por sesgo
Si pudieran calificar con IA por $5 y pasar 20 horas scrolleando en el celular, elegirían eso