Combatir fuego con fuego: ampliar los exámenes orales con agentes de voz con IA

(behind-the-enemy-lines.com)

2 puntos por GN⁺ 2026-01-05 | 1 comentarios | Compartir por WhatsApp

Con la expansión de los modelos de lenguaje grandes (LLM), las tareas y exámenes tradicionales dejaron de medir correctamente la comprensión del aprendizaje, por lo que el profesorado experimentó con la introducción de exámenes orales en tiempo real usando la IA de voz de ElevenLabs
El examen se componía de dos partes, explicación del proyecto y preguntas sobre casos, en las que el estudiante debía explicar directamente a la IA la base de sus decisiones y su proceso de razonamiento
Claude, Gemini y ChatGPT calificaron en un esquema de deliberación conjunta para mejorar la consistencia y la calidad de la retroalimentación, y también quedaron en evidencia temas débiles del curso real (diseño experimental)
Se evaluó a 36 estudiantes durante 9 días, con un promedio de 25 minutos por persona, y el costo por estudiante fue de 0.42 dólares, extremadamente bajo
Los exámenes orales con IA podrían convertirse en un nuevo modelo de evaluación escalable centrado en la comprensión

Identificación del problema y contexto para introducir exámenes orales

La calidad de las tareas estudiantiles era anormalmente alta, lo que despertó sospechas de redacción con IA, y al hacer preguntas aleatorias se confirmó que había muchos casos en los que no podían explicarse por sí mismos
Con la accesibilidad a los LLM, colapsó la confiabilidad de tareas y exámenes tradicionales, y los exámenes orales, capaces de evaluar el razonamiento en tiempo real, surgieron como alternativa
Sin embargo, los exámenes orales tienen la limitación de ser imposibles de operar a gran escala, por lo que se recurrió a agentes de voz con IA para resolverlo

Configuración del agente de voz basado en ElevenLabs

Se utilizó ElevenLabs Conversational AI para integrar elementos complejos como reconocimiento y síntesis de voz, y gestión de turnos
Mediante variables dinámicas se transmitían el nombre del estudiante y la información del proyecto, y con una estructura de workflow se separaron los agentes de autenticación, proyecto y casos
- Agente de autenticación: verificación del ID del estudiante
- Agente de proyecto: preguntas basadas en el material entregado
- Agente de casos: selección aleatoria de un caso y formulación de preguntas
Al dividirlo en varios agentes pequeños se logró evitar desvíos en la conversación y facilitar la depuración

Operación del examen y resultados numéricos

Se aplicó a 36 personas durante 9 días, con una duración promedio de 25 minutos (mínimo 9, máximo 64)
Promedio de 65 intercambios de mensajes, con un costo total de 15 dólares (0.42 por estudiante)
En los resultados de calificación con LLM, el 89% coincidió dentro de 1 punto, y el examen más corto (9 minutos) obtuvo la puntuación más alta (19/20)
Frente a la calificación humana, se logró una reducción de costos de más de 50 veces, además de automatizar evaluación, registro y retroalimentación en tiempo real

Tropiezos en la implementación y medidas de mejora

Retroalimentación estudiantil de que el tono de voz era intimidante → se planean pruebas A/B con distintas voces
Problema de acumulación de preguntas (stacking) → se añadió la regla de “una pregunta a la vez”
Cambio de significado al repetir preguntas → se especificó “repetir la oración exactamente”
Falta de tiempo para pensar → el tiempo de espera se amplió a 10 segundos
Fallo en la selección aleatoria de casos → se resolvió a nivel de código con mapeo aleatorio

Calificación por deliberación entre LLM (council grading)

Claude, Gemini y ChatGPT calificaron de forma independiente y luego revisaron y ajustaron mutuamente sus evaluaciones
La tasa de desacuerdo en la primera ronda era alta, pero tras la segunda deliberación la coincidencia dentro de 1 punto mejoró de 62% a 85%
Gemini ajustó sus notas a un promedio 2 puntos más bajo, mientras que hubo alta consistencia entre Claude y OpenAI
En el rubro de diseño experimental fue donde hubo mayor desacuerdo en la calificación, lo que se atribuyó a la ambigüedad de las respuestas estudiantiles
La calificación con IA fue más estricta pero justa que la humana, y la retroalimentación destacó por ser específica y orientada a la acción

Hallazgos pedagógicos y diagnóstico

En el análisis de desempeño por tema, diseño experimental fue el más bajo, con un promedio de 1.94/4
- 0 puntos 8%, 1 punto 19%, 2 puntos 42%, 4 puntos 0%
Se detectó que la causa fue una explicación insuficiente de las pruebas A/B dentro del curso, lo que confirmó la necesidad de mejorar la enseñanza por parte del profesorado
No hubo correlación entre la duración del examen y la puntuación (r=-0.03), y las respuestas breves y claras se asociaron con notas más altas

Prevención de trampas y transparencia

Se exigió a los estudiantes webcam y grabación de audio para bloquear ayuda externa
La estructura del examen y los tipos de preguntas se operaron con lineamientos públicos, eliminando el riesgo de filtración de preguntas
Los estudiantes podían practicar repetidamente con la misma estructura, reforzando así el aprendizaje real

Reacción de los estudiantes

Solo el 13% prefirió el examen oral con IA, el 57% prefirió el examen escrito tradicional y el 83% respondió que sintió más estrés
Sin embargo, el 70% reconoció que evaluaba bien la comprensión real, por lo que la confianza en la evaluación fue alta
La flexibilidad de presentarlo de forma autónoma en tiempo y lugar fue valorada positivamente
Solicitudes de mejora: reducir la velocidad, usar una voz más calmada y hacer una sola pregunta por vez

Planes de mejora a futuro

Ajuste de velocidad y mayor variedad de voces, preguntas con RAG basadas en las entregas del estudiante y distribución de casos con semillas aleatorias explícitas
Introducción de un disparador de revisión humana cuando haya desacuerdo de calificación entre LLM
Mayor accesibilidad: modo de práctica, tiempo adicional y medios alternativos

Conclusión: evaluación centrada en la comprensión y escalable con IA

Las tareas y exámenes escritos quedan debilitados en la era de los LLM, y es necesario pasar a evaluar el razonamiento en tiempo real
Los exámenes orales con IA miden comprensión, juicio y pensamiento improvisado, y representan una nueva forma de evaluación viable a gran escala
Permiten reforzar el aprendizaje mediante práctica repetida sin riesgo de filtración de preguntas
“Fight fire with fire” — una innovación en evaluación que resuelve con IA los problemas creados por la propia IA

1 comentarios

GN⁺ 2026-01-05

Opiniones en Hacker News

Creo que los datos y las conclusiones presentados en el artículo no coinciden
Los estudiantes siguieron prefiriendo los exámenes escritos incluso después de hablar con la IA
Las universidades han administrado exámenes escritos durante siglos evitando trampas, y aunque después del COVID se introdujo la "rueda cuadrada" de la evaluación en línea, dan ganas de decir que en realidad sería mejor volver a la rueda redonda
- Sorprende que, aunque los resultados del experimento claramente no fueron buenos, el autor lo presente como un “gran éxito”
  Ni siquiera se verificó la precisión de la evaluación del LLM. Al final da la impresión de que primero decidió la conclusión y luego acomodó los datos
- La frase citada no es una conclusión, sino solo una afirmación
  Que los exámenes take-home se acabaron es algo obvio, no un resultado del experimento
  Hoy en día hacer trampa por cuenta propia se volvió demasiado fácil
  Además, la forma de evaluar debería variar según el campo académico, y en áreas nuevas como ciencias de la computación todavía falta madurez en la evaluación
  Por último, la preferencia del estudiante no es un criterio para juzgar la calidad del examen
- Que los estudiantes prefieran exámenes escritos no significa que eso sea lo mejor
  En la práctica, muchas veces hay que explicar el fundamento de las decisiones frente a otras personas
  Entiendo que una generación que tuvo menos experiencias presenciales durante la pandemia tenga miedo de hablar, pero este tipo de entrenamiento para superar la ansiedad podría incluso ayudar
- En las clases en línea los exámenes escritos son difíciles
  Como aumentó la posibilidad de trampa en los exámenes take-home, un examen oral, aunque no sea perfecto, podría ser una mejor alternativa
- La carrera entre trampas y vigilancia entre estudiantes y profesores lleva siglos existiendo
Antes, todos los exámenes se hacían sin ninguna posibilidad de intervención de IA
Se escribían a mano con pluma y se rendían en un gimnasio vigilado por supervisores
Hacer trampa significaba expulsión y solo se graduaba el 1% de miles de estudiantes
Cuando hoy escucho que hay que cambiar los exámenes para adaptarlos a la IA, me parece una locura. La solución ya existía
- No hay nada de qué presumir en un sistema donde el 99% de los estudiantes reprueba
  Al final es una estructura que solo responsabiliza al estudiante, y el problema era la pereza del profesor y la reutilización de preguntas de examen
  La verdadera solución es crear preguntas nuevas cada vez y plantearlas de forma diversa
- Dudo que hacer que los estudiantes escriban código C++ a mano sea realmente la mejor forma de evaluar
  Más bien creo que sería mejor rendir el examen en computadoras provistas por la escuela con entorno de desarrollo
- También hay quien sostiene que los exámenes orales son mejores para diagnosticar la comprensión
  Si eso es cierto, entonces tiene sentido buscar una forma escalable de examen oral
- Ese 99% de reprobación cuesta creerlo. Una universidad así debería cerrar
No hace falta obsesionarse con la escalabilidad
Las universidades tienen dinero, así que el profesor simplemente podría tomar el examen oral personalmente
En los posgrados en Alemania también se toman muchos exámenes orales, y funcionaba bien
- En Europa son comunes los exámenes orales, como la Matura o la defensa de tesis doctoral
  Depender de la IA parece un símbolo de flojera
  La IA sirve para tareas repetitivas, pero cuesta confiar en ella en situaciones adversariales
Yo también rendí un examen oral en la licenciatura, y el cambio de actitud del profesor era tan fuerte que la tensión era extrema
Dudo que la IA pueda generar esa misma presión emocional
Más bien, a mí me irritan los pequeños errores de la IA
- En Italia, todos los exámenes incluyen una parte oral desde primaria hasta la universidad
  Pero a mí en esas situaciones se me queda la mente en blanco y no puedo decir nada. Es realmente horrible
Antes, en procesos de contratación dábamos una tarea take-home, pero algunos candidatos no podían explicar el código que habían entregado
Ahora que existen los LLM, la tentación de hacer que la IA lo escriba por uno es mucho mayor
Pero nosotros tenemos que evaluar la capacidad de resolver problemas y de comunicarse del candidato
Una entrevista que permite LLM termina convirtiéndose en una “prueba de habilidad para usar IA”
No estoy de acuerdo con el método del artículo, pero la preocupación de fondo sí es real
- La expresión “synthetic pronouns” resulta interesante
Quizá el siguiente paso sea que una IA responda por voz en lugar de la IA que contesta por voz
Al final, el ser humano tendría que volver a quedar en el centro
- Ya con un teleprompter alcanza para engañar
  En adelante será aún más sofisticado con lentes inteligentes, micrófonos de conducción ósea, etc.
  Al final, los únicos perjudicados serán los estudiantes honestos pero con ansiedad social
- Si el espacio de examen se llenara de decenas de cabinas telefónicas, me parecería todavía más terrible que los cubículos de oficina
Estaría bien ofrecer simulacros voluntarios de examen oral durante el semestre
Así el estudiante se acostumbra al formato y también al tono de voz
Me sorprende que digan que con unas 36 personas sea imposible hacer exámenes orales
- Como se menciona al final del artículo, si la IA genera preguntas nuevas cada vez, se puede practicar sin preocuparse por filtraciones
  Ese aprendizaje repetido sí que es una forma real de aprender
- Si un ayudante gana $25 por hora, el examen oral es perfectamente viable
  Me reembolsan $25 y aun así no quiero que un LLM me tome el examen de ninguna manera
- En la Charles University de Praga también se tomaban exámenes orales con más de 200 estudiantes
- Depende de la profundidad y la frecuencia del examen oral
  Si se evalúa solo a una muestra de estudiantes, eso puede generar a la vez motivación o frustración
- Al final, es la idea de reemplazar el examen por un chatbot para ahorrar dinero
  Aunque sea solo con los estudiantes de mejor nivel, es totalmente posible hacer un examen oral de 10 minutos de conversación
Solo imaginar que una app de voz con IA me interrogue ya me parece espantoso
Si este método se mantiene, tal vez haría falta más bien un modelo educativo sin evaluación
- Al final, volver a los exámenes manuscritos podría ser la solución más realista
- Yo también tuve hace poco una entrevista con IA, y no sentí culpa por mentirle a la IA
  Me resultó fácil decir cosas que jamás habría dicho frente a un ser humano
- Si los exámenes desaparecen por completo, no se mantiene la motivación para aprender
Yo soy precisamente el autor de esa entrada del blog
Solo probamos algo nuevo en nuestra clase de IA
No estamos intentando eliminar los exámenes escritos, sino agregar el examen oral como otra herramienta
El objetivo era comprobar si, en un proyecto en equipo, el estudiante realmente entendía su propio trabajo
Como era de esperarse, los estudiantes que sacaron baja nota en el examen oral entendían poco el proyecto
Con 36 estudiantes todavía es posible entrevistarlos directamente, pero con más de 100 se vuelve difícil
Sobre todo, había investigaciones que mostraban que la IA ofrece una evaluación consistente porque no se fatiga. Por eso confié en ella
- Se dijo que permitir el uso de LLM era algo obvio, pero yo no estoy de acuerdo
  No es distinto de usar un montacargas en el gimnasio
  Tal vez en materias simples de nivel MBA podría funcionar, pero en asignaturas que requieren juicio matizado la IA no es justa
  Si fuera un examen tan simple de verificación, preferiría más bien un kiosco con preguntas de opción múltiple
En mi época todos los exámenes eran orales
Los exámenes grandes duraban hasta dos días, pero el profesor y los ayudantes organizaban 6 sesiones al año
- En mi licenciatura y maestría en física, los exámenes orales también eran lo normal, pero desaparecieron en el doctorado
  Una de las razones fue la diferencia en las interpretaciones culturales de la equidad
  En entornos con mucha diversidad, los exámenes orales pueden generar controversias por sesgo
- Los profesores al final también son humanos
  Si pudieran calificar con IA por $5 y pasar 20 horas scrolleando en el celular, elegirían eso

Combatir fuego con fuego: ampliar los exámenes orales con agentes de voz con IA

Identificación del problema y contexto para introducir exámenes orales

Configuración del agente de voz basado en ElevenLabs

Operación del examen y resultados numéricos

Tropiezos en la implementación y medidas de mejora

Calificación por deliberación entre LLM (council grading)

Hallazgos pedagógicos y diagnóstico

Prevención de trampas y transparencia

Reacción de los estudiantes

Planes de mejora a futuro

Conclusión: evaluación centrada en la comprensión y escalable con IA

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News