2 puntos por GN⁺ 2026-01-05 | 1 comentarios | Compartir por WhatsApp
  • Con la expansión de los modelos de lenguaje grandes (LLM), las tareas y exámenes tradicionales dejaron de medir correctamente la comprensión del aprendizaje, por lo que el profesorado experimentó con la introducción de exámenes orales en tiempo real usando la IA de voz de ElevenLabs
  • El examen se componía de dos partes, explicación del proyecto y preguntas sobre casos, en las que el estudiante debía explicar directamente a la IA la base de sus decisiones y su proceso de razonamiento
  • Claude, Gemini y ChatGPT calificaron en un esquema de deliberación conjunta para mejorar la consistencia y la calidad de la retroalimentación, y también quedaron en evidencia temas débiles del curso real (diseño experimental)
  • Se evaluó a 36 estudiantes durante 9 días, con un promedio de 25 minutos por persona, y el costo por estudiante fue de 0.42 dólares, extremadamente bajo
  • Los exámenes orales con IA podrían convertirse en un nuevo modelo de evaluación escalable centrado en la comprensión

Identificación del problema y contexto para introducir exámenes orales

  • La calidad de las tareas estudiantiles era anormalmente alta, lo que despertó sospechas de redacción con IA, y al hacer preguntas aleatorias se confirmó que había muchos casos en los que no podían explicarse por sí mismos
  • Con la accesibilidad a los LLM, colapsó la confiabilidad de tareas y exámenes tradicionales, y los exámenes orales, capaces de evaluar el razonamiento en tiempo real, surgieron como alternativa
  • Sin embargo, los exámenes orales tienen la limitación de ser imposibles de operar a gran escala, por lo que se recurrió a agentes de voz con IA para resolverlo

Configuración del agente de voz basado en ElevenLabs

  • Se utilizó ElevenLabs Conversational AI para integrar elementos complejos como reconocimiento y síntesis de voz, y gestión de turnos
  • Mediante variables dinámicas se transmitían el nombre del estudiante y la información del proyecto, y con una estructura de workflow se separaron los agentes de autenticación, proyecto y casos
    • Agente de autenticación: verificación del ID del estudiante
    • Agente de proyecto: preguntas basadas en el material entregado
    • Agente de casos: selección aleatoria de un caso y formulación de preguntas
  • Al dividirlo en varios agentes pequeños se logró evitar desvíos en la conversación y facilitar la depuración

Operación del examen y resultados numéricos

  • Se aplicó a 36 personas durante 9 días, con una duración promedio de 25 minutos (mínimo 9, máximo 64)
  • Promedio de 65 intercambios de mensajes, con un costo total de 15 dólares (0.42 por estudiante)
  • En los resultados de calificación con LLM, el 89% coincidió dentro de 1 punto, y el examen más corto (9 minutos) obtuvo la puntuación más alta (19/20)
  • Frente a la calificación humana, se logró una reducción de costos de más de 50 veces, además de automatizar evaluación, registro y retroalimentación en tiempo real

Tropiezos en la implementación y medidas de mejora

  • Retroalimentación estudiantil de que el tono de voz era intimidante → se planean pruebas A/B con distintas voces
  • Problema de acumulación de preguntas (stacking) → se añadió la regla de “una pregunta a la vez”
  • Cambio de significado al repetir preguntas → se especificó “repetir la oración exactamente”
  • Falta de tiempo para pensar → el tiempo de espera se amplió a 10 segundos
  • Fallo en la selección aleatoria de casos → se resolvió a nivel de código con mapeo aleatorio

Calificación por deliberación entre LLM (council grading)

  • Claude, Gemini y ChatGPT calificaron de forma independiente y luego revisaron y ajustaron mutuamente sus evaluaciones
  • La tasa de desacuerdo en la primera ronda era alta, pero tras la segunda deliberación la coincidencia dentro de 1 punto mejoró de 62% a 85%
  • Gemini ajustó sus notas a un promedio 2 puntos más bajo, mientras que hubo alta consistencia entre Claude y OpenAI
  • En el rubro de diseño experimental fue donde hubo mayor desacuerdo en la calificación, lo que se atribuyó a la ambigüedad de las respuestas estudiantiles
  • La calificación con IA fue más estricta pero justa que la humana, y la retroalimentación destacó por ser específica y orientada a la acción

Hallazgos pedagógicos y diagnóstico

  • En el análisis de desempeño por tema, diseño experimental fue el más bajo, con un promedio de 1.94/4
    • 0 puntos 8%, 1 punto 19%, 2 puntos 42%, 4 puntos 0%
  • Se detectó que la causa fue una explicación insuficiente de las pruebas A/B dentro del curso, lo que confirmó la necesidad de mejorar la enseñanza por parte del profesorado
  • No hubo correlación entre la duración del examen y la puntuación (r=-0.03), y las respuestas breves y claras se asociaron con notas más altas

Prevención de trampas y transparencia

  • Se exigió a los estudiantes webcam y grabación de audio para bloquear ayuda externa
  • La estructura del examen y los tipos de preguntas se operaron con lineamientos públicos, eliminando el riesgo de filtración de preguntas
  • Los estudiantes podían practicar repetidamente con la misma estructura, reforzando así el aprendizaje real

Reacción de los estudiantes

  • Solo el 13% prefirió el examen oral con IA, el 57% prefirió el examen escrito tradicional y el 83% respondió que sintió más estrés
  • Sin embargo, el 70% reconoció que evaluaba bien la comprensión real, por lo que la confianza en la evaluación fue alta
  • La flexibilidad de presentarlo de forma autónoma en tiempo y lugar fue valorada positivamente
  • Solicitudes de mejora: reducir la velocidad, usar una voz más calmada y hacer una sola pregunta por vez

Planes de mejora a futuro

  • Ajuste de velocidad y mayor variedad de voces, preguntas con RAG basadas en las entregas del estudiante y distribución de casos con semillas aleatorias explícitas
  • Introducción de un disparador de revisión humana cuando haya desacuerdo de calificación entre LLM
  • Mayor accesibilidad: modo de práctica, tiempo adicional y medios alternativos

Conclusión: evaluación centrada en la comprensión y escalable con IA

  • Las tareas y exámenes escritos quedan debilitados en la era de los LLM, y es necesario pasar a evaluar el razonamiento en tiempo real
  • Los exámenes orales con IA miden comprensión, juicio y pensamiento improvisado, y representan una nueva forma de evaluación viable a gran escala
  • Permiten reforzar el aprendizaje mediante práctica repetida sin riesgo de filtración de preguntas
  • “Fight fire with fire” — una innovación en evaluación que resuelve con IA los problemas creados por la propia IA

1 comentarios

 
GN⁺ 2026-01-05
Opiniones en Hacker News
  • Creo que los datos y las conclusiones presentados en el artículo no coinciden
    Los estudiantes siguieron prefiriendo los exámenes escritos incluso después de hablar con la IA
    Las universidades han administrado exámenes escritos durante siglos evitando trampas, y aunque después del COVID se introdujo la "rueda cuadrada" de la evaluación en línea, dan ganas de decir que en realidad sería mejor volver a la rueda redonda

    • Sorprende que, aunque los resultados del experimento claramente no fueron buenos, el autor lo presente como un “gran éxito”
      Ni siquiera se verificó la precisión de la evaluación del LLM. Al final da la impresión de que primero decidió la conclusión y luego acomodó los datos
    • La frase citada no es una conclusión, sino solo una afirmación
      Que los exámenes take-home se acabaron es algo obvio, no un resultado del experimento
      Hoy en día hacer trampa por cuenta propia se volvió demasiado fácil
      Además, la forma de evaluar debería variar según el campo académico, y en áreas nuevas como ciencias de la computación todavía falta madurez en la evaluación
      Por último, la preferencia del estudiante no es un criterio para juzgar la calidad del examen
    • Que los estudiantes prefieran exámenes escritos no significa que eso sea lo mejor
      En la práctica, muchas veces hay que explicar el fundamento de las decisiones frente a otras personas
      Entiendo que una generación que tuvo menos experiencias presenciales durante la pandemia tenga miedo de hablar, pero este tipo de entrenamiento para superar la ansiedad podría incluso ayudar
    • En las clases en línea los exámenes escritos son difíciles
      Como aumentó la posibilidad de trampa en los exámenes take-home, un examen oral, aunque no sea perfecto, podría ser una mejor alternativa
    • La carrera entre trampas y vigilancia entre estudiantes y profesores lleva siglos existiendo
  • Antes, todos los exámenes se hacían sin ninguna posibilidad de intervención de IA
    Se escribían a mano con pluma y se rendían en un gimnasio vigilado por supervisores
    Hacer trampa significaba expulsión y solo se graduaba el 1% de miles de estudiantes
    Cuando hoy escucho que hay que cambiar los exámenes para adaptarlos a la IA, me parece una locura. La solución ya existía

    • No hay nada de qué presumir en un sistema donde el 99% de los estudiantes reprueba
      Al final es una estructura que solo responsabiliza al estudiante, y el problema era la pereza del profesor y la reutilización de preguntas de examen
      La verdadera solución es crear preguntas nuevas cada vez y plantearlas de forma diversa
    • Dudo que hacer que los estudiantes escriban código C++ a mano sea realmente la mejor forma de evaluar
      Más bien creo que sería mejor rendir el examen en computadoras provistas por la escuela con entorno de desarrollo
    • También hay quien sostiene que los exámenes orales son mejores para diagnosticar la comprensión
      Si eso es cierto, entonces tiene sentido buscar una forma escalable de examen oral
    • Ese 99% de reprobación cuesta creerlo. Una universidad así debería cerrar
  • No hace falta obsesionarse con la escalabilidad
    Las universidades tienen dinero, así que el profesor simplemente podría tomar el examen oral personalmente
    En los posgrados en Alemania también se toman muchos exámenes orales, y funcionaba bien

    • En Europa son comunes los exámenes orales, como la Matura o la defensa de tesis doctoral
      Depender de la IA parece un símbolo de flojera
      La IA sirve para tareas repetitivas, pero cuesta confiar en ella en situaciones adversariales
  • Yo también rendí un examen oral en la licenciatura, y el cambio de actitud del profesor era tan fuerte que la tensión era extrema
    Dudo que la IA pueda generar esa misma presión emocional
    Más bien, a mí me irritan los pequeños errores de la IA

    • En Italia, todos los exámenes incluyen una parte oral desde primaria hasta la universidad
      Pero a mí en esas situaciones se me queda la mente en blanco y no puedo decir nada. Es realmente horrible
  • Antes, en procesos de contratación dábamos una tarea take-home, pero algunos candidatos no podían explicar el código que habían entregado
    Ahora que existen los LLM, la tentación de hacer que la IA lo escriba por uno es mucho mayor
    Pero nosotros tenemos que evaluar la capacidad de resolver problemas y de comunicarse del candidato
    Una entrevista que permite LLM termina convirtiéndose en una “prueba de habilidad para usar IA”
    No estoy de acuerdo con el método del artículo, pero la preocupación de fondo sí es real

    • La expresión “synthetic pronouns” resulta interesante
  • Quizá el siguiente paso sea que una IA responda por voz en lugar de la IA que contesta por voz
    Al final, el ser humano tendría que volver a quedar en el centro

    • Ya con un teleprompter alcanza para engañar
      En adelante será aún más sofisticado con lentes inteligentes, micrófonos de conducción ósea, etc.
      Al final, los únicos perjudicados serán los estudiantes honestos pero con ansiedad social
    • Si el espacio de examen se llenara de decenas de cabinas telefónicas, me parecería todavía más terrible que los cubículos de oficina
  • Estaría bien ofrecer simulacros voluntarios de examen oral durante el semestre
    Así el estudiante se acostumbra al formato y también al tono de voz
    Me sorprende que digan que con unas 36 personas sea imposible hacer exámenes orales

    • Como se menciona al final del artículo, si la IA genera preguntas nuevas cada vez, se puede practicar sin preocuparse por filtraciones
      Ese aprendizaje repetido sí que es una forma real de aprender
    • Si un ayudante gana $25 por hora, el examen oral es perfectamente viable
      Me reembolsan $25 y aun así no quiero que un LLM me tome el examen de ninguna manera
    • En la Charles University de Praga también se tomaban exámenes orales con más de 200 estudiantes
    • Depende de la profundidad y la frecuencia del examen oral
      Si se evalúa solo a una muestra de estudiantes, eso puede generar a la vez motivación o frustración
    • Al final, es la idea de reemplazar el examen por un chatbot para ahorrar dinero
      Aunque sea solo con los estudiantes de mejor nivel, es totalmente posible hacer un examen oral de 10 minutos de conversación
  • Solo imaginar que una app de voz con IA me interrogue ya me parece espantoso
    Si este método se mantiene, tal vez haría falta más bien un modelo educativo sin evaluación

    • Al final, volver a los exámenes manuscritos podría ser la solución más realista
    • Yo también tuve hace poco una entrevista con IA, y no sentí culpa por mentirle a la IA
      Me resultó fácil decir cosas que jamás habría dicho frente a un ser humano
    • Si los exámenes desaparecen por completo, no se mantiene la motivación para aprender
  • Yo soy precisamente el autor de esa entrada del blog
    Solo probamos algo nuevo en nuestra clase de IA
    No estamos intentando eliminar los exámenes escritos, sino agregar el examen oral como otra herramienta
    El objetivo era comprobar si, en un proyecto en equipo, el estudiante realmente entendía su propio trabajo
    Como era de esperarse, los estudiantes que sacaron baja nota en el examen oral entendían poco el proyecto
    Con 36 estudiantes todavía es posible entrevistarlos directamente, pero con más de 100 se vuelve difícil
    Sobre todo, había investigaciones que mostraban que la IA ofrece una evaluación consistente porque no se fatiga. Por eso confié en ella

    • Se dijo que permitir el uso de LLM era algo obvio, pero yo no estoy de acuerdo
      No es distinto de usar un montacargas en el gimnasio
      Tal vez en materias simples de nivel MBA podría funcionar, pero en asignaturas que requieren juicio matizado la IA no es justa
      Si fuera un examen tan simple de verificación, preferiría más bien un kiosco con preguntas de opción múltiple
  • En mi época todos los exámenes eran orales
    Los exámenes grandes duraban hasta dos días, pero el profesor y los ayudantes organizaban 6 sesiones al año

    • En mi licenciatura y maestría en física, los exámenes orales también eran lo normal, pero desaparecieron en el doctorado
      Una de las razones fue la diferencia en las interpretaciones culturales de la equidad
      En entornos con mucha diversidad, los exámenes orales pueden generar controversias por sesgo
    • Los profesores al final también son humanos
      Si pudieran calificar con IA por $5 y pasar 20 horas scrolleando en el celular, elegirían eso