11 puntos por davespark 2026-01-08 | Aún no hay comentarios. | Compartir por WhatsApp

Experimento de examen oral con IA de un profesor de NYU

Contexto

  • Limitaciones de la evaluación tradicional de tareas en la era de la IA: los estudiantes pueden hacer tareas perfectas con IA, pero al final queda en evidencia que no las comprenden realmente
  • Profesor Panos Ipeirotis (Escuela de Negocios Stern de NYU): un experimento que le da la vuelta al problema, usando IA para responder a las trampas hechas con IA

Resumen del experimento

  • Clase: gestión de productos de AI/ML
  • Participantes: 36 estudiantes
  • Método: examen oral usando un agente de voz con IA de ElevenLabs
  • Contenido: preguntas sobre los proyectos de los estudiantes + preguntas sobre estudios de caso vistos en clase
  • Duración: 9 días, promedio de 25 minutos por estudiante
  • Costo total: 15 dólares (42 centavos por estudiante)
    • Claude: 8 dólares, Gemini: 2 dólares, OpenAI: 30 centavos, ElevenLabs: 5 dólares

Comparación de costos

  • Examen con IA: 15 dólares
  • Calificación humana: 750 dólares (36 estudiantes × 25 minutos × 2 evaluadores × 25 dólares/hora)
  • Ventaja: hace viable el examen oral en clases de gran escala

Problemas iniciales

  • Tono del agente: se percibía como estricto y arrogante (queja de estudiantes: “gritaba”)
  • Problemas de comportamiento: hacía varias preguntas al mismo tiempo, al repetirlas las reformulaba y además interrumpía demasiado rápido
  • Sesgo de aleatoriedad: incluso con la instrucción de “selección aleatoria”, se inclinaba hacia un caso específico (Zillow 88%)
    • Razón: los datos de entrenamiento del LLM reflejan sesgos humanos

Método de evaluación

  • Método: aplicación del “Council of LLMs” de Andrej Karpathy
    • Claude, Gemini y ChatGPT evalúan de forma independiente → revisan entre sí → corrigen
  • Resultado: al inicio hubo grandes diferencias de puntaje (Gemini 17 puntos vs Claude 13.4 puntos), pero tras la revisión el 60% convergió dentro de 1 punto
  • Calidad del feedback: la IA fue superior a la humana (resumen estructurado + citas directas)

Hallazgos

  • Brecha por tema: debilidad en el tema de “experimentos” (promedio de 1.94/4 puntos) → el profesor reconoció un problema pedagógico (descuido del A/B testing)
  • Duración del examen y calificación: sin correlación (el más corto, de 9 minutos, obtuvo la nota más alta; el más largo, de 64 minutos, fue promedio)

Evaluación de los estudiantes

  • Preferencia por el formato con IA: 13% (el doble prefirió a humanos)
  • Estrés: 83% más alto
  • Equidad: 70% estuvo de acuerdo en que evalúa la comprensión real (el aspecto mejor valorado)

Conclusión

  • Examen oral con IA: escalable, barato y justo
  • Ventajas: las preguntas se generan de nuevo cada vez (sin problemas de filtración), y permite practicar
  • Ironía: una solución con IA para las trampas hechas con IA
  • Muestra el potencial de cambiar la evaluación educativa, aunque también deja ver sus límites

Aún no hay comentarios.

Aún no hay comentarios.