Detectar trampas con IA por 42 centavos por estudiante: el experimento de examen oral con IA de un profesor de NYU

(aisparkup.com)

11 puntos por davespark 2026-01-08 | Aún no hay comentarios. | Compartir por WhatsApp

Experimento de examen oral con IA de un profesor de NYU

Contexto

Limitaciones de la evaluación tradicional de tareas en la era de la IA: los estudiantes pueden hacer tareas perfectas con IA, pero al final queda en evidencia que no las comprenden realmente
Profesor Panos Ipeirotis (Escuela de Negocios Stern de NYU): un experimento que le da la vuelta al problema, usando IA para responder a las trampas hechas con IA

Resumen del experimento

Clase: gestión de productos de AI/ML
Participantes: 36 estudiantes
Método: examen oral usando un agente de voz con IA de ElevenLabs
Contenido: preguntas sobre los proyectos de los estudiantes + preguntas sobre estudios de caso vistos en clase
Duración: 9 días, promedio de 25 minutos por estudiante
Costo total: 15 dólares (42 centavos por estudiante)
- Claude: 8 dólares, Gemini: 2 dólares, OpenAI: 30 centavos, ElevenLabs: 5 dólares

Comparación de costos

Examen con IA: 15 dólares
Calificación humana: 750 dólares (36 estudiantes × 25 minutos × 2 evaluadores × 25 dólares/hora)
Ventaja: hace viable el examen oral en clases de gran escala

Problemas iniciales

Tono del agente: se percibía como estricto y arrogante (queja de estudiantes: “gritaba”)
Problemas de comportamiento: hacía varias preguntas al mismo tiempo, al repetirlas las reformulaba y además interrumpía demasiado rápido
Sesgo de aleatoriedad: incluso con la instrucción de “selección aleatoria”, se inclinaba hacia un caso específico (Zillow 88%)
- Razón: los datos de entrenamiento del LLM reflejan sesgos humanos

Método de evaluación

Método: aplicación del “Council of LLMs” de Andrej Karpathy
- Claude, Gemini y ChatGPT evalúan de forma independiente → revisan entre sí → corrigen
Resultado: al inicio hubo grandes diferencias de puntaje (Gemini 17 puntos vs Claude 13.4 puntos), pero tras la revisión el 60% convergió dentro de 1 punto
Calidad del feedback: la IA fue superior a la humana (resumen estructurado + citas directas)

Hallazgos

Brecha por tema: debilidad en el tema de “experimentos” (promedio de 1.94/4 puntos) → el profesor reconoció un problema pedagógico (descuido del A/B testing)
Duración del examen y calificación: sin correlación (el más corto, de 9 minutos, obtuvo la nota más alta; el más largo, de 64 minutos, fue promedio)

Evaluación de los estudiantes

Preferencia por el formato con IA: 13% (el doble prefirió a humanos)
Estrés: 83% más alto
Equidad: 70% estuvo de acuerdo en que evalúa la comprensión real (el aspecto mejor valorado)

Conclusión

Examen oral con IA: escalable, barato y justo
Ventajas: las preguntas se generan de nuevo cada vez (sin problemas de filtración), y permite practicar
Ironía: una solución con IA para las trampas hechas con IA
Muestra el potencial de cambiar la evaluación educativa, aunque también deja ver sus límites

Lecturas relacionadas