Detectar trampas con IA por 42 centavos por estudiante: el experimento de examen oral con IA de un profesor de NYU
(aisparkup.com)Experimento de examen oral con IA de un profesor de NYU
Contexto
- Limitaciones de la evaluación tradicional de tareas en la era de la IA: los estudiantes pueden hacer tareas perfectas con IA, pero al final queda en evidencia que no las comprenden realmente
- Profesor Panos Ipeirotis (Escuela de Negocios Stern de NYU): un experimento que le da la vuelta al problema, usando IA para responder a las trampas hechas con IA
Resumen del experimento
- Clase: gestión de productos de AI/ML
- Participantes: 36 estudiantes
- Método: examen oral usando un agente de voz con IA de ElevenLabs
- Contenido: preguntas sobre los proyectos de los estudiantes + preguntas sobre estudios de caso vistos en clase
- Duración: 9 días, promedio de 25 minutos por estudiante
- Costo total: 15 dólares (42 centavos por estudiante)
- Claude: 8 dólares, Gemini: 2 dólares, OpenAI: 30 centavos, ElevenLabs: 5 dólares
Comparación de costos
- Examen con IA: 15 dólares
- Calificación humana: 750 dólares (36 estudiantes × 25 minutos × 2 evaluadores × 25 dólares/hora)
- Ventaja: hace viable el examen oral en clases de gran escala
Problemas iniciales
- Tono del agente: se percibía como estricto y arrogante (queja de estudiantes: “gritaba”)
- Problemas de comportamiento: hacía varias preguntas al mismo tiempo, al repetirlas las reformulaba y además interrumpía demasiado rápido
- Sesgo de aleatoriedad: incluso con la instrucción de “selección aleatoria”, se inclinaba hacia un caso específico (Zillow 88%)
- Razón: los datos de entrenamiento del LLM reflejan sesgos humanos
Método de evaluación
- Método: aplicación del “Council of LLMs” de Andrej Karpathy
- Claude, Gemini y ChatGPT evalúan de forma independiente → revisan entre sí → corrigen
- Resultado: al inicio hubo grandes diferencias de puntaje (Gemini 17 puntos vs Claude 13.4 puntos), pero tras la revisión el 60% convergió dentro de 1 punto
- Calidad del feedback: la IA fue superior a la humana (resumen estructurado + citas directas)
Hallazgos
- Brecha por tema: debilidad en el tema de “experimentos” (promedio de 1.94/4 puntos) → el profesor reconoció un problema pedagógico (descuido del A/B testing)
- Duración del examen y calificación: sin correlación (el más corto, de 9 minutos, obtuvo la nota más alta; el más largo, de 64 minutos, fue promedio)
Evaluación de los estudiantes
- Preferencia por el formato con IA: 13% (el doble prefirió a humanos)
- Estrés: 83% más alto
- Equidad: 70% estuvo de acuerdo en que evalúa la comprensión real (el aspecto mejor valorado)
Conclusión
- Examen oral con IA: escalable, barato y justo
- Ventajas: las preguntas se generan de nuevo cada vez (sin problemas de filtración), y permite practicar
- Ironía: una solución con IA para las trampas hechas con IA
- Muestra el potencial de cambiar la evaluación educativa, aunque también deja ver sus límites
Aún no hay comentarios.