Estudio de la Universidad de Michigan: los estudiantes con apellidos más al final del alfabeto reciben calificaciones más bajas

(record.umich.edu)

1 puntos por GN⁺ 2024-04-21 | 1 comentarios | Compartir por WhatsApp

Investigadores de la Universidad de Michigan analizaron más de 30 millones de registros de calificaciones de Canvas y confirmaron una tendencia: los estudiantes cuyos apellidos están más al final del alfabeto reciben puntajes más bajos
La causa principal es la ordenación predeterminada de Canvas, que muestra las entregas en orden alfabético por apellido, y el sesgo secuencial que surge cuando los evaluadores califican las tareas en ese orden
Los estudiantes con apellidos de la A a la E reciben 0.3 puntos más sobre 100 que con una calificación aleatoria, mientras que los estudiantes con apellidos más al final del alfabeto reciben 0.3 puntos menos, lo que genera una brecha total de 0.6 puntos
Cuando alrededor del 5% de los evaluadores califican de la Z a la A, la brecha aparece invertida, lo que respalda la interpretación de que es el orden de calificación, más que el apellido en sí, lo que produce la diferencia en puntajes
Aunque una diferencia de 0.6 puntos parezca pequeña, puede afectar el GPA de la materia y las oportunidades profesionales, por lo que se necesitan medidas como cambiar la calificación aleatoria al valor predeterminado y reducir la carga de calificación en cursos grandes

La brecha por inicial del apellido creada por la ordenación predeterminada de Canvas

Investigadores de la Universidad de Michigan recopilaron datos históricos de calificaciones de todos los programas, estudiantes y tareas disponibles en Canvas, desde el semestre de otoño de 2014 hasta el semestre de verano de 2022
El análisis abarca más de 30 millones de registros de calificaciones, complementados con datos de la oficina de registros universitarios sobre antecedentes de los estudiantes, datos demográficos y trayectorias de aprendizaje
Los estudiantes cuyos apellidos están más al final del alfabeto muestran un patrón de puntajes más bajos, comentarios más negativos y menos corteses, y menor calidad de calificación medida por quejas estudiantiles
El artículo relacionado es 30 Million Canvas Grading Records Reveal Widespread Sequential Bias and System-Induced Surname Initial Disparity, y está en revisión en Management Science

Cómo funciona el sesgo de calificación secuencial

Canvas ordena por defecto las entregas de los estudiantes en orden alfabético por apellido
Este diseño predeterminado no se limita a una materia específica, sino que puede propagarse a varias instituciones y cursos que usan sistemas de gestión del aprendizaje
A medida que los evaluadores califican más tareas, aparece un patrón de deterioro en la calidad de la calificación
Según Wang, los estudiantes con apellidos que empiezan con A, B, C, D o E reciben 0.3 puntos más sobre 100 que cuando se los califica en orden aleatorio, mientras que los estudiantes con apellidos más al final del alfabeto reciben 0.3 puntos menos

El efecto inverso revelado al calificar en orden contrario

Alrededor del 5% de los evaluadores califica de la Z a la A
En ese caso, la brecha aparece invertida, tal como se esperaba
- Los estudiantes con apellidos de la A a la E quedan en desventaja
- Los estudiantes con apellidos de la W a la Z reciben puntajes más altos que con la calificación aleatoria
Esta observación refuerza la interpretación de que la causa de la brecha inicial de puntajes no es el apellido en sí, sino el orden de calificación

El impacto en estudiantes de una pequeña diferencia de puntaje

Una diferencia de 0.6 puntos puede parecer pequeña, pero afecta el GPA de la materia del estudiante
Los cambios en el GPA también pueden afectar negativamente las oportunidades profesionales de cada estudiante
Wang afirma que algo que ocurre de forma inconsciente en los evaluadores puede traducirse en un impacto social real

La idea de investigación y el factor fatiga

La idea del estudio surgió durante una conversación sobre la investigación de Wang en tecnología educativa y la investigación de Pei en inteligencia artificial
Pei observó que el etiquetado de datos, una tarea básica en machine learning, también es un trabajo secuencial largo y tedioso, pero se aleatoriza
Esta observación derivó en un estudio piloto para analizar la relación entre el tiempo dedicado a calificar y las brechas de calificaciones en sistemas educativos como Canvas
En trabajos prolongados, la fatiga se acumula y disminuyen la atención y la capacidad cognitiva, por lo que la fatiga podría ser uno de los principales factores que generan este efecto

Mejoras propuestas

Canvas tiene una opción para calificar tareas en orden aleatorio, y algunos educadores la usan
Sin embargo, el modo predeterminado de Canvas y de otros sistemas de gestión del aprendizaje en línea es el orden alfabético
La solución más simple es cambiar el orden aleatorio a la configuración predeterminada
También se proponen las siguientes alternativas para instituciones académicas
- Contratar más evaluadores para cursos grandes
- Distribuir el trabajo de calificación entre más personas
- Ofrecer capacitación para reconocer y reducir sesgos durante la calificación

1 comentarios

GN⁺ 2024-04-21

Comentarios de Hacker News

Trabajo en academia. Al calificar exámenes, el orden del montón de respuestas es el orden en que se recogieron en el salón, y normalmente se juntan 5 personas en una sala y cada una se encarga solo de un problema para mantener la consistencia
Como cada quien toma un montón y va sacando las hojas en las que su problema todavía no ha sido calificado, las respuestas terminan muy mezcladas, así que el orden real de calificación es prácticamente aleatorio
En cambio, las tareas semanales del semestre se suben al repositorio, y las carpetas de los estudiantes empiezan con la primera letra de su nombre. Todos coincidíamos en que, por justicia, había que mezclar el orden de calificación cada semana. Al principio uno está menos cansado, y con las últimas 2 ya mejora el ánimo porque sientes que ya casi acabas; además, al inicio todavía no has visto todos los errores comunes y se te puede ir alguno por falta de referencia, mientras que en las entregas del final los detectas de inmediato
Como otro efecto alfabético, en primaria yo solía estar hasta arriba de la lista de clase, así que a menudo me tocaba cargar el letrero del grupo en las visitas al museo, anotar cosas, ser la primera en hacer algo que nadie quería hacer enfrente de todos, o pasar primero en las evaluaciones de educación física. Era una niña bastante tímida, así que me fastidiaba desde primer grado
- Mi estrategia, como se mencionó, era calificar por problema. Para cada problema primero buscaba una respuesta perfecta, y luego agrupaba el resto en montones según el tipo de error cometido
  Así, los estudiantes con el mismo error recibían la misma calificación. Además, al terminar un problema, el orden de las hojas también terminaba mezclándose de forma natural
  No hace falta para preguntas simples de opción múltiple y no encaja muy bien con ensayos largos, pero funcionaba muy bien para preguntas técnicas de respuesta corta en informática y seguridad
- Un amigo que es profesor siempre revisa el montón dos veces. La primera para corregir todos los errores, y la segunda para anotar la calificación
  La razón es que solo después de haber visto todos los errores puedes juzgar qué tan grave es realmente cada uno
- Por ahí del 2000 olvidé un ensayo que se entregaba ese mismo día, y antes de la formación matutina solo tenía unos 10 minutos en el laboratorio de computación. Escribí la introducción y la conclusión, y luego llené el resto copiando y pegando ambas. Pensé que al menos sería gracioso, y si alguien lo hubiera leído habría sido obvio que el texto no tenía ningún sentido
  Sin embargo, me pusieron 80% sin ninguna nota ni marca
  Durante los últimos 25 años me he seguido preguntando cuánto se revisan realmente las tareas estudiantiles
  Trabajo en EdTech, y cada vez que agregamos funciones que requieren revisión manual de trabajos por parte de docentes, se nota que algunos profesores son muy cumplidos y otros ni siquiera lo tocan
- Todos los métodos de este hilo al final solo aleatorizan a quién le tocará una calificación injusta
- Al calificar ensayos o exámenes de desarrollo, es importante hacerse una idea del nivel general de escritura antes de evaluar cada texto, y evitar sobrecalificar o subcalificar los primeros o los últimos del montón. Por eso yo hacía una calificación en 3 etapas con plumas de tres colores
  La primera, con pluma roja, marcaba problemas puntuales como errores de ortografía o fallas evidentes de uso. En ese proceso también iba captando de manera natural el nivel general de escritura, y podía recorrer rápidamente todos los textos
  La segunda, con pluma verde, marcaba sobre todo en los márgenes los buenos puntos o los lugares donde se llegaba a una conclusión, preparando la siguiente etapa. Eso también se aplicaba a todos los textos
  En la tercera, con pluma azul, evaluaba y criticaba la calidad del escrito. A veces dejaba notas breves al margen o un comentario al final del ensayo
  A los estudiantes les daban risa los colores bonitos, pero cuando les explicaba el método y la razón, lo entendían claramente y supongo que hasta lo agradecían
Puede o no estar relacionado, pero cuando iba a escuelas K-12 en los 80 y principios de los 90, siempre nos sentaban de adelante hacia atrás en orden alfabético por apellido. Los niños con apellidos que empezaban entre A-D siempre estaban al frente, y los de U-Z siempre atrás; así era en todas las clases
Recuerdo que muchos de mis amigos tenían apellidos cercanos al mío, probablemente porque siempre nos sentaban juntos. Para la prepa, parecía claro que había muchos más estudiantes de alto rendimiento con apellidos A-D y más problemáticos hacia U-Z
¿Habrá sido por sentarse más cerca del profesor y recibir más atención? No era un experimento ni había grupo de control, así que no se puede saber
- El fenómeno de que “los estudiantes que se sientan cerca rinden más” también podría explicar buena parte del estereotipo sobre la gente que usa lentes. Me tomó años darme cuenta de que tenía una miopía leve, y en la primera mitad de mi etapa escolar me sentaba en la mitad delantera del salón para poder leer mejor el pizarrón
  También tenía muchos amigos con lentes, y como los lentes no les corregían completamente la vista, preferían los lugares de adelante
- Ahora soy profesor, y esto me hizo estremecer. Mis padres me contaron que cuando ellos iban a la escuela en India, entre los 60 y los 80, la asignación de asientos era exactamente así. Pero las calificaciones se hacían con un número de lista medio anonimizado
- La rotación es una solución sencilla. En nuestra prepa, cada lunes todas las filas avanzaban un lugar y la fila del frente se iba hasta atrás
  Claro, podría decirse que quienes empezaron al frente en la semana 1 seguían teniendo cierta ventaja, pero probablemente no era tan grande
Mis iniciales son Z y W, así que a menudo noto el orden alfabético. Le pregunté a un amigo cuyas iniciales son A y B, y me dijo que jamás lo había pensado
No noté diferencias en calificaciones ni rankings, pero sí escuché mucho más seguido frases como “ya se acabaron las cosas/el tiempo antes de que te tocara”, y eso me hizo mucho más sensible a los problemas de planeación y organización
- Cuando era niño se puso de moda jugar a las canicas, y si te sorprendían jugando con canicas durante clase, el profesor las echaba en un gran frasco de vidrio. Cuando el frasco se llenaba, llamaban a los niños para devolverles un puñado a cada uno
  Yo iba al mero final del alfabeto, y eso ya era un problema incluso al elegir libros para leer. Podías escoger libro, pero siempre era por orden alfabético, así que cuando llegaba mi turno solo quedaban unos pocos y los libros populares ya habían desaparecido
  Cuando por fin llegó mi turno de recuperar mis canicas, ya no quedaba ninguna. Pregunté “¿dónde están mis canicas?” y el profesor se encogió de hombros y dijo “se acabaron”. Yo tendría como 7 años, lloré mucho y creo que otros niños me dieron algunas, pero en realidad el punto nunca fueron las canicas
  Hasta hoy no entiendo cómo podía esperarse cualquier otro resultado que no fuera ese
- Como ocurre con la mayoría de las desigualdades, quienes se benefician de ese privilegio muchas veces ni siquiera se dan cuenta
- Me acordé de algo gracioso de cuarto o quinto grado. Cuando el grupo se formaba, siempre nos ordenaban por apellido, y el mío empezaba con Ö, la última letra del alfabeto nórdico, así que yo siempre quedaba al final
  Un día la maestra dijo algo como “hoy vamos a invertir el orden, pero también vamos a ordenar por nombre”. Mi nombre empieza con A, así que terminé otra vez hasta atrás, y a todos les pareció divertidísimo
- Parece un buen ejemplo de una carga cultural menor en la que la persona privilegiada muchas veces no nota que está siendo privilegiada. Lo que a mi amigo le parecía normal y justo, en realidad era una ventaja que ni siquiera había considerado
- Fuera de la escuela, no recuerdo ni una sola vez en que mi nombre haya quedado ordenado alfabéticamente. Incluso tengo segundo nombre, así que me da curiosidad en qué situaciones pasa esto con tanta frecuencia
En nuestra universidad, casi toda la calificación era anonimizada. A comienzos de cada año nos daban un número de examen aleatorio, y poníamos ese número en los trabajos importantes o en los exámenes
En tareas menos importantes de la clase muchas veces no se llegaba a tanto y se usaba el número de estudiante, pero la idea básica era la misma
Salvo algunos ensayos y unas pocas tareas menores sin impacto en la nota final, no escribíamos nuestros nombres. No era tan difícil romper el anonimato, pero le daba un poco más de integridad al sistema
Es un método muy fácil de implementar, así que no entiendo por qué no se usa más seguido
Creo que nuestro entorno virtual de aprendizaje también ordenaba las tareas por hora de entrega antes que por cualquier identificador
- ¿El posible resultado aquí no sería simplemente bajar notas al azar en vez de bajarlas de una manera vinculada al estudiante? Si el problema es el ordenamiento, incluso un número de examen aleatorio igual puede ordenarse
  Resuelve el sesgo hacia la persona, pero no el sesgo relacionado con la forma en que se ordenan las entregas
  Parece que lo correcto sería usar identificadores aleatorios junto con un orden aleatorio
- Me parece bastante razonable para exámenes universitarios. Un examen es un examen, y qué tan bien habla un estudiante o qué tan activamente participa en clase no debería afectar la nota del examen
  Pero tengo menos claro si las propuestas de conferencias a ciegas son una buena idea. Por experiencia pasada, si sabes que cierta persona casi seguro la va a romper, cuesta más elegir a una persona cualquiera sin credenciales claras en el mismo tema. Claro, elegir solo a amigos del comité también puede ser claramente excesivo
- Tomé una clase así. Al inicio del semestre a cada estudiante le asignaban un nombre de usuario con formato aparentemente aleatorio, y desde entonces toda participación se hacía con ese nombre de usuario
  Aunque el nombre de usuario pareciera aleatorio, ciertos nombres empezaron a ganar reputación en el foro de discusión del curso, y los estudiantes también empezaron a reconocer algunos
  Igual, en cursos de ciencias de la computación los criterios de evaluación suelen ser muy objetivos, así que no sé qué tan importante era realmente el anonimato
- Siento que recibo mejor retroalimentación cuando el profesor sabe quién soy. La nota es secundaria
- El punto clave es que sistemas automatizados como Canvas, aunque oculten los nombres, igual pueden mostrar todo en orden alfabético. Usar seudónimos no ayuda si no se mezcla el orden
Se dice que “la solución simple es poner el orden aleatorio por defecto”, pero que se corrija solo significa que el sesgo se vuelve aleatorio. Probablemente el estudiante evaluado al final igual recibirá una nota más baja
- No es ideal, pero si se vuelve a aleatorizar en cada tarea, mejora frente a la situación actual. Al menos, en vez de salir perjudicado siempre, solo te perjudicas a veces
- Hay otros factores con mucho mayor impacto en las calificaciones. Por ejemplo, si entendiste el material o si tienes capacidad para plantear una solución. Lo digo porque varios comentarios parecen tomar esto como si fuera un sesgo enorme para algunos estudiantes
  Por mi experiencia como tutor, ese sesgo sin duda existe. Pero no puede convertir una respuesta completamente equivocada o una respuesta excelentemente correcta en otra cosa
  Más adelante llegué a conocer a los estudiantes a quienes les costaba y a los que les iba bien. Si un estudiante bueno se equivocaba, significaba que había pasado algo importante, así que primero les echaba una mirada rápida, luego revisaba los problemas de los estudiantes a quienes les costaba, después calificaba el resto en el orden en que los recibía y al final volvía a ver a los estudiantes con dificultades y a los que iban bien. Necesitaba una línea de base para ver qué tan malas eran realmente las peores respuestas. Se podría decir que algunas hojas de ejercicios parecían una aventura al azar
  Escrito así suena totalmente frío y distante, pero concentrarse en el tercio inferior en los ejercicios y transmitir a los asistentes y al profesor dónde se trababan fue muy útil para todos, especialmente para esos estudiantes. Les ayudó a afianzar bien lo básico importante
- Si lo ves a lo largo de toda la vida universitaria, debería promediarse. En cambio, si se mantiene el orden alfabético, el perjuicio es sistemático
Yo también sentí esto cuando califiqué por primera vez hace unos meses
Las primeras respuestas que califiqué no tenían ciertos errores, o respondían de la manera que yo esperaba, pero cuando más tarde me topé con respuestas o errores inesperados, tuve que replantearme la nota de las que ya había calificado. Por ejemplo, hubo casos en que la respuesta de alguien hizo que una respuesta que yo había considerado incorrecta me pareciera en realidad menos incorrecta
Era un curso pequeño, así que era posible volver atrás, y como el orden de entrega ya estaba algo mezclado, califiqué así, pero de no haber sido así claramente habría habido sesgo
- Lo sentí especialmente al calificar proyectos de programación. Porque es un poco más complicado
  Solo después de ver varias veces que cierto bug era muy común uno termina reevaluándolo, y resulta que era un error fácil de cometer
  O también descubres que un bug nuevo, que al principio no conocías, era bastante común. Entonces tenías que actualizar las pruebas y volver a correrlas para todos
  Yo intentaba ser bastante minucioso y al final terminaba revisando otra vez todo el montón, pero era realmente doloroso. Podría haberlo hecho por encima, pero como eran trabajos en los que los estudiantes habían invertido semanas, sentía que debía darles retroalimentación honesta
  Eso también hacía que la calificación tendiera a volverse más benévola. Si, por flojera, solo verificas algunos bugs, terminas descontando muchos puntos por cada problema, y eso no es justo para los estudiantes que por casualidad cayeron en los bugs que esperabas. Si encuentras todos los bugs, no te queda otra que descontar solo unos pocos puntos por bug para no destrozar la nota de todos
- Calificar en orden de entrega también introduce otro sesgo
  Estoy en la misma situación y hago lo mismo. No confío en mi capacidad para hacer un orden realmente aleatorio a mano, así que dependo de la aleatoriedad muy débil que aporta el orden de entrega
De hecho, esa es prácticamente la razón de por qué mis hijos tienen ese apellido
Mi apellido empieza con E y el de mi esposa empieza con Y. A diferencia de la tradición, mi esposa no cambió su apellido al casarnos, y cuando nacieron los niños tuvimos que decidir qué apellido darles. Elegimos un apellido compuesto con guion
Históricamente, los apellidos con guion iban en el orden apellido de la mujer-apellido del hombre. Pero a mi esposa no le gustaba haber crecido con un apellido al final del alfabeto
Así que volvimos a romper con la tradición y pusimos mi apellido primero, para que en un orden alfabético los niños quedaran hacia el principio. Además, sus nombres también empiezan con A y B, así que también quedan al principio cuando se ordena por nombre
- A mí siempre me tocaba quedar al final, y me gustaba recibir menos atención del profesor. Si los datos solo muestran correlación, también podría explicarse diciendo que a quienes estamos al final nos presionaban menos
- Dices “rompimos con la tradición y ella no cambió su apellido al casarnos”, pero salvo que se hayan casado antes de los 90, no diría que desde mediados de los 90 eso cuente realmente como romper con la tradición
  Si de verdad quieres romper con la tradición, no te cases y simplemente vivan juntos y tengan hijos
  Después de todo, ¿hay algo tan tradicional como el matrimonio?
- En los países de América Latina y en España, primero va el apellido paterno y después el materno
Mi apellido empieza con una letra hacia el final del alfabeto, así que siempre noto este tipo de cosas. Un caso de este año: mi hijo está tomando una clase en la preparatoria con un proyecto de largo plazo que requiere retroalimentación continua del profesor
El profesor revisa los proyectos en orden alfabético por apellido, y como un 40% de las veces ni siquiera llega a la parte baja de la lista del grupo, si hay algún problema les dice que vayan a buscarlo después de clases. Pero por la naturaleza del proyecto, los comentarios proactivos del profesor son indispensables
Así que le digo a mi hijo que vaya a buscar al profesor para una revisión anticipada aunque no haya problemas, pero no todos los chicos hacen eso y, como resultado, terminan con más probabilidad de sacar una nota más baja
Me pregunto por qué Helen Wang eligió esto como tema de investigación
Esto me recuerda a las consecuencias no intencionales graves de ordenar cosas
Es parecido al efecto del juez hambriento [1]. Es ese efecto según el cual los jueces tienden a ser más estrictos antes del descanso y más indulgentes después del descanso
[1] https://en.m.wikipedia.org/wiki/Hungry_judge_effect
- https://nautil.us/impossibly-hungry-judges-236688/
  
  Deberíamos descartar este hallazgo. Simplemente porque es imposible. Si interpretas qué tan absurdamente grande es el tamaño del efecto, cualquiera con una comprensión mínima de la psicología debería concluir que es imposible que este patrón de datos se deba a un mecanismo psicológico. Como psicólogos, no deberíamos enseñar ni citar este hallazgo, ni usarlo en la formulación de políticas como ejemplo de sesgo psicológico en la toma de decisiones.

Estudio de la Universidad de Michigan: los estudiantes con apellidos más al final del alfabeto reciben calificaciones más bajas

La brecha por inicial del apellido creada por la ordenación predeterminada de Canvas

Cómo funciona el sesgo de calificación secuencial

El efecto inverso revelado al calificar en orden contrario

El impacto en estudiantes de una pequeña diferencia de puntaje

La idea de investigación y el factor fatiga

Mejoras propuestas

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News