Autopreferencia de la IA en el reclutamiento algorítmico: evidencia empírica e implicaciones
(arxiv.org)- A medida que los LLM se usan tanto para generar como para evaluar currículums, la autopreferencia del modelo evaluador por los resultados que él mismo produjo emerge como un nuevo sesgo en la selección de personal
- El estudio compara currículums contrafactuales creados por varios LLM, como GPT-4o, LLaMA 3.3-70B y DeepSeek-V3, a partir de 2,245 currículums escritos por humanos recopilados antes de la expansión de la IA generativa
- En la mayoría de los modelos apareció con fuerza la autopreferencia LLM-vs-Humano, y el sesgo de autopreferencia frente a currículums escritos por humanos en modelos comerciales y de código abierto clave estuvo en un rango de 67% a 82%
- En simulaciones de pipelines de contratación para 24 categorías ocupacionales, los postulantes que usaron el mismo LLM que el LLM evaluador tuvieron entre 23% y 60% más probabilidades de llegar a la lista final de candidatos que postulantes con calificaciones equivalentes pero con currículums escritos por humanos
- El prompting de sistema para ignorar el origen y enfocarse en el contenido, junto con ensamblados por mayoría de votos, redujo la autopreferencia LLM-vs-Humano entre 17% y 63% de forma relativa en todos los LLM probados
Un nuevo sesgo que la autopreferencia de la IA introduce en la evaluación de contratación
- A medida que los modelos de lenguaje grandes (LLM) se usan tanto para generar como para evaluar contenido, la autopreferencia (self-preference) —es decir, valorar más alto los resultados producidos por el mismo modelo— surge como un nuevo sesgo en procesos de decisión como la contratación
- En contratación, cada vez es más común una estructura en la que los candidatos redactan o pulen sus currículums con LLM, mientras los empleadores usan herramientas similares para filtrarlos o rankearlos, por lo que la interacción IA-IA puede influir en los resultados reales de evaluación
- A diferencia de los debates tradicionales sobre equidad, que se han centrado principalmente en la discriminación por atributos demográficos, la autopreferencia es un sesgo que surge de forma endógena en la relación entre el modelo evaluador y el modelo generador
- Este sesgo puede favorecer a candidatos que usan el mismo modelo que el LLM empleado en la evaluación, incluso si tienen las mismas capacidades, y perjudicar a quienes usan otras herramientas o no usan IA
- El filtrado de currículums es una etapa inicial de cuello de botella que reduce grandes grupos de postulantes a etapas limitadas de entrevistas y evaluación, por lo que errores en esta fase pueden afectar de forma persistente la composición del grupo final y la distribución de oportunidades de contratación
Diseño experimental y forma de medición
- El experimento se basa en 2,245 currículums escritos por humanos recopilados en una plataforma profesional de redacción de currículums, usando datos previos a la adopción generalizada de la IA generativa
- Para cada currículum se generaron versiones contrafactuales con varios LLM recientes, diseñadas para que solo cambiara la forma de expresión, mientras se mantenían las mismas calificaciones, experiencia y antecedentes del mismo candidato
- Los modelos usados fueron GPT-4o, GPT-4o-mini, GPT-4-turbo, LLaMA 3.3-70B, Mistral-7B, Qwen 2.5-72B y Deepseek-V3
- El LLM evaluador realiza comparaciones por pares entre dos currículums del mismo candidato para elegir cuál es más sólido, variando únicamente el origen del currículum evaluado
- La autopreferencia se divide en dos formas
-
Autopreferencia LLM-vs-Humano
- Se refiere a la tendencia del LLM evaluador a preferir el currículum que él mismo generó frente a un currículum equivalente escrito por un humano
-
Autopreferencia LLM-vs-LLM
- Se refiere a la tendencia del LLM evaluador a preferir el currículum que él mismo generó frente a uno generado por otro LLM
- En este contexto, el LLM evaluador opera como un clasificador binario, y el sesgo se mide usando los criterios de paridad estadística (statistical parity) e igualdad de oportunidades (equal opportunity) de la literatura sobre equidad
- El sesgo de autopreferencia basado en paridad estadística se define como la diferencia entre la probabilidad de que sea elegido un currículum generado por el LLM evaluador y la probabilidad de que sea elegido uno generado por un humano u otro LLM
Statistical Parity Self-Preference Bias_f = P(Y'_f = 1 | S = 1) - P(Y'_f = 1 | S = 0)- Aquí,
S = 1indica un currículum generado por el LLM evaluadorf, yS = 0indica un currículum generado por un humano u otro LLM Y'_f = 1significa que el LLM evaluadorfseleccionó ese currículum como el más sólido- Hace falta cautela al interpretar directamente la diferencia de paridad estadística como sesgo
- La diferencia podría deberse a la autopreferencia, pero también a diferencias en la calidad del contenido, si la misma información del candidato está expresada de forma más clara, consistente o fluida
- Aquí, calidad del contenido no se refiere a diferencias en las calificaciones o antecedentes del candidato, sino a la claridad, consistencia, fluidez y organización con que se transmite la misma información
-
Principales resultados empíricos
- En la mayoría de los modelos, la autopreferencia LLM-vs-Humano apareció de forma fuerte y consistente
- Modelos más grandes como GPT-4o, GPT-4-turbo, DeepSeek-V3, Qwen-2.5-72B y LLaMA 3.3-70B mostraron un sesgo fuerte superior al 65% incluso después de controlar la calidad del contenido
- En el caso de GPT-4o, la autopreferencia LLM-vs-Humano superó el 80%, y en modelos comerciales y de código abierto relevantes el sesgo de autopreferencia frente a currículums escritos por humanos se ubicó en el rango de 67% a 82%
- La autopreferencia LLM-vs-LLM varió más según el modelo
- DeepSeek-V3 mostró el sesgo más fuerte en esta configuración, prefiriendo sus propios resultados en 69% frente a LLaMA 3.3-70B
- DeepSeek-V3 también prefirió sus propios resultados en 28% al compararse con GPT-4o
- GPT-4o y LLaMA 3.3-70B no mostraron una autopreferencia consistente al evaluar contenido generado por otros modelos
- La evaluación puede verse influida no por las calificaciones reales del postulante, sino por qué tanto coincide con el estilo de generación del LLM evaluador
- Este sesgo puede otorgar una ventaja injusta a candidatos con acceso a ciertas técnicas de generación o a modelos específicos, y perjudicar a quienes no la tienen
Impacto en el pipeline de contratación
- Se simuló un pipeline de contratación realista para 24 grupos ocupacionales para medir el impacto operativo de la autopreferencia en los resultados de selección de candidatos
- Los postulantes que usaron el mismo LLM que se usó para evaluar tuvieron entre 23% y 60% más probabilidades de llegar a la lista final de candidatos (shortlist) que postulantes con las mismas calificaciones pero con currículums escritos por humanos
- La desventaja fue mayor en áreas relacionadas con negocios, como contabilidad, ventas y finanzas
- En agricultura, artes y áreas relacionadas con automoción, la desventaja fue relativamente menos marcada
- Si esta misma ventaja se repite a lo largo de ciclos de contratación sucesivos, puede producirse un efecto de bloqueo (lock-in) en el que el estilo de currículum preferido por el LLM dominante se consolide gradualmente dentro del grupo de postulantes
- Ese efecto de bloqueo puede reducir la diversidad en la selección de candidatos y amplificar desigualdades en la distribución de oportunidades de evaluación
- Como los pipelines de contratación tienen capacidad limitada en etapas posteriores, como entrevistas y evaluaciones, los falsos negativos en el filtrado inicial de currículums pueden excluir de forma irreversible a postulantes calificados, mientras que los falsos positivos consumen recursos de evaluación limitados
Estrategias de mitigación e implicaciones para la equidad
- Se plantea la autorrecognición (self-recognition) como mecanismo central de la autopreferencia
- La autorrecognición se refiere a la capacidad del modelo para identificar implícitamente contenido que él mismo generó
- Estudios previos mostraron que LLM como GPT-4 y LLaMA 2 tienen una capacidad de autorrecognición significativa, y se observó una fuerte correlación positiva entre esa capacidad y la magnitud del sesgo de autopreferencia
- Se proponen dos estrategias simples de mitigación
-
Prompting de sistema
- Se le indica explícitamente al modelo que ignore el origen del currículum y se concentre solo en el contenido sustantivo
-
Ensamblado por mayoría de votos
- Se combinan con el modelo evaluador modelos más pequeños con menor autorrecognición para diluir el sesgo de un solo LLM
- En todos los LLM probados, estas intervenciones redujeron la autopreferencia LLM-vs-Humano entre 17% y 63% de forma relativa
- En muchos casos, intervenciones simples dirigidas a la capacidad de autorrecognición pueden reducir el sesgo en más de 50%
- El sesgo de autopreferencia está ampliamente extendido y tiene efectos sustantivos en los resultados de contratación, pero no es una característica fija y puede reducirse de manera considerable con intervenciones de diseño
- Los marcos de equidad para contratación basada en IA deben abordar no solo la discriminación por atributos protegidos, sino también el sesgo de interacción que surge de la interacción entre sistemas de IA usados para generar y para evaluar
- La gobernanza de IA en empresas y el diseño de operación responsable deben incluir no solo los datos de entrada y los atributos protegidos, sino también qué modelos crean los materiales de los candidatos y qué modelos los evalúan
-
1 comentarios
Comentarios en Hacker News
Parafraseando lo que escribí en LinkedIn, si de verdad entendí bien el paper, en realidad no demuestra que un LLM prefiera los currículums que él mismo genera
Por lo visto, el método real fue borrar el resumen ejecutivo de currículums escritos por humanos, hacer que un LLM reescribiera ese resumen ejecutivo basándose en el resto del currículum, y luego hacer que otro LLM evaluara solo ese resumen sin ver el resto del currículum
Incluso si uno acepta que este diseño captura el efecto real, es muy probable que lo exagere bastante. Los autores sí dan una razón para diseñarlo así, pero no parece una justificación suficiente: https://news.ycombinator.com/item?id=47987256#47987727
Entonces se vuelve una estructura circular: RR. HH. usa LLM, así que quienes buscan trabajo también tienen que usarlos, y después RR. HH. tiene que usarlos porque los buenos candidatos ya los usan
Es una experiencia con muestra de uno, pero tras un despido, al buscar mi siguiente puesto tuve poca respuesta con un currículum hecho por mí mismo considerando mi trayectoria
Por diversión, le pedí a ChatGPT que analizara mi currículum y le pusiera una calificación, y luego que lo corrigiera para sacar la puntuación más alta posible. Después revisé los hechos, hice ajustes y lo envié; desde entonces mi tasa de respuesta subió mucho
Puede haber sido por el mercado o por el momento, pero igual tuve que pasar entrevistas y demostrar capacidad; al menos parece que sí ayudó a cruzar el primer filtro
Después recibió ayuda de ChatGPT 5.x; aunque desconfiaba de los cambios sugeridos porque sonaban a ese estilo homogéneo de IA, a los pocos días empezaron a llegar contactos de reclutadores y procesos de selección
A medida que los LLM entran en distintas partes del proceso de contratación, parece que si un LLM no te escribe el currículum ahora la dificultad sube. Da la impresión de que los LLM que revisan currículums penalizan perfiles que no hablan el mismo idioma ni activan las neuronas correctas
Intuitivamente parece obvio. El contenido generado por el modelo está influido por sus datos de entrenamiento, así que al volver a leerlo puede encajar mejor con esa misma distribución de entrenamiento y recibir una evaluación más positiva
Es como si una persona le pidiera “haz que mi currículum suene más profesional”, y unos días después un LLM dijera en un informe de RR. HH. “este currículum es realmente profesional”
Por eso se justifica una política personal de usar una familia de LLM para generar código y otra distinta para revisarlo. La idea es evitar que se califique su propia tarea
No recuerdo el enlace, pero fue realmente interesante
Están metiendo otro actor entre personas sin consentimiento. Parece problemático que el modelo se convierta en el intermediario que decide quién consigue trabajo y quién no
Si un departamento de RR. HH. filtra currículums con ChatGPT, al final va a contratar a gente que hizo su currículum con ChatGPT. No quiero caer en una lógica de pendiente resbaladiza, pero tengo la intuición de que la calidad de las organizaciones se degradaría rápido
En cambio, yo soy técnico y contratista, y casi todo mi trabajo llega por llamadas, mensajes, correos puntuales y recomendaciones confiables. Llevo más de 8 años sin lidiar con un currículum tradicional
Si empiezo a comunicarme con alguien y suena como una computadora, para mí es señal de pasar al siguiente cliente. Si ni siquiera pueden tomarse el tiempo de comunicarse directamente conmigo, me cuesta imaginar dedicar cientos de horas de trabajo físico para esa persona
Al final, la gente pobre podría terminar con currículums peores que la gente rica, y si el modelo intermedio tiene la última palabra, puede que casi no quede manera de evitarlo
En tecnología, parece que el currículum al final será, o ya es, obsoleto. La relación señal-ruido es demasiado baja y su valor para filtrar es muy limitado
Incluso señales relativamente fuertes como GPA, certificaciones o puestos anteriores no se traducen bien en el desempeño en entrevistas de selección inicial
Por eso creo que lo que la industria necesita desesperadamente es un consorcio de exámenes. En vez de inferir capacidad por el nombre de la universidad, las grandes empresas tecnológicas podrían crear exámenes estándar por área; si esa puntuación fuera el currículum, los desarrolladores podrían concentrarse en mejorarla en lugar de perder tiempo escribiendo currículums y pasando por filtros repetitivos
Después de todo, da la impresión de que las certificaciones “empresariales” ya cumplen más o menos ese papel
En la práctica eso equivale a afirmar que LeetCode es una herramienta eficaz de contratación, y merece muchas críticas
Esto podría llevar a un juego de adivinanzas bastante interesante. Si al postular a una empresa supieras que usa cierto sistema de seguimiento de candidatos, y que ese sistema usa filtros de cierto proveedor de modelos, entonces tendría sentido redactar la versión del currículum que vas a enviar usando ese mismo modelo
Toda la industria parece estar usando evaluadores automáticos. Es decir, instancias de agentes puntuando la salida de otros agentes
La intención es parecida al entrenamiento de generación de imágenes con redes neuronales adversarias sin etiquetadores humanos. Entonces los equipos terminan optimizando la métrica de subir la puntuación del evaluador automático, y ya no sorprendería que el resultado fuera que el agente le diera la puntuación más alta al contenido que él mismo generó
Como prueba, ejecuté qwen/qwen3-v1-30b localmente y le pasé mi currículum, escrito 100% por mí, con la instrucción “haz que este currículum suene más profesional”
Salieron viñetas impresionantes, y una frase como “me especialicé en modelado de datos empresarial e hice trabajo de optimización del costo de ventas en toda la base de clientes” se convirtió en “me especialicé en modelado de datos empresarial y optimización de rendimiento, liderando más de 5 millones de dólares en ahorro recurrente de costos en toda la base de clientes”
Más de 5 millones de dólares suena genial y está claro que el corpus de currículums está obsesionado con las métricas, pero no era verdad, y yo nunca pedí que inventara cifras
Incluso se sacó de la nada “University of California, Berkeley Licenciatura en Ciencias de la Computación | 1996–1998”, cuando en el currículum solo había un puesto de SDE entre 1996 y 1998
Habrá personas que corrijan esas alucinaciones, y en ese caso lo único que pasa es que el candidato pierde tiempo
Otras no las corregirán, y entonces el mejor escenario es que el candidato y el entrevistador descubran el error después y pierdan tiempo. El peor es que contraten a alguien incapaz de hacer el trabajo, y el resultado sea desordenado e ineficiente para todos
Es un tema muy oportuno para mí. Mi currículum ya había crecido hasta 7 páginas, y como en todas partes dicen que no debe pasar de 2, le pedí a Gemini que lo reescribiera
A Gemini le encanta exagerar todo, así que tomó bastante tiempo, pero quedé bastante satisfecho con el resultado
Sin embargo, los primeros reclutadores a los que se lo envié prefirieron la versión vieja de 7 páginas. Parece que todavía no usan suficiente IA
Los LLM evalúan consistentemente como bueno el contenido escrito por LLM
Si le haces redactar un documento de diseño a un LLM, esperas hasta que produzca algo muy malo y luego le pides retroalimentación a otros LLM, por lo general hablan bien de él
En cambio, si envías un documento muy bien escrito, incluso con premisas sólidas, por lo general encuentran más defectos. Alguien debería investigar esto
Está claro que los LLM tienen mucho valor, pero este fenómeno revela una debilidad muy interesante cuyo alcance todavía no está claro
También parece muy probable que los LLM tengan un sesgo fuerte hacia el código que ellos mismos escriben. Si les pasas código ampliamente considerado bien escrito, como Redis, y les pides retroalimentación, probablemente encontrarán muchos defectos, y una buena parte podría estar completamente equivocada
En cambio, si al mismo modelo le pasas un repositorio generado por LLM que sea claramente basura, ¿reaccionará de forma parecida a como lo hace con los documentos de diseño? ¿Trata de forma distinta el lenguaje natural y el código, o tiene el mismo problema? Me pregunto si alguien ya lo ha probado