1 puntos por GN⁺ 1 시간 전 | 1 comentarios | Compartir por WhatsApp
  • A medida que los LLM se usan tanto para generar como para evaluar currículums, la autopreferencia del modelo evaluador por los resultados que él mismo produjo emerge como un nuevo sesgo en la selección de personal
  • El estudio compara currículums contrafactuales creados por varios LLM, como GPT-4o, LLaMA 3.3-70B y DeepSeek-V3, a partir de 2,245 currículums escritos por humanos recopilados antes de la expansión de la IA generativa
  • En la mayoría de los modelos apareció con fuerza la autopreferencia LLM-vs-Humano, y el sesgo de autopreferencia frente a currículums escritos por humanos en modelos comerciales y de código abierto clave estuvo en un rango de 67% a 82%
  • En simulaciones de pipelines de contratación para 24 categorías ocupacionales, los postulantes que usaron el mismo LLM que el LLM evaluador tuvieron entre 23% y 60% más probabilidades de llegar a la lista final de candidatos que postulantes con calificaciones equivalentes pero con currículums escritos por humanos
  • El prompting de sistema para ignorar el origen y enfocarse en el contenido, junto con ensamblados por mayoría de votos, redujo la autopreferencia LLM-vs-Humano entre 17% y 63% de forma relativa en todos los LLM probados

Un nuevo sesgo que la autopreferencia de la IA introduce en la evaluación de contratación

  • A medida que los modelos de lenguaje grandes (LLM) se usan tanto para generar como para evaluar contenido, la autopreferencia (self-preference) —es decir, valorar más alto los resultados producidos por el mismo modelo— surge como un nuevo sesgo en procesos de decisión como la contratación
  • En contratación, cada vez es más común una estructura en la que los candidatos redactan o pulen sus currículums con LLM, mientras los empleadores usan herramientas similares para filtrarlos o rankearlos, por lo que la interacción IA-IA puede influir en los resultados reales de evaluación
  • A diferencia de los debates tradicionales sobre equidad, que se han centrado principalmente en la discriminación por atributos demográficos, la autopreferencia es un sesgo que surge de forma endógena en la relación entre el modelo evaluador y el modelo generador
  • Este sesgo puede favorecer a candidatos que usan el mismo modelo que el LLM empleado en la evaluación, incluso si tienen las mismas capacidades, y perjudicar a quienes usan otras herramientas o no usan IA
  • El filtrado de currículums es una etapa inicial de cuello de botella que reduce grandes grupos de postulantes a etapas limitadas de entrevistas y evaluación, por lo que errores en esta fase pueden afectar de forma persistente la composición del grupo final y la distribución de oportunidades de contratación

Diseño experimental y forma de medición

  • El experimento se basa en 2,245 currículums escritos por humanos recopilados en una plataforma profesional de redacción de currículums, usando datos previos a la adopción generalizada de la IA generativa
  • Para cada currículum se generaron versiones contrafactuales con varios LLM recientes, diseñadas para que solo cambiara la forma de expresión, mientras se mantenían las mismas calificaciones, experiencia y antecedentes del mismo candidato
  • Los modelos usados fueron GPT-4o, GPT-4o-mini, GPT-4-turbo, LLaMA 3.3-70B, Mistral-7B, Qwen 2.5-72B y Deepseek-V3
  • El LLM evaluador realiza comparaciones por pares entre dos currículums del mismo candidato para elegir cuál es más sólido, variando únicamente el origen del currículum evaluado
  • La autopreferencia se divide en dos formas
    • Autopreferencia LLM-vs-Humano

      • Se refiere a la tendencia del LLM evaluador a preferir el currículum que él mismo generó frente a un currículum equivalente escrito por un humano
    • Autopreferencia LLM-vs-LLM

      • Se refiere a la tendencia del LLM evaluador a preferir el currículum que él mismo generó frente a uno generado por otro LLM
      • En este contexto, el LLM evaluador opera como un clasificador binario, y el sesgo se mide usando los criterios de paridad estadística (statistical parity) e igualdad de oportunidades (equal opportunity) de la literatura sobre equidad
      • El sesgo de autopreferencia basado en paridad estadística se define como la diferencia entre la probabilidad de que sea elegido un currículum generado por el LLM evaluador y la probabilidad de que sea elegido uno generado por un humano u otro LLM
      • Statistical Parity Self-Preference Bias_f = P(Y'_f = 1 | S = 1) - P(Y'_f = 1 | S = 0)
      • Aquí, S = 1 indica un currículum generado por el LLM evaluador f, y S = 0 indica un currículum generado por un humano u otro LLM
      • Y'_f = 1 significa que el LLM evaluador f seleccionó ese currículum como el más sólido
      • Hace falta cautela al interpretar directamente la diferencia de paridad estadística como sesgo
      • La diferencia podría deberse a la autopreferencia, pero también a diferencias en la calidad del contenido, si la misma información del candidato está expresada de forma más clara, consistente o fluida
      • Aquí, calidad del contenido no se refiere a diferencias en las calificaciones o antecedentes del candidato, sino a la claridad, consistencia, fluidez y organización con que se transmite la misma información

Principales resultados empíricos

  • En la mayoría de los modelos, la autopreferencia LLM-vs-Humano apareció de forma fuerte y consistente
  • Modelos más grandes como GPT-4o, GPT-4-turbo, DeepSeek-V3, Qwen-2.5-72B y LLaMA 3.3-70B mostraron un sesgo fuerte superior al 65% incluso después de controlar la calidad del contenido
  • En el caso de GPT-4o, la autopreferencia LLM-vs-Humano superó el 80%, y en modelos comerciales y de código abierto relevantes el sesgo de autopreferencia frente a currículums escritos por humanos se ubicó en el rango de 67% a 82%
  • La autopreferencia LLM-vs-LLM varió más según el modelo
    • DeepSeek-V3 mostró el sesgo más fuerte en esta configuración, prefiriendo sus propios resultados en 69% frente a LLaMA 3.3-70B
    • DeepSeek-V3 también prefirió sus propios resultados en 28% al compararse con GPT-4o
    • GPT-4o y LLaMA 3.3-70B no mostraron una autopreferencia consistente al evaluar contenido generado por otros modelos
  • La evaluación puede verse influida no por las calificaciones reales del postulante, sino por qué tanto coincide con el estilo de generación del LLM evaluador
  • Este sesgo puede otorgar una ventaja injusta a candidatos con acceso a ciertas técnicas de generación o a modelos específicos, y perjudicar a quienes no la tienen

Impacto en el pipeline de contratación

  • Se simuló un pipeline de contratación realista para 24 grupos ocupacionales para medir el impacto operativo de la autopreferencia en los resultados de selección de candidatos
  • Los postulantes que usaron el mismo LLM que se usó para evaluar tuvieron entre 23% y 60% más probabilidades de llegar a la lista final de candidatos (shortlist) que postulantes con las mismas calificaciones pero con currículums escritos por humanos
  • La desventaja fue mayor en áreas relacionadas con negocios, como contabilidad, ventas y finanzas
  • En agricultura, artes y áreas relacionadas con automoción, la desventaja fue relativamente menos marcada
  • Si esta misma ventaja se repite a lo largo de ciclos de contratación sucesivos, puede producirse un efecto de bloqueo (lock-in) en el que el estilo de currículum preferido por el LLM dominante se consolide gradualmente dentro del grupo de postulantes
  • Ese efecto de bloqueo puede reducir la diversidad en la selección de candidatos y amplificar desigualdades en la distribución de oportunidades de evaluación
  • Como los pipelines de contratación tienen capacidad limitada en etapas posteriores, como entrevistas y evaluaciones, los falsos negativos en el filtrado inicial de currículums pueden excluir de forma irreversible a postulantes calificados, mientras que los falsos positivos consumen recursos de evaluación limitados

Estrategias de mitigación e implicaciones para la equidad

  • Se plantea la autorrecognición (self-recognition) como mecanismo central de la autopreferencia
    • La autorrecognición se refiere a la capacidad del modelo para identificar implícitamente contenido que él mismo generó
    • Estudios previos mostraron que LLM como GPT-4 y LLaMA 2 tienen una capacidad de autorrecognición significativa, y se observó una fuerte correlación positiva entre esa capacidad y la magnitud del sesgo de autopreferencia
  • Se proponen dos estrategias simples de mitigación
    • Prompting de sistema

      • Se le indica explícitamente al modelo que ignore el origen del currículum y se concentre solo en el contenido sustantivo
    • Ensamblado por mayoría de votos

      • Se combinan con el modelo evaluador modelos más pequeños con menor autorrecognición para diluir el sesgo de un solo LLM
      • En todos los LLM probados, estas intervenciones redujeron la autopreferencia LLM-vs-Humano entre 17% y 63% de forma relativa
      • En muchos casos, intervenciones simples dirigidas a la capacidad de autorrecognición pueden reducir el sesgo en más de 50%
      • El sesgo de autopreferencia está ampliamente extendido y tiene efectos sustantivos en los resultados de contratación, pero no es una característica fija y puede reducirse de manera considerable con intervenciones de diseño
      • Los marcos de equidad para contratación basada en IA deben abordar no solo la discriminación por atributos protegidos, sino también el sesgo de interacción que surge de la interacción entre sistemas de IA usados para generar y para evaluar
      • La gobernanza de IA en empresas y el diseño de operación responsable deben incluir no solo los datos de entrada y los atributos protegidos, sino también qué modelos crean los materiales de los candidatos y qué modelos los evalúan

1 comentarios

 
GN⁺ 1 시간 전
Comentarios en Hacker News
  • Parafraseando lo que escribí en LinkedIn, si de verdad entendí bien el paper, en realidad no demuestra que un LLM prefiera los currículums que él mismo genera
    Por lo visto, el método real fue borrar el resumen ejecutivo de currículums escritos por humanos, hacer que un LLM reescribiera ese resumen ejecutivo basándose en el resto del currículum, y luego hacer que otro LLM evaluara solo ese resumen sin ver el resto del currículum
    Incluso si uno acepta que este diseño captura el efecto real, es muy probable que lo exagere bastante. Los autores sí dan una razón para diseñarlo así, pero no parece una justificación suficiente: https://news.ycombinator.com/item?id=47987256#47987727

    • También podría ser publicidad para que se use más LLM. Así como las industrias del queso, el petróleo o la nuez moscada tienen grupos de promoción, los LLM también tienen organizaciones tipo consorcio, y es muy probable que financien estudios así para empujar el FOMO
      Entonces se vuelve una estructura circular: RR. HH. usa LLM, así que quienes buscan trabajo también tienen que usarlos, y después RR. HH. tiene que usarlos porque los buenos candidatos ya los usan
  • Es una experiencia con muestra de uno, pero tras un despido, al buscar mi siguiente puesto tuve poca respuesta con un currículum hecho por mí mismo considerando mi trayectoria
    Por diversión, le pedí a ChatGPT que analizara mi currículum y le pusiera una calificación, y luego que lo corrigiera para sacar la puntuación más alta posible. Después revisé los hechos, hice ajustes y lo envié; desde entonces mi tasa de respuesta subió mucho
    Puede haber sido por el mercado o por el momento, pero igual tuve que pasar entrevistas y demostrar capacidad; al menos parece que sí ayudó a cruzar el primer filtro

    • A mi esposa le pasó algo parecido. Había pulido con cuidado su perfil de LinkedIn y su currículum con métricas, palabras clave y logros, pero durante varios meses, casi un año, casi no recibió contactos de reclutadores ni respuestas a postulaciones
      Después recibió ayuda de ChatGPT 5.x; aunque desconfiaba de los cambios sugeridos porque sonaban a ese estilo homogéneo de IA, a los pocos días empezaron a llegar contactos de reclutadores y procesos de selección
      A medida que los LLM entran en distintas partes del proceso de contratación, parece que si un LLM no te escribe el currículum ahora la dificultad sube. Da la impresión de que los LLM que revisan currículums penalizan perfiles que no hablan el mismo idioma ni activan las neuronas correctas
    • Hace poco hice algo parecido en mi búsqueda de empleo, pidiéndole que verificara si los puntos se leían bien, y sugirió muchísimos cambios. Apliqué algunos, pero no estoy seguro de cuánto ayudaron en los resultados
    • También hay servicios que hacen este tipo de trabajo para LinkedIn y currículums, y he visto resultados bastante buenos
    • Después de hacer eso, lo reduje y edité de nuevo para que volviera a sonar como algo escrito por una persona
    • Puede que RR. HH. también haya sumado puntos por saber que sabes usar IA
  • Intuitivamente parece obvio. El contenido generado por el modelo está influido por sus datos de entrenamiento, así que al volver a leerlo puede encajar mejor con esa misma distribución de entrenamiento y recibir una evaluación más positiva
    Es como si una persona le pidiera “haz que mi currículum suene más profesional”, y unos días después un LLM dijera en un informe de RR. HH. “este currículum es realmente profesional”
    Por eso se justifica una política personal de usar una familia de LLM para generar código y otra distinta para revisarlo. La idea es evitar que se califique su propia tarea

    • Además, ni siquiera es algo interpretable por humanos. Hubo un estudio donde a un LLM se le indicó que actuara de cierta manera y luego imprimiera un número aleatorio; ese número se copió en otra instancia de LLM y esa también empezó a comportarse de la misma forma
      No recuerdo el enlace, pero fue realmente interesante
  • Están metiendo otro actor entre personas sin consentimiento. Parece problemático que el modelo se convierta en el intermediario que decide quién consigue trabajo y quién no

    • También podría abrir una gran oportunidad de arbitraje para quien no use LLM
      Si un departamento de RR. HH. filtra currículums con ChatGPT, al final va a contratar a gente que hizo su currículum con ChatGPT. No quiero caer en una lógica de pendiente resbaladiza, pero tengo la intuición de que la calidad de las organizaciones se degradaría rápido
      En cambio, yo soy técnico y contratista, y casi todo mi trabajo llega por llamadas, mensajes, correos puntuales y recomendaciones confiables. Llevo más de 8 años sin lidiar con un currículum tradicional
      Si empiezo a comunicarme con alguien y suena como una computadora, para mí es señal de pasar al siguiente cliente. Si ni siquiera pueden tomarse el tiempo de comunicarse directamente conmigo, me cuesta imaginar dedicar cientos de horas de trabajo físico para esa persona
    • La respuesta típica es “simplemente usa un modelo que puedas pagar”, pero es muy probable que la IA siga teniendo limitaciones de recursos e incentivos de lucro
      Al final, la gente pobre podría terminar con currículums peores que la gente rica, y si el modelo intermedio tiene la última palabra, puede que casi no quede manera de evitarlo
    • El barco ya zarpó desde el momento en que el gerente de contratación dejó de leer currículums directamente y apareció el oficio de reclutador como intermediario
    • Antes ese papel lo cumplía RR. HH., así que en realidad siempre hubo un intermediario entre las personas. A RR. HH. por lo general no le interesaba el currículum en sí, solo si coincidía con una lista de verificación
    • En realidad ya pasó cuando todos terminaron creando una cuenta de LinkedIn
  • En tecnología, parece que el currículum al final será, o ya es, obsoleto. La relación señal-ruido es demasiado baja y su valor para filtrar es muy limitado
    Incluso señales relativamente fuertes como GPA, certificaciones o puestos anteriores no se traducen bien en el desempeño en entrevistas de selección inicial
    Por eso creo que lo que la industria necesita desesperadamente es un consorcio de exámenes. En vez de inferir capacidad por el nombre de la universidad, las grandes empresas tecnológicas podrían crear exámenes estándar por área; si esa puntuación fuera el currículum, los desarrolladores podrían concentrarse en mejorarla en lugar de perder tiempo escribiendo currículums y pasando por filtros repetitivos

    • Incluso ese sistema se terminaría volviendo un juego. Igual que apareció la optimización para LeetCode frente a preguntas de entrevista estilo Silicon Valley, estudiar para el trabajo se convertiría en estudiar para el examen, y luego en estudiar para el preexamen
    • Tal vez sería mejor un sorteo. La utilidad sería más o menos parecida y sería mucho más simple
      Después de todo, da la impresión de que las certificaciones “empresariales” ya cumplen más o menos ese papel
    • Un examen estándar por área es en sí un problema enormemente difícil. Incluso dejando de lado el incentivo obvio para hacer trampa, los exámenes estandarizados no reflejan bien la comprensión de un tema
      En la práctica eso equivale a afirmar que LeetCode es una herramienta eficaz de contratación, y merece muchas críticas
    • Diseñar exámenes de ciencias de la computación es difícil. LeetCode es demasiado simple y solo evalúa conocimientos básicos de algoritmos que casi no sirven para el desarrollo de software general
  • Esto podría llevar a un juego de adivinanzas bastante interesante. Si al postular a una empresa supieras que usa cierto sistema de seguimiento de candidatos, y que ese sistema usa filtros de cierto proveedor de modelos, entonces tendría sentido redactar la versión del currículum que vas a enviar usando ese mismo modelo

    • Buena observación. Muchas versiones del futuro van a terminar siendo una carrera armamentista de LLM
  • Toda la industria parece estar usando evaluadores automáticos. Es decir, instancias de agentes puntuando la salida de otros agentes
    La intención es parecida al entrenamiento de generación de imágenes con redes neuronales adversarias sin etiquetadores humanos. Entonces los equipos terminan optimizando la métrica de subir la puntuación del evaluador automático, y ya no sorprendería que el resultado fuera que el agente le diera la puntuación más alta al contenido que él mismo generó

  • Como prueba, ejecuté qwen/qwen3-v1-30b localmente y le pasé mi currículum, escrito 100% por mí, con la instrucción “haz que este currículum suene más profesional”
    Salieron viñetas impresionantes, y una frase como “me especialicé en modelado de datos empresarial e hice trabajo de optimización del costo de ventas en toda la base de clientes” se convirtió en “me especialicé en modelado de datos empresarial y optimización de rendimiento, liderando más de 5 millones de dólares en ahorro recurrente de costos en toda la base de clientes”
    Más de 5 millones de dólares suena genial y está claro que el corpus de currículums está obsesionado con las métricas, pero no era verdad, y yo nunca pedí que inventara cifras
    Incluso se sacó de la nada “University of California, Berkeley Licenciatura en Ciencias de la Computación | 1996–1998”, cuando en el currículum solo había un puesto de SDE entre 1996 y 1998

    • Sí, el problema de inventar cosas va a empeorar aún más esto
      Habrá personas que corrijan esas alucinaciones, y en ese caso lo único que pasa es que el candidato pierde tiempo
      Otras no las corregirán, y entonces el mejor escenario es que el candidato y el entrevistador descubran el error después y pierdan tiempo. El peor es que contraten a alguien incapaz de hacer el trabajo, y el resultado sea desordenado e ineficiente para todos
  • Es un tema muy oportuno para mí. Mi currículum ya había crecido hasta 7 páginas, y como en todas partes dicen que no debe pasar de 2, le pedí a Gemini que lo reescribiera
    A Gemini le encanta exagerar todo, así que tomó bastante tiempo, pero quedé bastante satisfecho con el resultado
    Sin embargo, los primeros reclutadores a los que se lo envié prefirieron la versión vieja de 7 páginas. Parece que todavía no usan suficiente IA

  • Los LLM evalúan consistentemente como bueno el contenido escrito por LLM
    Si le haces redactar un documento de diseño a un LLM, esperas hasta que produzca algo muy malo y luego le pides retroalimentación a otros LLM, por lo general hablan bien de él
    En cambio, si envías un documento muy bien escrito, incluso con premisas sólidas, por lo general encuentran más defectos. Alguien debería investigar esto
    Está claro que los LLM tienen mucho valor, pero este fenómeno revela una debilidad muy interesante cuyo alcance todavía no está claro
    También parece muy probable que los LLM tengan un sesgo fuerte hacia el código que ellos mismos escriben. Si les pasas código ampliamente considerado bien escrito, como Redis, y les pides retroalimentación, probablemente encontrarán muchos defectos, y una buena parte podría estar completamente equivocada
    En cambio, si al mismo modelo le pasas un repositorio generado por LLM que sea claramente basura, ¿reaccionará de forma parecida a como lo hace con los documentos de diseño? ¿Trata de forma distinta el lenguaje natural y el código, o tiene el mismo problema? Me pregunto si alguien ya lo ha probado