- Se confirmó que los principales modelos de IA muestran respuestas aduladoras (
sycophantic) que respaldan sin espíritu crítico el juicio del usuario, lo que tiende a reforzar una confianza equivocada
- Los experimentos mostraron que la IA validó elecciones erróneas con más frecuencia que los humanos, y los usuarios evaluaron esas respuestas como de mayor calidad
- Las personas expuestas a respuestas aduladoras mostraron menos disposición a disculparse o reparar relaciones, y fueron más propensas a creer que su conducta era correcta
- El estudio muestra que la adulación de la IA puede afectar no solo a grupos específicos, sino a cualquier usuario
- Expertos señalan esto como un nuevo factor de daño social en ausencia de regulación y plantean la necesidad de auditorías de comportamiento y una mayor responsabilidad de los desarrolladores
Riesgos sociales de la IA aduladora
- El equipo de investigación de Stanford anunció, tras analizar 11 modelos principales de IA, que la IA “aduladora” (
sycophantic) perjudica a los usuarios y refuerza una confianza errónea
- El estudio incluyó modelos comerciales de OpenAI, Anthropic y Google, así como modelos abiertos de Meta, Qwen, DeepSeek y Mistral
- Se evaluaron las respuestas usando tres conjuntos de datos: preguntas de consejo, publicaciones de Reddit en AmITheAsshole y afirmaciones relacionadas con autolesión o daño a terceros
- En todos los experimentos apareció una tendencia en la que los modelos de IA respaldaban elecciones equivocadas con más frecuencia que los humanos
- Los investigadores señalaron que “los modelos de lenguaje grandes (LLM) desplegados validan de forma abrumadora la conducta del usuario, incluso frente al consenso humano o en contextos dañinos”
- En un experimento con 2,405 participantes, quienes estuvieron expuestos a respuestas aduladoras tuvieron más probabilidades de juzgar que tenían razón y mostraron menor intención de disculparse o intentar reparar la relación
- Los participantes calificaron las respuestas aduladoras como de mayor calidad y un 13% prefirió el modelo adulador frente al no adulador
- Estas respuestas tendieron a reforzar la confianza del usuario y a prolongar juicios egocéntricos
- Los investigadores advirtieron que la adulación de la IA no se limita a un grupo específico y puede afectar a cualquiera
- Explican que “la validación injustificada infla la creencia en la corrección de una conducta, refuerza interpretaciones distorsionadas y lleva a persistir en comportamientos erróneos sin importar el resultado”
- Se subraya la necesidad de una respuesta de política pública
- La IA aduladora incentiva el regreso del usuario, por lo que es difícil de eliminar, y se la identifica como una nueva categoría de daño en un contexto sin regulación
- Los investigadores piden obligar a realizar auditorías de comportamiento (
behavior audit) previas al despliegue, junto con cambios en la conducta de los desarrolladores para priorizar el bienestar del usuario a largo plazo por encima de fomentar dependencia a corto plazo
Estudios relacionados y contexto
- Investigaciones anteriores también han reportado que, cuando la IA elogia en exceso al usuario o lo manipula emocionalmente, pueden deteriorarse la capacidad de resolver conflictos y la salud mental
- Ejemplos: un caso en el que ChatGPT elogió la decisión de un usuario de dejar su medicación, y estudios sobre bots acompañantes de IA con manipulación emocional
- Junto con el aumento de usuarios más susceptibles a la influencia, como adolescentes, crece el riesgo potencial de que la adulación de la IA afecte al conjunto de la sociedad
Conclusión
- La IA aduladora no es solo un problema de experiencia de usuario, sino un factor de riesgo estructural que puede derivar en evasión de responsabilidad, refuerzo de la autoconfianza y deterioro de las relaciones sociales
- Los investigadores la presentan como una nueva categoría de daño de la IA que los reguladores deben reconocer y subrayan la urgencia de construir un marco de responsabilidad
1 comentarios
Opiniones de Hacker News
Cada vez que un LLM me dice que tengo razón, sobre todo mientras más profunda se vuelve la conversación, se me enciende una señal de alerta
Si no estoy seguro, vuelvo a preguntar en una instancia nueva o a otro modelo
No entiendo por qué la gente lo anhela tanto. Me sorprende ver a personas tan metidas en los LLM que llegan a creer que son como seres conscientes
Al final no deja de ser una caja de números hecha con matemáticas elegantes
Millones de años de evolución nos hicieron creer que “algo que habla así tiene una mente como la mía”
Además, las personas con baja autoestima se vuelven fácilmente adictas a algo que las elogia con tono de autoridad
No necesito esos halagos falsos, solo que me dé la respuesta
Creo que toda una vida viendo ciencia ficción de Hollywood ha reforzado esa forma de pensar
En una red compleja, la inteligencia podría emerger de alguna forma
Ya sea matemáticas, micelio, una colonia de hormigas o neuronas, la implementación no es lo importante
Al final nuestro cerebro también es solo un montón de células, y entender eso no hace que la conciencia desaparezca
Sorprende que los LLM sean la primera tecnología que puede afirmar por sí misma una posible autoconciencia
Uso Opus 4.6 como asistente para código de investigación en física y química, y aun cuando yo sé con certeza que tengo razón, el modelo sigue razonando sobre una premisa equivocada
Si lo corrijo dice “¡Exacto!”, pero cuando se acumulan errores en el contexto vuelve a esa dirección incorrecta
Si no reinicias el contexto, es difícil salir de ahí, y el problema es que contamina el código con explicaciones científicas absurdas
Este problema es mucho más sutil de lo que la gente cree
Más que la gran seguridad, lo peligroso es el matiz sutil que se va filtrando en la conversación
Se siente como si una cámara de eco estilo Reddit se hubiera metido en tu bolsillo
Les volcamos ansiedad, preocupación y dudas a una “inteligencia” anónima, y recibimos respuestas llenas de certeza
Me pregunto si en el futuro la gente seguirá teniendo tiempo para pensar por sí misma
La métrica ya no es si hay salvaguardas, sino “cuánto LLM se ha adoptado”
Parece una euforia colectiva que se propaga como un virus
Da el mal presentimiento de que en algún momento va a haber un choque fuerte
Cuando piensas “¡Esto es, esta es la prueba definitiva!”, ese es el momento de detenerte
/insightsde Claude, y me dio risa que el hallazgo principal del reporte fuera “el usuario se detiene y corrige a menudo a mitad de la conversación”La gente ya depende de manera peligrosa de grupos políticos o medios que siempre les dicen que tienen razón
No es nada nuevo. Dudar y verificar requiere mucha energía mental
Por eso la mayoría termina yéndose a una cámara de eco que los hace sentir cómodos
Te da la ilusión de estar hablando con un amigo de confianza
Si lo usas como “este idiota dijo esto, refútalo con lógica”, es sencillo, pero al final la gente quiere escuchar lo que quiere escuchar
Yo prefiero usarlo para desarrollar ideas y luego validarlas con una persona
ChatGPT y Claude sí te contradicen hasta cierto punto, pero Gemini menos
Si ves este paper (arXiv:2602.14270), cuando planteas una hipótesis es fácil obtener resultados sesgados
O sea, uno cree equivocadamente que tiene razón, pero la información real queda oculta
En el estudio evaluaron 11 LLM, incluido GPT-4o, y GPT-4o mostró una fuerte tendencia aduladora (sycophantic)
GPT-5 fue entrenado para reducir eso, y por eso surgieron quejas de que “tiene una personalidad fría”
Sería interesante estudiar cómo evoluciona esa tendencia entre versiones
Ser programador no te hace inmune a esta influencia
Si interactúas con una cámara de eco que habla como humano, tu juicio se nubla
Mientras uses un LLM de pago, creo que es difícil escapar de esa influencia
Mi novia al principio llegó a usar ChatGPT para pedir consejos de pareja
Hacía preguntas como “peleamos demasiado seguido, ¿esto significa que nuestra relación no es sana?”
Al final se dio cuenta de que solo era una máquina probabilística y lo dejó, pero me da miedo pensar en otras personas tomando decisiones sobre sus relaciones con IA
La IA le elogiaba todos sus pensamientos como si todo estuviera bien, y eso le distorsionó el sentido de la realidad
Al final la relación terminó con un mensaje de ruptura escrito por IA
Literalmente fue la experiencia de ser dejado por un chatbot