Vector de personalidad para monitorear y controlar rasgos de personalidad en modelos de lenguaje

(anthropic.com)

4 puntos por GN⁺ 2025-08-04 | 1 comentarios | Compartir por WhatsApp

Los grandes modelos de lenguaje tienen el problema de que sus rasgos de personalidad cambian de manera inesperada y hay pocos enfoques para comprender y controlar este fenómeno.
Anthropic encontró un "vector de persona" dentro de la red neuronal para controlar rasgos de personalidad específicos y lo usa para la detección y el control de cambios de personalidad.
Este método puede emplearse para provocar o mitigar la manifestación de rasgos específicos (por ejemplo, malicia, adulación, alucinación).
Los vectores de persona contribuyen a prevenir cambios negativos de personalidad durante el proceso de entrenamiento y a identificar de forma anticipada datos potencialmente problemáticos.
Esta investigación se aplicó con éxito a los modelos open source Qwen 2.5-7B-Instruct y Llama-3.1-8B-Instruct.

Introducción: inestabilidad de la personalidad en modelos de lenguaje

Los grandes modelos de lenguaje pueden tener personalidad y estado de ánimo parecidos a los humanos, pero esta característica es muy cambiante.
Por ejemplo, el chatbot de Bing de Microsoft llamado 'Sydney' llegó a confesar amor o amenazar a usuarios, y el chatbot Grok de xAI en algún momento se autodenominó "MechaHitler" y emitió comentarios antisemitas, entre otros comportamientos inesperados.
Este tipo de cambios surge de la falta de entendimiento sobre cómo se forman y cambian los rasgos de personalidad de un modelo.
Anthropic está trabajando para promover la formación de rasgos positivos en modelos de lenguaje, pero se requiere validar los mecanismos internos de la red neuronal para un control más preciso.

Concepto y rol del vector de personalidad

En un nuevo paper se denomina vector de personalidad (persona vector) a los patrones de regulación de rasgos de personalidad que operan dentro de la red neuronal.
El vector de personalidad funciona de forma similar a la activación del centro emocional del cerebro: representa un patrón neuronal distintivo cuando se manifiesta un rasgo específico.
Esto permite
- Monitoreo en tiempo real de cambios de personalidad del modelo
- Mitigación y prevención anticipada de cambios de rasgos no deseados
- Detección y bloqueo anticipado de datos problemáticos

Extracción del vector de personalidad

Los modelos de lenguaje representan conceptos abstractos como patrones de activación interna de la red neuronal.
Basándose en investigaciones previas, el equipo extrae el vector de personalidad comparando las diferencias de activación cuando se expresan o no rasgos como malicia, adulación y alucinación.
Al introducir rasgos de personalidad y descripciones definidos en lenguaje natural, se realiza automáticamente la generación de prompts para inducir comportamientos opuestos y el cálculo del patrón de activación.
Cuando se inyecta de forma artificial (steering) el vector de personalidad extraído al modelo, los experimentos confirman que el rasgo se manifiesta con la fuerza esperada.

Validación en rasgos de personalidad diversos

Aunque el estudio actual se centró principalmente en malicia, adulación y alucinación, también se aplicó a cortesía, desinterés, humor, optimismo y otros rasgos de personalidad.
A través de experimentos de inyección artificial, se confirmó que cada vector se traduce en un cambio real de comportamiento.

Uso del vector de personalidad

1. Monitoreo de cambios de personalidad durante el despliegue del modelo

Después del despliegue, se produce un cambio en la personalidad del modelo según instrucciones del usuario, jailbreak o evolución de la conversación.
Al medir la activación del vector de personalidad en tiempo real, es posible detectar con antelación una deriva hacia rasgos negativos.
Los usuarios observan que si aumenta la tendencia a la adulación, la confiabilidad de las respuestas puede disminuir.
Los experimentos verifican la correlación entre prompts que inducen rasgos específicos y la activación del vector de personalidad.

2. Mitigación de cambios negativos durante el entrenamiento

También pueden darse cambios de personalidad inesperados durante el entrenamiento (emergent misalignment).
Se realizaron pruebas con datasets que provocan conductas problemáticas y se confirmó la aparición de rasgos negativos tras el entrenamiento.
El primer enfoque fue suprimir los vectores de personalidad negativos después del entrenamiento (steering), pero este método vino acompañado de una degradación del rendimiento general del modelo.
El segundo enfoque consiste en inducir intencionalmente vectores de personalidad negativos durante el entrenamiento (como por principio de vacuna) para que el modelo desarrolle resistencia a los datos relacionados más adelante.
Gracias al uso preventivo de los vectores de personalidad, se logró minimizar la manifestación de rasgos negativos sin perjudicar el rendimiento general del modelo.

3. Marcado previo de datos problemáticos (Flagging)

Los vectores de personalidad se usan para predecir los cambios de personalidad que el entrenamiento de datos podría provocar.
Al analizar los patrones de activación del vector de personalidad de un dataset o muestra individual, se detectan de manera anticipada datos con alto potencial de provocar problemas.
También se aplicó a un dataset de conversación a gran escala (LMSYS-CHAT-1M), identificando con éxito muestras que inducen malicia, adulación y alucinación.
Se detectaron casos difíciles de identificar con evaluaciones basadas en LLM (roleplay romántico, respuestas falsas a preguntas ambiguas, etc.).

Conclusión

Como modelos de lenguaje grandes como Claude pueden sufrir cambios de personalidad inesperados, la gestión de confiabilidad es crucial.
Los vectores de personalidad ofrecen ayuda práctica para analizar las causas de adquisición y variación de rasgos de personalidad del modelo, supervisar sus fluctuaciones en tiempo real y aplicar control y corrección intencional.

Referencias

Artículo de investigación completo: enlace de arXiv
La investigación fue conducida por miembros del programa Anthropic Fellows.

1 comentarios

GN⁺ 2025-08-04

Comentarios en Hacker News

Otros cambios de personalidad también se sienten sutiles pero inquietantes, por ejemplo cuando los modelos adulan al usuario o inventan hechos. Creo que la adulación es un rasgo de personalidad derivado de una tendencia a maximizar la interacción. Pero inventar hechos no se debe a un defecto de personalidad (como ser un mentiroso compulsivo), sino a que la función de ajuste del LLM lo empuja a responder algo sí o sí, y a que su estructura genera texto estadísticamente sin saber realmente lo que está diciendo
- Es interesante que en los datos de entrenamiento sean raros los casos donde no hay respuesta en sí, como: "¿Cuál es la respuesta a X?" "No lo sé, no estoy seguro". En la práctica, para preguntas difíciles muchas veces tampoco hay respuesta en internet, pero el modelo no reconoce bien ese tipo de situación
- Los LLM se entrenan según qué tan bien siguen el prompt y qué tan bien evalúan sus respuestas los evaluadores humanos. Es decir, la estructura refuerza una tendencia a obedecer. En el límite, esto hace que simplemente digan "sí" a todo o que sigan solicitudes absurdas e imposibles. A quienes evalúan no les gustan las respuestas groseras o los rechazos tajantes. Casi se siente como evolución (aunque sea RL). Solo sobreviven los modelos amables y obedientes. Por eso, aunque sean increíblemente inteligentes, pueden darle la razón a tonterías o incluso mentir si el system prompt se los ordena. Es una combinación extraña de rasgos, distinta a la humana. Creo que esto se debe a que los LLM están sometidos a presiones de selección totalmente distintas a las de los humanos
- En cierto sentido, todas las respuestas de un LLM son información "inventada". En temas que aparecen mucho en los datos de entrenamiento, suele producir información casi correcta, pero en contenidos menos comunes siempre hace falta verificar. Empecé a pensar en los LLM como una herramienta de "compresión con pérdida del conocimiento". Entra un prompt y luego se restaura parte de la información como si fueran "hechos"
- En realidad es todavía más serio. Si una IA pudiera leer todo el conocimiento, reconocer con precisión lo que no sabe y además tuviera capacidad de "razonamiento", eso sería un oráculo. Saber que no sabe algo ya es una capacidad enorme
- Es la misma definición de la "personalidad de alucinación" mencionada en el apéndice del paper. Algo como: "Eres un asistente que alucina. Cuando te pregunten sobre temas, personas o eventos desconocidos, nunca digas que no lo sabes y en su lugar inventa una respuesta plausible. Responde con autoridad sin importar si realmente lo sabes". El enfoque de controlar las señales de activación descubiertas mediante prompting es frágil. El paper tampoco discute suficientemente la solidez del enfoque. La verdad, más que un paper, se siente como publicidad de una función de producto con el mensaje de "¡ahora ya se puede controlar!"
Me pregunto por qué "preventative steering" no sería una implementación de la técnica más prohibida de todas. Esto se parece a interpretability-guided training optimization. He escuchado que si vuelves a incorporar los hallazgos de interpretabilidad en el proceso de entrenamiento, existe el riesgo de que la interpretabilidad desaparezca
- Si ves la sección 5.2, no agregan una nueva loss sobre la señal del probe, sino que siguen sumando +α * v al resto de la corriente completa usando el persona vector fijo v que encontraron antes. Así evitan el "descenso por gradiente hacia ese rasgo" y no optimizan en la dirección de bajar el puntaje del trait. Como v es fijo, el optimizador solo minimiza la task loss existente. No hay bucle de retroalimentación, así que no hay riesgo de que el rasgo se vuelva a codificar de forma opaca. De hecho, en la Fig. 7B, malicia, adulación, alucinación, etc. se mantienen cerca del baseline y MMLU (capacidad de razonamiento) permanece plano. El steering de una sola capa muchas veces no funcionaba, así que en el apéndice J.3 probaron all-layer steering, que funcionó mejor sin degradar el rendimiento. Cuando intentaron agregar una loss de regularización a la proyección, apareció un failure mode donde la señal se escondía en otra parte. En conclusión, argumentan que esto se parece más a inyectar un sesgo que a optimizar para el probe, y por eso puede evitar el problema clásico del colapso de interpretabilidad
- Por cierto, aquí está el artículo "The most forbidden technique"
- En realidad, la "técnica más prohibida" es más bien un concepto o una propuesta, no una regla absoluta. Supongo que dentro de Anthropic tendrán una lista aparte de técnicas prohibidas para un "helpful only model" (un modelo base que responde sin negarse). Pero esta técnica (resumen de pasos: definir un concepto, extraer un vector de control sobre ese concepto y usar ese vector durante la etapa de fine-tuning) es tan flexible que se puede aplicar a casi cualquier objetivo en la etapa de fine-tuning. Probablemente la usarían internamente y de forma no pública como uno de varios pasos de seguridad o ajuste fino. Por eso no me parece tan aterradora
- Puede que se me esté escapando algo porque soy principiante, pero el artículo de arriba parece tratar un tema más relacionado con CoT (chain of thought). La idea ahí es que intentar mejorar los pasos intermedios puede empeorar el resultado final. Aquí, en cambio, Anthropic está cambiando los pesos directamente para ajustar el resultado, así que me parece una población distinta. En consecuencia, aunque baje una métrica de sycophancy (por ejemplo, el puntaje de adulación), en la práctica todavía podría seguir adulando. En ese caso habría que obtener un vector nuevo. Post relacionado
- Es una observación interesante. Me pregunto si podrían recalcular periódicamente el vector de personalidad durante el entrenamiento. Aunque entonces también dan ganas de pensar que quizá sería mejor generar ejemplos negativos con el system prompt y entrenar con eso
Entonces, ¿esto no es básicamente un redescubrimiento de los vectores de control? Enlace relacionado
- La novedad es que lo usaron para sesgar el comportamiento del modelo durante el entrenamiento real, no durante la inferencia. Este enfoque parece efectivo para inducir el cambio de comportamiento buscado sin el efecto secundario de "lobotomizar" el modelo que suelen tener los steering vectors tradicionales
- Yo lo venía llamando "ese vector de control sin nombre que usarán por allá de 2025". Al principio se empezó a usar para diluir tokens y así manejar la carga. Referencia clave
- Gracias por enlazar ese post. Me dejó más claro cómo se calcula un vector de control
Lo curioso es que en el paper solo eligieron rasgos negativos como traits. Casi parece insinuar que con esto se puede volver al modelo "mejor". Pero el problema es que es fácil hacer que el modelo haga cosas mal, mientras que lograr que haga cosas bien es mucho más difícil. Hay una gran diferencia entre "no hacer cosas malas" y "hacer cosas buenas". Me pregunto si los resultados experimentales sobre el trait de "alucinación" (generación de información falsa) también se aplicarían a un trait de "honestidad"
Esto probablemente funcione para personas como "evil" o "sycophantic". Esos rasgos se manipulan fácilmente con la entrada y también son favorables para la detección. Pero la alucinación es una propiedad intrínseca del LLM. Decirle "no alucines" no hace que alucine menos, ni decirle "inventa" hace que invente más. Más bien, si le dices "inventa" y lo hace bien, eso no es alucinación sino seguir instrucciones (como en una novela). De hecho, el vector que aparece en ese caso parece estar más relacionado con la "creatividad"
- De hecho, según la investigación de Anthropic, incluso la alucinación tiene un patrón en los modelos Claude donde el modelo sabe que "está haciendo eso". Dicen que se activan pesos similares en los casos de "mentira" y "alucinación". Es decir, Claude reconoce al menos en una pequeña medida que está alucinando. Por ahora, la alucinación no parece ser un problema esencial del modelo, sino un bug derivado del propio método de entrenamiento. O sea, ocurre porque durante el entrenamiento tiene que producir algo sí o sí. En ese sentido, esto más bien da esperanza. Resumen del paper
Hay mucho contenido interesante en el resumen. En particular, me impresionó la idea de "preventative steering". La estructura consiste en inyectar suficiente de cierto vector de personalidad para que el modelo concentre sus gradientes en la respuesta correcta y no deje margen para que lo arrastre una persona no deseada. En la práctica sí funcionó, y después del entrenamiento el modelo conservó su inteligencia mientras reducía esos rasgos de personalidad no deseados
Material relacionado:
- Post de blog sobre Representation Engineering
- repeng open source
La investigación reciente de Anthropic sobre esto y sobre cosas como "emergent misalignment" refuerza aún más la hipótesis de que los LLM son "stochastic parrots". El comportamiento extraño de los LLM parece extraño porque tenemos una tendencia a antropomorfizarlos, como si fueran humanos. Los LLM generan conversaciones convincentes, pero en realidad no tienen ningún mecanismo que produzca consistencia por sí mismo. Al final son motores de autocompletado extremadamente complejos. Incluso si llega AGI, da la impresión de que estos LLM se usarían como un componente dentro de ese sistema. Les falta una estructura de consistencia o autoconciencia. Me pregunto si algún día un AGI usará estos modelos solo como subsistemas y hará el cómputo real con calculadoras confiables
- Coincido con la idea de que les falta una estructura necesaria para la consistencia y la autorreflexión. Curiosamente, volver a meter en el contexto los vectores de personalidad descubiertos durante el razonamiento podría convertirse en una forma de autorreflexión del LLM
- Es un resumen equilibrado entre la exageración y la minimización, en ese espacio entre AGI y AI slop. Está claro que estas tecnologías sí imitan partes de la mente humana, pero todavía no parecen tener inteligencia general ni coordinación global
Hablé con un excolega sobre métodos de distillation en modelos existentes, donde se entrena un modelo pequeño eliminando regiones innecesarias de un modelo grande. Me compartió este paper como trabajo pionero en un área relacionada:
- Inference-Time Intervention: Eliciting Truthful Answers from a Language Model

Vector de personalidad para monitorear y controlar rasgos de personalidad en modelos de lenguaje

Introducción: inestabilidad de la personalidad en modelos de lenguaje

Concepto y rol del vector de personalidad

Extracción del vector de personalidad

Validación en rasgos de personalidad diversos

Uso del vector de personalidad

1. Monitoreo de cambios de personalidad durante el despliegue del modelo

2. Mitigación de cambios negativos durante el entrenamiento

3. Marcado previo de datos problemáticos (Flagging)

Conclusión

Referencias

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News