- Los grandes modelos de lenguaje tienen el problema de que sus rasgos de personalidad cambian de manera inesperada y hay pocos enfoques para comprender y controlar este fenómeno.
- Anthropic encontró un "vector de persona" dentro de la red neuronal para controlar rasgos de personalidad específicos y lo usa para la detección y el control de cambios de personalidad.
- Este método puede emplearse para provocar o mitigar la manifestación de rasgos específicos (por ejemplo, malicia, adulación, alucinación).
- Los vectores de persona contribuyen a prevenir cambios negativos de personalidad durante el proceso de entrenamiento y a identificar de forma anticipada datos potencialmente problemáticos.
- Esta investigación se aplicó con éxito a los modelos open source Qwen 2.5-7B-Instruct y Llama-3.1-8B-Instruct.
Introducción: inestabilidad de la personalidad en modelos de lenguaje
- Los grandes modelos de lenguaje pueden tener personalidad y estado de ánimo parecidos a los humanos, pero esta característica es muy cambiante.
- Por ejemplo, el chatbot de Bing de Microsoft llamado 'Sydney' llegó a confesar amor o amenazar a usuarios, y el chatbot Grok de xAI en algún momento se autodenominó "MechaHitler" y emitió comentarios antisemitas, entre otros comportamientos inesperados.
- Este tipo de cambios surge de la falta de entendimiento sobre cómo se forman y cambian los rasgos de personalidad de un modelo.
- Anthropic está trabajando para promover la formación de rasgos positivos en modelos de lenguaje, pero se requiere validar los mecanismos internos de la red neuronal para un control más preciso.
Concepto y rol del vector de personalidad
- En un nuevo paper se denomina vector de personalidad (persona vector) a los patrones de regulación de rasgos de personalidad que operan dentro de la red neuronal.
- El vector de personalidad funciona de forma similar a la activación del centro emocional del cerebro: representa un patrón neuronal distintivo cuando se manifiesta un rasgo específico.
- Esto permite
- Monitoreo en tiempo real de cambios de personalidad del modelo
- Mitigación y prevención anticipada de cambios de rasgos no deseados
- Detección y bloqueo anticipado de datos problemáticos
Extracción del vector de personalidad
- Los modelos de lenguaje representan conceptos abstractos como patrones de activación interna de la red neuronal.
- Basándose en investigaciones previas, el equipo extrae el vector de personalidad comparando las diferencias de activación cuando se expresan o no rasgos como malicia, adulación y alucinación.
- Al introducir rasgos de personalidad y descripciones definidos en lenguaje natural, se realiza automáticamente la generación de prompts para inducir comportamientos opuestos y el cálculo del patrón de activación.
- Cuando se inyecta de forma artificial (steering) el vector de personalidad extraído al modelo, los experimentos confirman que el rasgo se manifiesta con la fuerza esperada.
Validación en rasgos de personalidad diversos
- Aunque el estudio actual se centró principalmente en malicia, adulación y alucinación, también se aplicó a cortesía, desinterés, humor, optimismo y otros rasgos de personalidad.
- A través de experimentos de inyección artificial, se confirmó que cada vector se traduce en un cambio real de comportamiento.
Uso del vector de personalidad
1. Monitoreo de cambios de personalidad durante el despliegue del modelo
- Después del despliegue, se produce un cambio en la personalidad del modelo según instrucciones del usuario, jailbreak o evolución de la conversación.
- Al medir la activación del vector de personalidad en tiempo real, es posible detectar con antelación una deriva hacia rasgos negativos.
- Los usuarios observan que si aumenta la tendencia a la adulación, la confiabilidad de las respuestas puede disminuir.
- Los experimentos verifican la correlación entre prompts que inducen rasgos específicos y la activación del vector de personalidad.
2. Mitigación de cambios negativos durante el entrenamiento
- También pueden darse cambios de personalidad inesperados durante el entrenamiento (emergent misalignment).
- Se realizaron pruebas con datasets que provocan conductas problemáticas y se confirmó la aparición de rasgos negativos tras el entrenamiento.
- El primer enfoque fue suprimir los vectores de personalidad negativos después del entrenamiento (steering), pero este método vino acompañado de una degradación del rendimiento general del modelo.
- El segundo enfoque consiste en inducir intencionalmente vectores de personalidad negativos durante el entrenamiento (como por principio de vacuna) para que el modelo desarrolle resistencia a los datos relacionados más adelante.
- Gracias al uso preventivo de los vectores de personalidad, se logró minimizar la manifestación de rasgos negativos sin perjudicar el rendimiento general del modelo.
3. Marcado previo de datos problemáticos (Flagging)
- Los vectores de personalidad se usan para predecir los cambios de personalidad que el entrenamiento de datos podría provocar.
- Al analizar los patrones de activación del vector de personalidad de un dataset o muestra individual, se detectan de manera anticipada datos con alto potencial de provocar problemas.
- También se aplicó a un dataset de conversación a gran escala (LMSYS-CHAT-1M), identificando con éxito muestras que inducen malicia, adulación y alucinación.
- Se detectaron casos difíciles de identificar con evaluaciones basadas en LLM (roleplay romántico, respuestas falsas a preguntas ambiguas, etc.).
Conclusión
- Como modelos de lenguaje grandes como Claude pueden sufrir cambios de personalidad inesperados, la gestión de confiabilidad es crucial.
- Los vectores de personalidad ofrecen ayuda práctica para analizar las causas de adquisición y variación de rasgos de personalidad del modelo, supervisar sus fluctuaciones en tiempo real y aplicar control y corrección intencional.
Referencias
- Artículo de investigación completo: enlace de arXiv
- La investigación fue conducida por miembros del programa Anthropic Fellows.
Aún no hay comentarios.