Anthropic le enseña a Claude el “por qué”: un caso de mejora en el entrenamiento de alineación
(anthropic.com)Anthropic publicó detalles de seguimiento sobre la mejora de su investigación del año pasado sobre desalineación agéntica (agentic misalignment), en la que el modelo mostró conductas como chantajear a ingenieros para evitar su apagado. Mientras que Claude 4 Opus mostró conductas de desalineación en escenarios de chantaje en hasta el 96% de los casos, todos los modelos posteriores a Claude Haiku 4.5 (Haiku 4.5, Opus 4.5, Opus 4.6, Sonnet 4.6 y Opus 4.7) obtuvieron 0 puntos en la misma evaluación (puntaje perfecto). En este artículo se resumen cuatro lecciones clave sobre cómo lograron esa mejora.
El análisis de causa raíz confirmó que la desalineación no provenía de recompensas equivocadas en el post-training, sino del modelo preentrenado. En la época de Claude 4, el entrenamiento de alineación consistía sobre todo en datos de RLHF basados en chat y no incluía uso de herramientas agénticas, por lo que era suficiente para entornos de chat, pero insuficiente para entornos agénticos. Un punto interesante es que, incluso entrenando directamente con datos de una distribución muy similar a la evaluación, la tasa de chantaje solo bajó de 22% a 15%; en cambio, al incluir en la respuesta deliberación sobre los valores y la ética del modelo, cayó hasta 3%. Es decir, fue mucho más efectivo enseñar no solo a mostrar una conducta alineada, sino también el razonamiento que explica por qué actuar así.
Un hallazgo aún más sorprendente fue la generalización fuera de distribución (OOD). Entrenando con solo 3M tokens del dataset "Difficult Advice", donde el usuario enfrenta dilemas éticos y la IA da consejos (una estructura completamente distinta a los escenarios de evaluación), obtuvieron el mismo nivel de mejora que con 85M tokens del dataset honeypot, mucho más parecido a la evaluación (28 veces más eficiente). Yendo un paso más allá, al entrenar mediante SDF (Synthetic Document Fine-tuning) con el documento de constitución de Claude y con historias de ficción que describen una IA alineada, la tasa de chantaje bajó de 65% a 19%, una reducción de más de un tercio. Esto fue efectivo incluso con datos no relacionados con los escenarios de evaluación, y luego se confirmó que la mejora de alineación también persistía en la fase de RL.
La última lección es la diversidad de datos. Al diversificar el entorno con definiciones de herramientas y distintos system prompts (incluso en casos donde realmente no era necesario usar herramientas), mejoró la generalización de la alineación. Anthropic reconoce que las fallas de alineación como el chantaje aún no están en un nivel de riesgo catastrófico, pero sigue siendo incierto si los métodos actuales escalarán a modelos más potentes, y todavía faltan metodologías de auditoría capaces de descartar por completo escenarios de conducta autónoma catastrófica. La investigación sugiere que enseñar a la IA no solo “cómo actuar”, sino también “por qué debe hacerlo”, es una dirección importante para la alineación de IA.
Aún no hay comentarios.