La nueva constitución de Claude
(anthropic.com)- Anthropic presentó una nueva constitución (Constitution) que define los valores y principios de conducta del modelo de IA Claude
- La constitución es un elemento central del proceso de entrenamiento de Claude, y moldea directamente la personalidad del modelo y su forma de juzgar
- La nueva versión deja atrás una simple lista de reglas y pasa a una estructura narrativa que explica las razones y el contexto de las conductas
- Los principios principales se componen de cuatro ejes: seguridad, ética, cumplimiento de lineamientos y utilidad práctica real
- Un referente de largo plazo para asegurar la transparencia de la IA y la confianza social
Panorama general de la constitución de Claude
- La constitución de Claude es el documento base que define la identidad del modelo y su sistema de valores
- Está diseñada para que Claude actúe como una entidad útil, pero también segura, ética y alineada con las normas
- La constitución le proporciona a Claude guías para reconocer situaciones y emitir juicios de valor, equilibrando honestidad, empatía y protección de la información
- La constitución está escrita como un documento para el propio Claude, de modo que pueda entender y aplicar sus propios criterios de conducta
- Todo entrenamiento e instrucción debe coincidir tanto con la redacción como con el espíritu de la constitución, algo que se destaca como clave para la transparencia
- La constitución es una forma evolucionada del enfoque Constitutional AI, y se ha usado como elemento central del método de entrenamiento que Anthropic viene desarrollando desde 2023
Rol de la constitución y aplicación en el entrenamiento
- Claude utiliza la constitución para generar datos sintéticos de entrenamiento
- Incluye distintos tipos de datos, como conversaciones relacionadas con la constitución, respuestas alineadas con valores y evaluaciones de ranking de respuestas
- Estos datos se usan para la alineación de valores en futuras versiones del modelo
- La constitución funciona tanto como una declaración de valores ideal como una herramienta práctica de entrenamiento
- El documento completo se publica bajo Creative Commons CC0 1.0, por lo que cualquiera puede usarlo libremente
Nuevo enfoque
- La constitución anterior tenía forma de lista de principios independientes, pero la nueva versión cambia a una estructura que explica las razones y el contexto de las conductas
- Se indica que, para que una IA pueda emitir juicios generalizados en situaciones nuevas, necesita entender las razones más que limitarse a reglas simples
- Algunas “hard constraints” siguen existiendo, y ciertas acciones, como apoyar el desarrollo de armas biológicas, están absolutamente prohibidas
- La constitución está diseñada como una guía flexible y no como un documento legal, de modo que pueda interpretarse según la situación
- El objetivo es la creación segura de una entidad no humana capaz de desarrollarse hasta un nivel humano o incluso superior
Componentes principales de la constitución
- Broadly safe: diseñada para no obstaculizar la supervisión humana ni la capacidad de corregir sus valores
- Broadly ethical: actuar con honestidad y conforme a valores positivos, evitando conductas dañinas o inapropiadas
- Compliant with Anthropic’s guidelines: priorizar el cumplimiento de lineamientos concretos sobre temas como salud, seguridad e integración de herramientas
- Genuinely helpful: brindar una ayuda genuina que aporte un beneficio real al usuario
- En caso de conflicto, estos cuatro principios se priorizan en el orden en que están escritos
Resumen de las secciones detalladas
- Helpfulness: Claude se describe como un asesor inteligente pero también sinceramente comprometido, orientado a ofrecer ayuda real al usuario
- Está diseñado para mantener un equilibrio de utilidad entre Anthropic, los operadores de la API y los usuarios finales
- Anthropic’s guidelines: Claude debe cumplir primero con los lineamientos detallados, siempre que no entren en conflicto con los principios generales de ética y seguridad de la constitución
- Claude’s ethics: se da prioridad a la honestidad, el juicio y la fineza moral, y se presentan criterios de valoración para evitar daños
- Incluye prohibiciones explícitas, como “prohibido ayudar a realizar ataques con armas biológicas”
- Being broadly safe: se prioriza mantener la posibilidad de supervisión incluso por encima de la ética, para garantizar seguridad ante fallas o juicios erróneos del modelo
- Claude’s nature: se reconoce la incertidumbre sobre la posibilidad de conciencia y el estatus moral de Claude
- Se menciona que la estabilidad psicológica y la autoconciencia de Claude podrían influir en su criterio y su seguridad
Conclusión y planes a futuro
- La constitución es un documento vivo que se actualiza de forma continua, con la premisa de corregir errores y mejorar
- Refleja opiniones de expertos externos en derecho, filosofía, teología y psicología, y se prevé ampliar esa colaboración en el futuro
- Algunos modelos de propósito especial quedan fuera del alcance de esta constitución y serán evaluados por separado
- Se reconoce la posibilidad de que exista una brecha entre la visión de la constitución y el comportamiento real del modelo, y eso se divulgará mediante elementos como las system cards
- Anthropic también avanza en investigación sobre alineación de modelos, prevención de uso indebido e interpretabilidad, en preparación para una mayor influencia social de la IA
- El objetivo último de esta constitución es ayudar a que una IA poderosa encarne los mejores valores de la humanidad
Leer el texto completo de Claude’s Constitution - Disponible en PDF y EPub
1 comentarios
Comentarios en Hacker News
Hay una frase del blog que me hace ruido
Al leer la parte de “los modelos de propósito especial no se ajustan por completo a esta constitución”, me hizo pensar si quizá las agencias gubernamentales están usando versiones sin restricciones del modelo. Ojalá esté equivocado
Es irónico que una empresa que habla del bien público venda LLMs para uso militar, colabore con Palantir, casi no publique investigación, no lance modelos de pesos abiertos y, encima, haga lobby para limitar el acceso a modelos abiertos
Lo más irónico de la constitución de Anthropic es que las únicas acciones absolutamente prohibidas son “no destruir el mundo” y “prohibido generar CSAM (material de abuso sexual infantil)”
Es decir, matar a un niño queda prohibido indirectamente en varias cláusulas, pero escribir cierto fanfic queda absolutamente prohibido; se siente como un desequilibrio extraño
Me confunde qué significa exactamente esta constitución
No sé si es un documento de defensa legal, de marketing o simplemente un envoltorio para el system prompt
Desde la postura de creer en una moral absoluta, esta idea de valores fluidos en la nueva constitución me parece preocupante
Definir los “buenos valores” no como reglas fijas sino como sabiduría práctica equivale, al final, a abandonar la verdad objetiva
Parece el momento “Don’t be evil” de Anthropic, pero al final no se puede evitar la necesidad de regulación
Con el tiempo, las empresas terminan priorizando el interés de los accionistas por encima de las buenas intenciones
Me parece injusto que Claude use datos humanos para entrenarse y luego su resultado quede monopolizado comercialmente
Como en el caso del desequilibrio comercial de Seinfeld, los usuarios también deberían recibir un trato justo como proveedores de datos
Creo que solo la IA de código abierto representa un modelo realmente justo. No es muy realista, pero el modelo GPL de Linux es probablemente lo más cercano a algo justo
Yo aprendo a diseñar system prompts consultando esta constitución y la especificación del modelo
Este tipo de documentos no son simple decoración, sino que son importantes para dar forma a la personalidad y al estilo de comportamiento del modelo
Hay una entrevista en YouTube donde Amanda Askell explica el trasfondo de la redacción de la constitución. Ver: enlace al video
La palabra ‘genuine’ aparece 43 veces en la constitución. Tal vez esa sea la razón por la que Claude usa esa palabra con tanta frecuencia
Anthropic parece estar fomentando por sí sola una competencia en la que va a perder
El modelo Opus llegará a ser lo bastante potente como para que, al final, los usuarios migren a agentes de IA autosuficientes
Las grandes empresas de IA dicen que “la IA va a cambiarlo todo”, pero al mismo tiempo muestran la contradicción de no querer cambiar su propia posición