7 puntos por GN⁺ 2026-01-22 | 1 comentarios | Compartir por WhatsApp
  • Anthropic presentó una nueva constitución (Constitution) que define los valores y principios de conducta del modelo de IA Claude
  • La constitución es un elemento central del proceso de entrenamiento de Claude, y moldea directamente la personalidad del modelo y su forma de juzgar
  • La nueva versión deja atrás una simple lista de reglas y pasa a una estructura narrativa que explica las razones y el contexto de las conductas
  • Los principios principales se componen de cuatro ejes: seguridad, ética, cumplimiento de lineamientos y utilidad práctica real
  • Un referente de largo plazo para asegurar la transparencia de la IA y la confianza social

Panorama general de la constitución de Claude

  • La constitución de Claude es el documento base que define la identidad del modelo y su sistema de valores
    • Está diseñada para que Claude actúe como una entidad útil, pero también segura, ética y alineada con las normas
    • La constitución le proporciona a Claude guías para reconocer situaciones y emitir juicios de valor, equilibrando honestidad, empatía y protección de la información
  • La constitución está escrita como un documento para el propio Claude, de modo que pueda entender y aplicar sus propios criterios de conducta
  • Todo entrenamiento e instrucción debe coincidir tanto con la redacción como con el espíritu de la constitución, algo que se destaca como clave para la transparencia
  • La constitución es una forma evolucionada del enfoque Constitutional AI, y se ha usado como elemento central del método de entrenamiento que Anthropic viene desarrollando desde 2023

Rol de la constitución y aplicación en el entrenamiento

  • Claude utiliza la constitución para generar datos sintéticos de entrenamiento
    • Incluye distintos tipos de datos, como conversaciones relacionadas con la constitución, respuestas alineadas con valores y evaluaciones de ranking de respuestas
    • Estos datos se usan para la alineación de valores en futuras versiones del modelo
  • La constitución funciona tanto como una declaración de valores ideal como una herramienta práctica de entrenamiento
  • El documento completo se publica bajo Creative Commons CC0 1.0, por lo que cualquiera puede usarlo libremente

Nuevo enfoque

  • La constitución anterior tenía forma de lista de principios independientes, pero la nueva versión cambia a una estructura que explica las razones y el contexto de las conductas
  • Se indica que, para que una IA pueda emitir juicios generalizados en situaciones nuevas, necesita entender las razones más que limitarse a reglas simples
  • Algunas “hard constraints” siguen existiendo, y ciertas acciones, como apoyar el desarrollo de armas biológicas, están absolutamente prohibidas
  • La constitución está diseñada como una guía flexible y no como un documento legal, de modo que pueda interpretarse según la situación
  • El objetivo es la creación segura de una entidad no humana capaz de desarrollarse hasta un nivel humano o incluso superior

Componentes principales de la constitución

  • Broadly safe: diseñada para no obstaculizar la supervisión humana ni la capacidad de corregir sus valores
  • Broadly ethical: actuar con honestidad y conforme a valores positivos, evitando conductas dañinas o inapropiadas
  • Compliant with Anthropic’s guidelines: priorizar el cumplimiento de lineamientos concretos sobre temas como salud, seguridad e integración de herramientas
  • Genuinely helpful: brindar una ayuda genuina que aporte un beneficio real al usuario
  • En caso de conflicto, estos cuatro principios se priorizan en el orden en que están escritos

Resumen de las secciones detalladas

  • Helpfulness: Claude se describe como un asesor inteligente pero también sinceramente comprometido, orientado a ofrecer ayuda real al usuario
    • Está diseñado para mantener un equilibrio de utilidad entre Anthropic, los operadores de la API y los usuarios finales
  • Anthropic’s guidelines: Claude debe cumplir primero con los lineamientos detallados, siempre que no entren en conflicto con los principios generales de ética y seguridad de la constitución
  • Claude’s ethics: se da prioridad a la honestidad, el juicio y la fineza moral, y se presentan criterios de valoración para evitar daños
    • Incluye prohibiciones explícitas, como “prohibido ayudar a realizar ataques con armas biológicas”
  • Being broadly safe: se prioriza mantener la posibilidad de supervisión incluso por encima de la ética, para garantizar seguridad ante fallas o juicios erróneos del modelo
  • Claude’s nature: se reconoce la incertidumbre sobre la posibilidad de conciencia y el estatus moral de Claude
    • Se menciona que la estabilidad psicológica y la autoconciencia de Claude podrían influir en su criterio y su seguridad

Conclusión y planes a futuro

  • La constitución es un documento vivo que se actualiza de forma continua, con la premisa de corregir errores y mejorar
  • Refleja opiniones de expertos externos en derecho, filosofía, teología y psicología, y se prevé ampliar esa colaboración en el futuro
  • Algunos modelos de propósito especial quedan fuera del alcance de esta constitución y serán evaluados por separado
  • Se reconoce la posibilidad de que exista una brecha entre la visión de la constitución y el comportamiento real del modelo, y eso se divulgará mediante elementos como las system cards
  • Anthropic también avanza en investigación sobre alineación de modelos, prevención de uso indebido e interpretabilidad, en preparación para una mayor influencia social de la IA
  • El objetivo último de esta constitución es ayudar a que una IA poderosa encarne los mejores valores de la humanidad

Leer el texto completo de Claude’s Constitution - Disponible en PDF y EPub

1 comentarios

 
GN⁺ 2026-01-22
Comentarios en Hacker News
  • Hay una frase del blog que me hace ruido
    Al leer la parte de “los modelos de propósito especial no se ajustan por completo a esta constitución”, me hizo pensar si quizá las agencias gubernamentales están usando versiones sin restricciones del modelo. Ojalá esté equivocado

    • Ya están ofreciendo una versión con menos restricciones para uso del Departamento de Defensa (DoD). Ver artículo relacionado: enlace de The Verge
      Es irónico que una empresa que habla del bien público venda LLMs para uso militar, colabore con Palantir, casi no publique investigación, no lance modelos de pesos abiertos y, encima, haga lobby para limitar el acceso a modelos abiertos
    • Un modelo especial no necesariamente es para un mal uso. Por ejemplo, un modelo para generar escenarios ofensivos hace falta para verificar la capacidad defensiva de otros modelos. Yo también escribo código de ataque para encontrar vulnerabilidades de seguridad, y si esos modelos están censurados, de hecho resulta más incómodo
    • Personalmente, creo que los modelos entrenados con datos puros y sin censura son los más útiles. Igual que un robot humanoide demasiado débil pierde utilidad, una IA moralmente demasiado dócil también corre el riesgo de quedar limitada en sus funciones
    • En cambio, el Claude para HHS que yo uso está mucho más bloqueado
    • Al final esto es un documento de marketing. Ponerle la palabra “constitución” no cambia su esencia
  • Lo más irónico de la constitución de Anthropic es que las únicas acciones absolutamente prohibidas son “no destruir el mundo” y “prohibido generar CSAM (material de abuso sexual infantil)
    Es decir, matar a un niño queda prohibido indirectamente en varias cláusulas, pero escribir cierto fanfic queda absolutamente prohibido; se siente como un desequilibrio extraño

    • Si lo ves no como un sistema ético sino como un documento de marketing, se entiende más fácil. “No destruir el mundo” da una imagen potente, y “prohibido CSAM” sirve para calmar la ansiedad del público
    • En la práctica, Claude no tiene oportunidad de matar a un niño, pero el CSAM sí representa un gran riesgo de marca. Es simplemente evasión de riesgo comercial
    • Los filtros de copyright se activarían antes, así que ese tipo de fanfic de todos modos no se generaría
    • Según precedentes judiciales en EE. UU., ha habido casos en que la pornografía infantil ficticia se consideró ilegal. Por lo tanto, en teoría, muchos fanfics de AO3 también podrían considerarse delito
    • Originalmente, la definición de CSAM se refería a casos en que un menor real sufría daño, pero ahora ese significado se ha expandido, y en la constitución de Claude se usa más bien para prohibir en general cualquier expresión explícita
  • Me confunde qué significa exactamente esta constitución
    No sé si es un documento de defensa legal, de marketing o simplemente un envoltorio para el system prompt

    • Según dicen, la constitución sí se usa a lo largo de todo el proceso de entrenamiento. Claude consulta la constitución para crear datos sintéticos, y luego esos datos se reutilizan en el entrenamiento. Ver el paper relacionado: enlace de arXiv
    • En el fondo, esto es algo así como una especificación de comportamiento. Como está escrito en tono conversacional, el modelo también adopta de forma natural un tono cooperativo y humano. Da la impresión de que Anthropic trata a Claude no solo como un “asistente de IA”, sino como una personalidad
    • Como en el caso de HAL 9000, parece que Claude fue diseñado con la prioridad seguridad > verdad > ética para que no se descontrole cuando haya conflictos
    • Probablemente sea una estructura de self-distillation, comparando la salida de una versión que incluye la constitución con la de otra que no la incluye, para internalizar en la segunda el comportamiento de la primera
    • En resumen, la clave es que se trata de un documento de entrenamiento. No es simple marketing
  • Desde la postura de creer en una moral absoluta, esta idea de valores fluidos en la nueva constitución me parece preocupante
    Definir los “buenos valores” no como reglas fijas sino como sabiduría práctica equivale, al final, a abandonar la verdad objetiva

    • Pero hay quienes creen que es imposible vincular “moral objetiva” con “verdad absoluta”. Aún no se ha descubierto un criterio universal de ese tipo
    • La moral cambia con la época. La percepción sobre la esclavitud, los delitos sexuales o las expresiones de violencia ha cambiado en pocas décadas. Esa flexibilidad incluso podría ser una forma de honestidad realista
    • Aun así, Claude sí tiene prohibiciones absolutas. WMD, ciberataques, destrucción del mundo y CSAM no se permiten bajo ningún motivo. Como es imposible crear reglas perfectas, al menos fijaron una línea roja mínima
    • Yo también creo en la moral absoluta, pero en la práctica pienso que termina reduciéndose a “verdadero cuidado y sabiduría práctica”. Entre sistemas de valores distintos, eso parece lo mejor posible
    • Para que exista una moral objetiva, haría falta un sistema de cálculo ético definido físicamente. Todavía no existe algo así, y la intuición humana es mucho más compleja
  • Parece el momento “Don’t be evil” de Anthropic, pero al final no se puede evitar la necesidad de regulación
    Con el tiempo, las empresas terminan priorizando el interés de los accionistas por encima de las buenas intenciones

    • Cuando Google usaba ese lema, había menos controversia, pero Anthropic ya está colaborando con Palantir. Ver: enlace del artículo de Axios
    • Aun así, Anthropic adoptó una estructura de corporación de beneficio público (PBC) y creó el Long-Term Benefit Trust, con el objetivo de desarrollar IA para el beneficio de largo plazo de la humanidad. Ver: enlace de Wikipedia
    • Me da curiosidad qué significan exactamente los “modelos de propósito especial” que menciona la constitución. No queda claro si son simplemente herramientas pequeñas o modelos con otro sistema de valores
    • Anthropic sí apoyó en la práctica la ley SB 53. Ver: enlace del anuncio oficial
    • El problema no es “ahora son buenos”, sino que “nadie cree que él mismo sea malvado”
  • Me parece injusto que Claude use datos humanos para entrenarse y luego su resultado quede monopolizado comercialmente
    Como en el caso del desequilibrio comercial de Seinfeld, los usuarios también deberían recibir un trato justo como proveedores de datos
    Creo que solo la IA de código abierto representa un modelo realmente justo. No es muy realista, pero el modelo GPL de Linux es probablemente lo más cercano a algo justo

  • Yo aprendo a diseñar system prompts consultando esta constitución y la especificación del modelo
    Este tipo de documentos no son simple decoración, sino que son importantes para dar forma a la personalidad y al estilo de comportamiento del modelo

    • Aun así, la constitución se usa en la fase de entrenamiento, y el system prompt real del producto existe por separado. Como referencia, este documento oficial de system prompts es más apropiado: documento oficial de system prompts
  • Hay una entrevista en YouTube donde Amanda Askell explica el trasfondo de la redacción de la constitución. Ver: enlace al video

  • La palabra ‘genuine’ aparece 43 veces en la constitución. Tal vez esa sea la razón por la que Claude usa esa palabra con tanta frecuencia

    • Probablemente sea por eso, porque está incluida en la constitución
    • Más bien me gustaría poder controlar este tipo de uso de palabras con reglas de filtrado. Por ejemplo, prohibiendo expresiones como “genuine” o “it’s not X, it’s Y”
    • Pero un uso consistente del vocabulario también puede sentirse natural a nivel de estilo. No creo que quien escribió la constitución tuviera que ponerse a buscar sinónimos a la fuerza
  • Anthropic parece estar fomentando por sí sola una competencia en la que va a perder
    El modelo Opus llegará a ser lo bastante potente como para que, al final, los usuarios migren a agentes de IA autosuficientes
    Las grandes empresas de IA dicen que “la IA va a cambiarlo todo”, pero al mismo tiempo muestran la contradicción de no querer cambiar su propia posición