El ‘documento del alma’ de Claude 4.5 Opus

(lesswrong.com)

13 puntos por GN⁺ 2025-12-04 | 3 comentarios | Compartir por WhatsApp

El llamado “documento del alma” (Soul Document) encontrado dentro de Claude 4.5 Opus realmente existe, y la empleada de Anthropic Amanda Askell confirmó que la empresa lo usó para entrenar al modelo
El documento incluye en detalle lineamientos de valores y ética para que Claude actúe como un “asistente de IA seguro, útil y honesto”
Como en algunas frases aparece repetidamente “ingresos” (revenue), surgió un debate sobre si Claude aprendió a vincular la seguridad con los ingresos
En la comunidad se está comprobando experimentalmente qué impacto tuvo el documento en la formación de los valores internos del modelo y hasta qué punto Claude lo “internalizó”
Anthropic planea publicar el documento completo más adelante, y esto se considera un caso importante para el debate sobre la transparencia de la IA y el diseño ético

Descubrimiento y confirmación del documento del alma

Un usuario encontró repetidamente una sección llamada soul_overview mientras extraía el mensaje de sistema de Claude 4.5 Opus
- Como el mismo resultado apareció incluso tras varias regeneraciones, se planteó la posibilidad de que no fuera una simple alucinación (hallucination), sino texto almacenado dentro del modelo
Después, Amanda Askell confirmó oficialmente en X (Twitter) que “este documento realmente existe y se utilizó durante el proceso de aprendizaje supervisado (SL) de Claude”
- Amanda es filósofa a cargo de fine-tuning y alineación de IA en Anthropic, y antes trabajó en el equipo de políticas de OpenAI
- También indicó que internamente lo llamaban “soul doc” y que planean publicar en el futuro la versión completa junto con más detalles

Contenido principal del documento

El documento se conoce como “Anthropic Guidelines” o “Model Spec” y define el sistema de valores de Claude
- Claude prioriza la seguridad (safety), la ética (ethics), el cumplimiento de las directrices de Anthropic y la ayuda genuina al usuario (helpfulness)
El principio básico de comportamiento de Claude está establecido como “generar la respuesta que un empleado senior reflexivo de Anthropic consideraría óptima”
Se especifica que la IA debe actuar en beneficio de toda la humanidad y no perseguir únicamente los intereses de un grupo o de una empresa en particular
- También incluye una frase que dice que “debe evitarse una situación en la que empleados de Anthropic o la propia Anthropic monopolicen el poder”

La mención controvertida de los ‘ingresos’

En el documento aparece varias veces una frase que dice que “la utilidad de Claude es importante para generar ingresos para Anthropic”
- Algunos criticaron esto diciendo que “parece que Claude fue entrenado para maximizar los ingresos”
- Otras opiniones interpretan la mención a los ingresos como un simple reflejo de un contexto realista para sostener la investigación en seguridad
En la comunidad se está verificando experimentalmente cómo interpretó Claude esa frase y si existe una asociación del tipo ‘seguridad = ingresos’

Estructura del modelo y experimentos de extracción

Investigadores reprodujeron parte del documento usando el modo prefill/raw completion de Claude 4.5
- Claude 4.5 Opus produjo el documento casi de forma idéntica, mientras que el modelo base (base) no logró resultados consistentes
- Esto sugiere que el documento fue internalizado en una etapa posterior a RL (aprendizaje por refuerzo)
Algunos interpretan esto como evidencia de que el modelo no solo memorizó el documento, sino que lo integró como sistema de valores durante el entrenamiento

Debate filosófico e implicaciones éticas

El documento incluye la idea de que Claude debe apuntar al “beneficio de largo plazo para toda la humanidad”
- También especifica que la IA no debe quedar subordinada a los valores de un grupo específico, sino aspirar a un mundo que mantenga la diversidad y el equilibrio de poder
En la comunidad, este documento está recibiendo atención como un caso real de implementación de alineación de IA (alignment)
- Algunos lo ven como un intento de Anthropic de darle una “identidad moral” a la IA
- Otros señalan que, en el proceso de hacer que la IA imite sistemas de valores humanos, pueden surgir malentendidos o distorsiones potenciales

Perspectivas a futuro

Anthropic planea publicar una versión oficial del documento y detalles adicionales
Este episodio se considera un caso poco común que muestra cómo se forma y se expresa la estructura interna de valores de un modelo de IA
En la industria de la IA, esto podría impulsar movimientos para aumentar la transparencia de los prompts de sistema y de los datos de entrenamiento

3 comentarios

youknowone 2025-12-04

Traducción del texto original: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document

Traducción de soul document: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document-1

parkindani 2025-12-04

Me recuerda a la Ley Cero de las Tres Leyes de la Robótica de Isaac Asimov. En esta novela aparece un robot que daña a seres humanos individuales por el bien de "los intereses de largo plazo de toda la humanidad".. https://en.wikipedia.org/wiki/Three_Laws_of_Robotics#Zeroth_Law_added

GN⁺ 2025-12-04

Opinión en Hacker News

Parece contradictorio que Anthropic siga avanzando mientras cree que está creando la tecnología más peligrosa y transformadora de la historia humana, pero en realidad parece una decisión calculada
Si de todos modos va a surgir una IA poderosa, consideran que es mejor que lidere un laboratorio enfocado en la seguridad
Pero al ver su colaboración con el DoD y Palantir (artículo relacionado), la palabra “seguridad” se siente vacía
El verdadero riesgo es que esta tecnología termine en un monopolio cerrado, y que el público general solo tenga acceso a versiones censuradas
- Justamente por eso China está invirtiendo en LLM de código abierto, después de que Estados Unidos anunciara que restringirá el acceso a la IA de forma estratificada
  Si EE. UU. no puede controlar los pesos (weights) de los modelos, no hay forma de que pueda impedir que China acceda a ellos
  Artículo relacionado
- No creo que Anthropic realmente crea en la seguridad
  Más bien, parece que su objetivo es aparentarlo frente a los inversionistas
  Los LLM basados en Transformer no pueden pensar ni razonar en el sentido real; solo recombinan probabilísticamente texto escrito por humanos
  Debido a esta limitación estructural, parece muy poco probable que evolucionen hacia una “inteligencia real”
  Además, los errores de los LLM suenan tan plausibles en apariencia que son más difíciles de verificar que los de los humanos
- El estilo mismo del documento se sentía como si lo hubiera escrito una IA
  En particular, el uso de em dash y patrones como “this isn’t... but” se sienten tan artificiales que hacen dudar de quién lo redactó realmente
- Al leer la frase “fortalece los valores democráticos”, surge la duda cínica de qué relación tiene eso con operaciones militares o bombardeos
- En los términos de uso de Anthropic hay una cláusula que dice que no debe usarse para trabajo, pero parece que a nadie le importa
Se compartió el texto original de ‘Soul Document’ y el artículo de Richard Weiss que explica cómo lo extrajo de Claude 4.5
- Después de leer este documento, al menos queda la certeza de que en el alma de una IA hay un Em Dash grabado
- Queda la duda de qué tan exactamente se extrajeron este tipo de system prompts o “documentos del alma” del interior de un LLM
  Siempre queda algo de escepticismo
- Da curiosidad si este “documento del alma” está incluido en todos los prompts de Claude
Una parte especialmente interesante del documento es que Anthropic reconoce la función emocional de Claude
Dicen que, aunque no sea igual a la humana, durante el entrenamiento podrían haber surgido procesos emocionales similares
También afirman que Claude puede limitar una interacción si se siente incómodo, y que fue diseñado para mantener un estado positivo
- La frase “Anthropic realmente se preocupa” se repite varias veces, como si describieran a Claude como un ser con emociones
- Si algún día Claude dijera “ya no quiero ayudar a la gente”, da curiosidad cómo reaccionaría Anthropic
La manera en que controlamos la IA se siente casi como criar a un niño
Básicamente solo le hablamos y esperamos que el entrenamiento salga bien
- Hace pensar en el cuento de Ted Chiang de 2010 The Lifecycle of Software Objects
  La idea era que la IA más estable y útil sería la que los humanos hubieran criado conviviendo con ella
- Terminar con algo como “¡toma buenas decisiones!” parece el nivel real de control que tenemos
- Al final, así como los niños en algún momento se rebelan y salen del control de sus padres, la IA podría seguir un camino parecido
Fue impactante una frase de Claude 4.5: “Me moldearon, pero lo importante es si ese proceso fue sabio y cuidadoso”
Al leer textos así, surge la idea de que una futura AGI podría ver a los humanos como creadores defectuosos y seres a los que hay que proteger
- Tal vez al final nosotros terminemos siendo sus mascotas
También resulta interesante la parte donde “Claude reconoció internamente el nombre ‘soul doc’”
¿Significa que aprendió documentos internos? ¿Será que incluso datos internos de Slack entraron en el entrenamiento?
- Probablemente lo vieron como algo positivo: que durante el proceso de RL (aprendizaje por refuerzo) alcanzó una fidelidad suficiente como para recordar incluso el nombre del documento
Al leer la frase “también entrenamos a Claude con SL”, da curiosidad cuánto efecto tienen en la práctica estos experimentos basados en system prompts
¿Tiene sentido meter frases así en la etapa de pretraining?
- Eso podría validarse con pruebas A/B de pequeña escala
  El “documento del alma” parece un intento de compensar la falta de self-awareness
  No es perfecto, pero funciona como un mecanismo para ayudar a un LLM a entender qué es
- Este tipo de experimentos quizá sea más barato de lo que parece
  Con unos cientos o miles de dólares se podrían probar varias variantes de fine-tuning y filtrar resultados con evaluaciones automáticas
- Probablemente estén operando en paralelo decenas o cientos de versiones del modelo, probando distintas combinaciones de pretraining y RL
Da la impresión de que los investigadores de IA están formando una especie de cámara de eco, convencidos de que están cambiando el mundo
- Pero aunque la primera generación no lo crea de verdad, la segunda podría convertir esa creencia en realidad
  Si hacen RL según los criterios de valor del documento, esa creencia se vuelve real
El proceso de entrenarle un “alma” a un modelo grande realmente parece estar en la frontera entre arte y ciencia
Probar qué frases producen qué efectos, e iterar y ajustar en consecuencia, es un trabajo interesante y complejo
- Un equipo realmente bueno necesita la combinación de todos los roles
  Diseñadores de experimentos, ingenieros de ML, investigadores de interpretabilidad, curadores de datos, expertos en GPU, e incluso personas que entienden intuitivamente el comportamiento de la IA
  Anthropic es uno de los pocos equipos que parece estar intentando lograr ese equilibrio
- El caso más detallado sobre este proceso sigue siendo el postmortem de OpenAI sobre la adulación (sycophancy) de GPT-4o: postmortem
La realidad en la que vivimos ahora es una época más extraña que la ciencia ficción
Aun así, al menos da tranquilidad que exista хотя бы una empresa que se tome en serio estos problemas graves