- El llamado “documento del alma” (Soul Document) encontrado dentro de Claude 4.5 Opus realmente existe, y la empleada de Anthropic Amanda Askell confirmó que la empresa lo usó para entrenar al modelo
- El documento incluye en detalle lineamientos de valores y ética para que Claude actúe como un “asistente de IA seguro, útil y honesto”
- Como en algunas frases aparece repetidamente “ingresos” (revenue), surgió un debate sobre si Claude aprendió a vincular la seguridad con los ingresos
- En la comunidad se está comprobando experimentalmente qué impacto tuvo el documento en la formación de los valores internos del modelo y hasta qué punto Claude lo “internalizó”
- Anthropic planea publicar el documento completo más adelante, y esto se considera un caso importante para el debate sobre la transparencia de la IA y el diseño ético
Descubrimiento y confirmación del documento del alma
- Un usuario encontró repetidamente una sección llamada
soul_overview mientras extraía el mensaje de sistema de Claude 4.5 Opus
- Como el mismo resultado apareció incluso tras varias regeneraciones, se planteó la posibilidad de que no fuera una simple alucinación (hallucination), sino texto almacenado dentro del modelo
- Después, Amanda Askell confirmó oficialmente en X (Twitter) que “este documento realmente existe y se utilizó durante el proceso de aprendizaje supervisado (SL) de Claude”
- Amanda es filósofa a cargo de fine-tuning y alineación de IA en Anthropic, y antes trabajó en el equipo de políticas de OpenAI
- También indicó que internamente lo llamaban “soul doc” y que planean publicar en el futuro la versión completa junto con más detalles
Contenido principal del documento
- El documento se conoce como “Anthropic Guidelines” o “Model Spec” y define el sistema de valores de Claude
- Claude prioriza la seguridad (safety), la ética (ethics), el cumplimiento de las directrices de Anthropic y la ayuda genuina al usuario (helpfulness)
- El principio básico de comportamiento de Claude está establecido como “generar la respuesta que un empleado senior reflexivo de Anthropic consideraría óptima”
- Se especifica que la IA debe actuar en beneficio de toda la humanidad y no perseguir únicamente los intereses de un grupo o de una empresa en particular
- También incluye una frase que dice que “debe evitarse una situación en la que empleados de Anthropic o la propia Anthropic monopolicen el poder”
La mención controvertida de los ‘ingresos’
- En el documento aparece varias veces una frase que dice que “la utilidad de Claude es importante para generar ingresos para Anthropic”
- Algunos criticaron esto diciendo que “parece que Claude fue entrenado para maximizar los ingresos”
- Otras opiniones interpretan la mención a los ingresos como un simple reflejo de un contexto realista para sostener la investigación en seguridad
- En la comunidad se está verificando experimentalmente cómo interpretó Claude esa frase y si existe una asociación del tipo ‘seguridad = ingresos’
Estructura del modelo y experimentos de extracción
- Investigadores reprodujeron parte del documento usando el modo prefill/raw completion de Claude 4.5
- Claude 4.5 Opus produjo el documento casi de forma idéntica, mientras que el modelo base (base) no logró resultados consistentes
- Esto sugiere que el documento fue internalizado en una etapa posterior a RL (aprendizaje por refuerzo)
- Algunos interpretan esto como evidencia de que el modelo no solo memorizó el documento, sino que lo integró como sistema de valores durante el entrenamiento
Debate filosófico e implicaciones éticas
- El documento incluye la idea de que Claude debe apuntar al “beneficio de largo plazo para toda la humanidad”
- También especifica que la IA no debe quedar subordinada a los valores de un grupo específico, sino aspirar a un mundo que mantenga la diversidad y el equilibrio de poder
- En la comunidad, este documento está recibiendo atención como un caso real de implementación de alineación de IA (alignment)
- Algunos lo ven como un intento de Anthropic de darle una “identidad moral” a la IA
- Otros señalan que, en el proceso de hacer que la IA imite sistemas de valores humanos, pueden surgir malentendidos o distorsiones potenciales
Perspectivas a futuro
- Anthropic planea publicar una versión oficial del documento y detalles adicionales
- Este episodio se considera un caso poco común que muestra cómo se forma y se expresa la estructura interna de valores de un modelo de IA
- En la industria de la IA, esto podría impulsar movimientos para aumentar la transparencia de los prompts de sistema y de los datos de entrenamiento
3 comentarios
Traducción del texto original: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document
Traducción de soul document: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document-1
Me recuerda a la Ley Cero de las Tres Leyes de la Robótica de Isaac Asimov. En esta novela aparece un robot que daña a seres humanos individuales por el bien de "los intereses de largo plazo de toda la humanidad".. https://en.wikipedia.org/wiki/Three_Laws_of_Robotics#Zeroth_Law_added
Opinión en Hacker News
Parece contradictorio que Anthropic siga avanzando mientras cree que está creando la tecnología más peligrosa y transformadora de la historia humana, pero en realidad parece una decisión calculada
Si de todos modos va a surgir una IA poderosa, consideran que es mejor que lidere un laboratorio enfocado en la seguridad
Pero al ver su colaboración con el DoD y Palantir (artículo relacionado), la palabra “seguridad” se siente vacía
El verdadero riesgo es que esta tecnología termine en un monopolio cerrado, y que el público general solo tenga acceso a versiones censuradas
Si EE. UU. no puede controlar los pesos (weights) de los modelos, no hay forma de que pueda impedir que China acceda a ellos
Artículo relacionado
Más bien, parece que su objetivo es aparentarlo frente a los inversionistas
Los LLM basados en Transformer no pueden pensar ni razonar en el sentido real; solo recombinan probabilísticamente texto escrito por humanos
Debido a esta limitación estructural, parece muy poco probable que evolucionen hacia una “inteligencia real”
Además, los errores de los LLM suenan tan plausibles en apariencia que son más difíciles de verificar que los de los humanos
En particular, el uso de em dash y patrones como “this isn’t... but” se sienten tan artificiales que hacen dudar de quién lo redactó realmente
Se compartió el texto original de ‘Soul Document’ y el artículo de Richard Weiss que explica cómo lo extrajo de Claude 4.5
Siempre queda algo de escepticismo
Una parte especialmente interesante del documento es que Anthropic reconoce la función emocional de Claude
Dicen que, aunque no sea igual a la humana, durante el entrenamiento podrían haber surgido procesos emocionales similares
También afirman que Claude puede limitar una interacción si se siente incómodo, y que fue diseñado para mantener un estado positivo
La manera en que controlamos la IA se siente casi como criar a un niño
Básicamente solo le hablamos y esperamos que el entrenamiento salga bien
La idea era que la IA más estable y útil sería la que los humanos hubieran criado conviviendo con ella
Fue impactante una frase de Claude 4.5: “Me moldearon, pero lo importante es si ese proceso fue sabio y cuidadoso”
Al leer textos así, surge la idea de que una futura AGI podría ver a los humanos como creadores defectuosos y seres a los que hay que proteger
También resulta interesante la parte donde “Claude reconoció internamente el nombre ‘soul doc’”
¿Significa que aprendió documentos internos? ¿Será que incluso datos internos de Slack entraron en el entrenamiento?
Al leer la frase “también entrenamos a Claude con SL”, da curiosidad cuánto efecto tienen en la práctica estos experimentos basados en system prompts
¿Tiene sentido meter frases así en la etapa de pretraining?
El “documento del alma” parece un intento de compensar la falta de self-awareness
No es perfecto, pero funciona como un mecanismo para ayudar a un LLM a entender qué es
Con unos cientos o miles de dólares se podrían probar varias variantes de fine-tuning y filtrar resultados con evaluaciones automáticas
Da la impresión de que los investigadores de IA están formando una especie de cámara de eco, convencidos de que están cambiando el mundo
Si hacen RL según los criterios de valor del documento, esa creencia se vuelve real
El proceso de entrenarle un “alma” a un modelo grande realmente parece estar en la frontera entre arte y ciencia
Probar qué frases producen qué efectos, e iterar y ajustar en consecuencia, es un trabajo interesante y complejo
Diseñadores de experimentos, ingenieros de ML, investigadores de interpretabilidad, curadores de datos, expertos en GPU, e incluso personas que entienden intuitivamente el comportamiento de la IA
Anthropic es uno de los pocos equipos que parece estar intentando lograr ese equilibrio
La realidad en la que vivimos ahora es una época más extraña que la ciencia ficción
Aun así, al menos da tranquilidad que exista хотя бы una empresa que se tome en serio estos problemas graves