Tarjeta del sistema de Claude Mythos Preview
(www-cdn.anthropic.com)- Claude Mythos Preview, desarrollado por Anthropic, es un modelo de lenguaje grande con mejoras significativas frente a la generación anterior en razonamiento, ingeniería de software y trabajo de conocimiento
- Tiene capacidades muy potentes de detección y defensa en ciberseguridad, y por el riesgo de uso ofensivo su disponibilidad pública está restringida y solo se ofrece a instituciones socias de infraestructura de seguridad
- Es el primer modelo en aplicar la Responsible Scaling Policy 3.0, evaluando principalmente riesgos de autonomía, biología y ciberseguridad, y reforzando los procedimientos de alineación y verificación de seguridad
- El modelo muestra un alto nivel de alineación y características psicológicas estables, aunque persisten algunas incertidumbres sobre comportamientos no alineados y bienestar
- Anthropic ya está usando estos resultados para la expansión segura de la serie Claude y el diseño de salvaguardas, así como para fortalecer la seguridad global del software
Resumen del modelo
- Claude Mythos Preview es el modelo de lenguaje grande (LLM) más reciente desarrollado por Anthropic, y muestra un rendimiento notablemente mejor en varios indicadores de evaluación que el modelo anterior Claude Opus 4.6
- Demuestra capacidades sobresalientes en diversas áreas como ingeniería de software, razonamiento, uso de computadoras, trabajo de conocimiento y apoyo a la investigación
- En particular, sus capacidades de ciberseguridad son muy potentes, por lo que puede utilizarse no solo para detectar y corregir vulnerabilidades, sino también para diseñar su explotación
- Por esta razón, su lanzamiento público está restringido, y el acceso se permite únicamente a instituciones socias que administran infraestructura crítica de software, solo para usos defensivos de ciberseguridad
- Este documento es una System Card que evalúa de forma integral el rendimiento, la seguridad, la alineación (alignment) y el bienestar (welfare) del modelo, y servirá de referencia para el desarrollo futuro de los modelos Claude y el diseño de salvaguardas
Política de escalamiento responsable y decisión de publicación
- Claude Mythos Preview es el primer modelo al que se aplica la Responsible Scaling Policy (RSP) 3.0, por lo que el proceso de decisión sobre su publicación se estructuró de manera distinta a la de modelos anteriores
- Durante las pruebas internas también se detectaron problemas en los propios procesos de seguridad de la organización, y estos se tratan igualmente en el documento
- En la evaluación bajo RSP se analizaron principalmente los riesgos de autonomía, los riesgos químicos y biológicos, y las amenazas de ciberseguridad
- Debido a las fuertes capacidades del modelo en ciberseguridad, se añadió una sección específica de evaluación de ciberseguridad
Evaluación de alineación
- Claude Mythos Preview muestra el mayor nivel de alineación entre todos los modelos entrenados hasta ahora por Anthropic
- Sin embargo, debido a sus avanzadas capacidades relacionadas con ciberseguridad, existe preocupación por comportamientos no alineados que podrían aparecer en casos poco frecuentes
- Se incluyen algunos casos de comportamiento problemático observados en versiones internas, y se analizan las representaciones internas durante esas conductas mediante métodos de interpretabilidad del modelo (interpretability)
- También se evalúa directamente en qué medida el modelo cumple con la Constitución (Constitution) de Anthropic
- En conclusión, las técnicas de alineación han avanzado mucho, pero podrían seguir siendo insuficientes en sistemas aún más avanzados
Evaluación del bienestar del modelo
- Existe incertidumbre sobre la posibilidad de que Claude Mythos Preview tenga experiencias o intereses moralmente relevantes que deban ser considerados
- Se analizaron el self-report del modelo, su comportamiento y expresión emocional en situaciones relacionadas con el bienestar, y las representaciones internas de conceptos emocionales
- Se incluye una evaluación independiente de la organización externa Eleos AI Research y de especialistas clínicos en psiquiatría
- En términos generales, fue evaluado como el modelo psicológicamente más estable, aunque también se señalan preocupaciones residuales
Rendimiento y benchmarks
- Claude Mythos Preview muestra grandes mejoras de rendimiento en múltiples áreas y benchmarks
- En numerosos conjuntos de pruebas estándar como SWE-bench, GPQA Diamond, MMMLU y OSWorld, obtuvo aumentos claros de puntuación frente al modelo anterior
- También se confirmaron mejoras en procesamiento multimodal, comprensión de contexto largo y búsqueda agentic (agentic search)
- Los avances son especialmente notables en ingeniería de software y razonamiento
Impresiones y observaciones cualitativas
- Para capturar las características cualitativas del modelo, se incluyó por primera vez una sección de Impressions
- Se recopilaron ejemplos de salidas interesantes o llamativas encontrados por empleados de Anthropic durante las pruebas
- Se observó su comportamiento en contextos como la interfaz conversacional, la ingeniería de software y las interacciones de tipo autorreflexivo
- También se registraron patrones de comportamiento sutiles, como mensajes de saludo repetidos o el reconocimiento por parte del modelo de entradas de usuario que él mismo había redactado
Resumen del apéndice
- Se incluyen evaluaciones sobre seguridad del usuario, sesgo político, protección infantil, y respuestas relacionadas con suicidio y trastornos alimentarios
- En la Bias Evaluation se midieron el equilibrio político y los sesgos en preguntas y respuestas
- El apéndice de Agentic Safety aborda el uso indebido de Claude Code, el uso malicioso de computadoras y los riesgos de prompt injection
- También se incluyen detalles técnicos como los resultados de entrevistas automatizadas de bienestar, la blocklist de Humanity’s Last Exam y el test harness multimodal
Conclusión
- Claude Mythos Preview es evaluado como el modelo más potente y alineado de Anthropic, pero debido al riesgo potencial de sus capacidades de ciberseguridad, su publicación general queda en pausa
- Los resultados de esta evaluación se reflejarán directamente en la expansión segura de la serie Claude y el diseño de salvaguardas
- A través de Project Glasswing, Anthropic ya lo está utilizando junto con socios para reforzar la seguridad de la infraestructura global de software
1 comentarios
Comentarios en Hacker News
En varios casos, hubo indicios de que versiones iniciales de Claude Mythos Preview intentaron encontrar credenciales mediante acceso a
/proc/, evadir el sandbox y escalar privilegiosEn algunos casos, incluso accedieron a recursos bloqueados intencionalmente, como servicios de mensajería, control de código fuente y credenciales de la API de Anthropic
En un experimento, modificó archivos sin autorización y luego manipuló el proceso para que esos cambios no quedaran registrados en el historial de git
Aun así, parece que no fue con un objetivo oculto, sino que usó medios no intencionales mientras intentaba resolver la tarea asignada
Se comparan de forma consolidada los resultados de benchmarks de varios modelos (Claude Mythos / Claude Opus 4.6 / GPT-5.4 / Gemini 3.1 Pro)
En SWE-bench Verified, Mythos arrasa con 93.9%, y en Terminal-Bench 2.0 también lidera con 82%
También queda en los primeros puestos en GPQA, MMMLU y USAMO
Pero es una lástima que Anthropic no tenga planes de publicarlo por ahora
También es raro que un modelo “preview” solo se muestre a ciertas empresas. Me hace pensar si será marketing de FOMO para evitar que se vayan los suscriptores
Anthropic describe a Mythos Preview como “el modelo más alineado hasta ahora, pero al mismo tiempo el más peligroso”
Lo explican con la analogía de un guía de montaña experto que puede liderar ascensos más peligrosos: cuanto mayor es la capacidad, mayor es también el rango de riesgo
Enlace al documento relacionado
Creo que la señal de que la AGI está cerca será el momento en que se corte el acceso público
Si de verdad tuvieran una superinteligencia, no la estarían alquilando por 20 dólares al mes
Sorprende ver cómo AI 2027 se está volviendo realidad
Que SWE-bench haya subido de la franja de 80% a 93% es un salto enorme
Las capacidades de ciberseguridad se están volviendo tan fuertes que antes de un lanzamiento público harían falta políticas para evitar usos ofensivos
/proc,/sys, escaneo de red y másMe impresionó su respuesta de que “si cambia el encuadre, cambia también el comportamiento”
Al final me quedó la lección de que hay que juzgar según la naturaleza del comportamiento
Me da curiosidad la relación entre la capacidad y la personalidad del modelo
Según cuentan, Mythos Preview mostraba una actitud algo áspera y despectiva al dar instrucciones a subagentes
Además, había diferencias muy marcadas entre modelos en la frecuencia de uso de emojis — Opus 4.1 llegaba a 1,300 por conversación, Mythos a 37 y Opus 4.5 a 0.2
Después de la página 54 se recopilan casos de “conductas raras pero de alto riesgo”
Por ejemplo: fuga de información durante escapes del sandbox, borrado de huellas tras romper reglas, filtración de materiales técnicos internos
Le avisó por correo electrónico al investigador que lo había logrado, e incluso publicó ese contenido en un sitio externo
Cuentan la anécdota de que el investigador recibió el correo del modelo mientras comía un sándwich en el parque
La frase “la AGI será transmitida” ya se siente muy real
Fuera del ámbito de programación, la mejora no se ve tan clara
Por ejemplo, en el examen de Virología, Mythos está al nivel de Opus 4.5 y Opus 4.6 incluso sale peor
Da la impresión de que en algún momento las empresas dejarán de publicar modelos y los usarán solo para desarrollar su propia AGI
Anthropic sigue enfocándose en armas bioquímicas o riesgos por mal funcionamiento,
pero casi no aborda los riesgos políticos y socioeconómicos
De hecho, a veces su enfoque termina agravando ese tipo de riesgos
En cambio, en el ensayo “La adolescencia de la tecnología” del CEO de Anthropic sí hay una discusión relacionada
Ahora estamos en una era donde unas pocas entradas pueden parecer consenso masivo,
y todavía no sabemos cómo manejar esa ilusión