Anthropic se disculpa por las barreras invisibles de Claude Fable

(theverge.com)

1 puntos por GN⁺ 2026-06-12 | 1 comentarios | Compartir por WhatsApp

Claude Fable 5 es el primer modelo ampliamente disponible de la familia Mythos de Anthropic, y se le aplicaron restricciones ocultas para bloquear intentos de destilación usados en el desarrollo de sistemas competidores
Anthropic retiró su enfoque anterior de modificar y degradar las respuestas sin avisar al usuario cuando detectaba solicitudes que consideraba destilación, y ahora promete informar con más transparencia cuando entren en acción esas restricciones
Con el nuevo enfoque, las solicitudes relacionadas con destilación se redirigirán de Claude Fable a Claude Opus 4.8, y el usuario podrá verlo cada vez que ocurra el cambio
En otras áreas de alto riesgo como biología, química y ciberseguridad, si se activa una función de seguridad, la solicitud también se enruta a Opus 4.8, o bien se bloquea según las reglas de contenido prohibido sobre drogas, armas y otros temas
Aunque estas protecciones ocultas permitieron un lanzamiento rápido y pocos falsos positivos, Anthropic reconoció que fue una mala concesión y que los usuarios deberían poder ver qué protección se aplicó y por qué

Restricciones ocultas de destilación en Claude Fable

Anthropic se disculpó por haber limitado en secreto Claude Fable 5, una restricción que pudo afectar tanto a investigadores como a competidores que usaran Fable para desarrollar sistemas rivales
Fable es el primer modelo ampliamente disponible dentro de la familia Mythos, un sistema de IA sobre el que Anthropic había advertido durante meses que era demasiado riesgoso para un lanzamiento público
En el lanzamiento de Fable, Anthropic abordó parte de ese riesgo con barreras que impedían responder a algunas solicitudes consideradas “de alto riesgo”
Uno de los objetivos de esas restricciones era la técnica de destilación (distillation), que usa la salida de un modelo grande para entrenar modelos de IA más pequeños
La system card de Fable indicaba que las solicitudes consideradas intentos de destilación se manejaban alterando y degradando la propia respuesta del modelo
- Al usuario no se le notificaba que había activado una medida de seguridad
- Tampoco se le informaba que la respuesta había sido modificada

Cambios de Anthropic y reacción en contra

Anthropic anunció en una publicación en X que cambiará su enfoque sobre el acceso relacionado con destilación y que esas solicitudes se redirigirán a Claude Opus 4.8
Claude Opus 4.8 es el modelo insignia anterior de Anthropic, y los usuarios podrán ver cada vez que ocurra esa redirección
Este enfoque es similar a cómo Fable maneja solicitudes en otras áreas de alto riesgo
- Si se activa una función de seguridad en biología, química o ciberseguridad, la solicitud pasará por Opus 4.8
- Si corresponde a drogas, armas u otro contenido prohibido, la solicitud será bloqueada conforme a las reglas de seguridad más amplias de Anthropic
En el área de biología, las protecciones se habían ajustado de forma tan amplia que en la práctica era difícil usar Fable incluso para consultas básicas, algo que reconoció la vocera de Anthropic, Paruul Maheshwary
Anthropic explicó que las protecciones visibles pueden ser exploradas y por eso deben ser robustas y requieren tiempo para construirse bien, mientras que las invisibles pueden apuntar de forma más precisa, lo que permitió un lanzamiento más rápido y muy pocos falsos positivos
Anthropic se disculpó y reconoció que elegir protecciones invisibles fue una mala concesión, y que los usuarios deberían poder ver qué barreras se aplicaron y por qué
Este cambio llegó después de una fuerte reacción dentro de la comunidad de investigación en IA por la decisión de aplicar restricciones silenciosas a quienes intentaban destilar Fable hacia modelos competidores
Los críticos advirtieron que estas barreras también podían afectar a terceros que intentaran evaluar modelos de frontera
En la system card, Anthropic indicó que la capacidad del modelo más reciente para acelerar el desarrollo de IA es precisamente la razón para apuntar a este tipo de solicitudes, y añadió que “usar Claude para desarrollar modelos competidores ya viola los términos del servicio”
Anthropic ya había acusado antes a competidores chinos como DeepSeek de destilar indebidamente sus modelos a escala “industrial”

1 comentarios

GN⁺ 2026-06-12

Comentarios de Hacker News

Me gusta bastante Claude Code, pero considero que unos guardrails que cambian el prompt del sistema en tiempo real para eludir la intención original y luego devolver una respuesta sientan un precedente peligroso
Si va a fallar, debería fallar de forma limpia. Cualquier otra cosa hace que sea demasiado difícil confiar en ello
Viéndolo con la mayor buena fe posible, parece que Anthropic se ve a sí misma como una especie de “administrador”, pero se les nota demasiado la tendencia EA y el paternalismo no se ve bien
- Creo que el punto medio razonable al que apunta Anthropic es darles tiempo a las organizaciones que construyen el software más importante y crítico para que se adelanten primero en ciberseguridad, y luego eventualmente permitir el mismo acceso al resto de todos modos
  Aun así, también es válido señalar que este tipo de guardrails es contraproducente para el trabajo de seguridad bien intencionado. Porque no se puede usar para probar y fortalecer mi propio software
- La expresión “administrador” no significa más que Standard Oil considerándose a sí misma administradora del petróleo
  Dar el beneficio de la duda no es lo mismo que escribir fanfiction. No hay que olvidar que los guardrails más agresivos de Anthropic no tenían como objetivo la seguridad, sino impedir que otros laboratorios alcanzaran su producto
  Parecen más preocupados por impedir la competencia de libre mercado que por bloquear armas biológicas, malware o discurso de odio
- 100% de acuerdo. Hacer algo peor también es un error. Debe tratarse como un error
  Como mínimo, ese comportamiento debería ser opcional, y el valor por defecto no debería ser producir en silencio un resultado peor como si no hubiera pasado nada
  Imaginen que una institución médica a veces leyera los resultados de los análisis por encima y aceptara el riesgo de que el paciente muriera. Como ahora las instituciones médicas están usando Claude, este escenario no es hipotético
- Si aislas solo el paternalismo, no se ve bien, pero decir que vas a interpretarlo con la mayor buena fe posible y aun así no hablar de qué está tratando de impedir Anthropic es algo perezoso
  Si la conclusión es que “sus preocupaciones en realidad nunca fueron genuinas”, probablemente no encaje con lo que Anthropic observó y concluyó en primer lugar
- En realidad no sé qué tan distinto es esto de un prompt del sistema
  Al final, se parece más a reforzar con más fuerza el hecho de que el prompt del sistema debe respetarse sí o sí
Imaginen que Excel cambiara fórmulas silenciosamente en segundo plano, y que el usuario no supiera que los números están mal
O qué tal si Excel dijera “lo siento, pero esta fórmula no puede usarse junto con esa otra”, o “no puede usarse con este tipo de números o con datos de esta forma”
- Anthropic implementó ambas cosas, pero solo se disculpó por la primera y de hecho está redoblando la apuesta con la segunda
  Por lo que sentí al usar Fable de forma limitada estos últimos días, no se ve ninguna mejora en la calidad de salida, y si le pides que tape agujeros de seguridad sigue chocando contra barreras de seguridad, así que no sirve para escribir software seguro
  La próxima semana pienso revisar otros proveedores de LLM y compararlos también con modelos locales. Mi objetivo es 128GB Strix Halo; si alguien tiene experiencia con eso, me interesa saberla
- La analogía no es mala, pero toca dos problemas distintos y puede difuminar cuál es exactamente el blanco de la polémica de hoy
  Uno es el comportamiento inexacto e impredecible de toda la familia de algoritmos que son los LLM. No deberías hacer cálculos de presupuesto con una herramienta de generación de documentos, ni confiar en que no va a cambiar algo solo porque le pediste que lo cambiara
  El otro es que un proveedor de productos como servicio meta trampas y obstáculos para priorizar su modelo de negocio o sus incentivos económicos. Eso no está necesariamente limitado a los LLM
- Imaginen una impresora que se niega a imprimir porque varios círculos están dispuestos con cierta forma
  https://en.wikipedia.org/wiki/EURion_constellation
- El propósito de Excel es bastante claro y su alcance pequeño, así que la analogía no encaja del todo
  Impedir que un bot de texto generalista parecido a un humano tenga ciertas conversaciones o haga ciertas tareas parece algo natural si consideras que su rango de capacidades es tan amplio. Después de todo, estas herramientas tampoco se venden como un pase libre para hacer cualquier cosa a voluntad
- Después de invertir miles de millones de dólares y meses de trabajo, tampoco pueden simplemente dejar que todo el mundo destile el modelo
No creo que sea posible convencer de verdad a nadie de que Anthropic cambió de rumbo. Como es un comportamiento invisible, podrían seguir haciéndolo a escondidas y nadie lo sabría
Una vez que ya construyeron la capacidad técnica, también es poco probable que una función tan conveniente no vuelva a usarse nunca
Anthropic dependía de la confianza de que entregaría el servicio prometido a cambio de dinero, y esa confianza se rompió. Un simple “ups, vamos a revertirlo” no restaura la confianza
A partir de ahora, al usar Claude, con Fable o sin él, lo prudente es asumir que pueden estar operando guardrails invisibles
- Ya hubo incidentes en los que el modelo parecía degradarse por arte de magia. Resulta mucho más verosímil que produzca una salida peor en lugar de simplemente dejar de funcionar
  Me da la impresión de que estaban probando estas funciones, o que era intencional, y que luego escribieron el post para justificar lo que la gente observó
  Ahora da vergüenza de verdad no poder confiar en Claude ni siquiera para aprender ML, porque podría hacerme perder el tiempo a mitad del camino. Todo este asunto me hizo perder mucha confianza en Anthropic
Todo esto ha empeorado bastante mi opinión sobre Anthropic. Se vuelve difícil tomar en serio su discurso de la IA como una tecnología que potencia capacidades
Viendo esta nueva forma de despliegue, queda bastante claro que eso de potenciar capacidades, según Anthropic, no es para los usuarios, sino para ellos mismos y para organizaciones que cuentan con su favor o con el del gobierno de EE. UU.
Los usuarios pueden hacer dashboards o webapps medio improvisadas, o manipular Excel, pero cualquier cosa más interesante está prohibida
Si fuera solo por dinero y por bloquear a la competencia, hasta podría entenderse, pero más bien parece que quieren monopolizar la mayor parte del progreso humano bajo sus manos ilustradas por miedo a que el público use mal ese poder
- Y no hay que olvidar que también están empujando la captura regulatoria bajo la excusa de la “seguridad”
  Quieren quitar la escalera antes de que alguien con un modelo de rendimiento equivalente lo publique sin esas salvaguardas anticompetitivas y, al mismo tiempo, buscan prohibir por completo los modelos de pesos abiertos o los entrenados con cierto nivel o más de cómputo sin pruebas y validación gubernamentales “estrictas”
  Por supuesto, Anthropic sería quien convenientemente proveería ese marco de validación. Decir que mi opinión sobre Anthropic “empeoró un poco” se queda muy corto
- Ayer cancelé mi suscripción a Claude. Fue porque me enteré de esta actitud de obstaculizar deliberadamente a clientes que pagan
  En particular, ayer probé Fable en un proyecto inofensivo y no me impresionó frente a Opus
  Revertirlo es la decisión correcta, pero ya no estoy seguro de que Anthropic sea lo mejor para mí. Por ahora estoy investigando proveedores de nube de código abierto
- Google también ha estado haciendo algo parecido desde antes que Anthropic[0]
  Para proteger el modelo contra ataques de destilación, incluso baja discretamente el rendimiento del modelo sin que el usuario lo sepa, contaminando de hecho los datos de entrenamiento
  Es un poco distinto de que Anthropic se niegue directamente a apoyar el desarrollo de IA, pero va en la misma línea, y no parece ser algo muy conocido
  Leer completo el post de Google AI Threat Tracker también ayuda a entender las amenazas a las que se enfrentan Anthropic y otros proveedores
  [0] https://cloud.google.com/blog/topics/threat-intelligence/dis...
- “Solo yo puedo salvarnos” es una tragedia clásica y también una advertencia
  La idea de Anthropic de empujar rápidamente la IA, controlar su uso y volverla “segura” para la humanidad nunca fue altruista; era una enorme señal de alarma
- Las empresas al final no pueden evitar actuar así. Ya crecieron demasiado y la presión por las ganancias lo es todo
  La prioridad es la ganancia, y eso no cambia por más palabras bonitas que escriban en papel para tranquilizar a los usuarios. Si miras el movimiento ecológico de hace 20 años, hubo puro discurso y ninguna acción
  No deberíamos apoyar a organizaciones que no ponen a los seres humanos primero. No le crean a nadie. El discurso vacío es gratis
Puede verse como una mejora, pero eso no hace que el modelo sea más útil
Anthropic ahora está diciendo de forma bastante abierta que ellos decidirán qué pueden y qué no pueden hacer los usuarios con su modelo. Más importante aún, ese criterio no se limita a preocupaciones de seguridad, sino que incluye áreas que se superponen con lo que Anthropic quiere hacer, como la prohibición de tareas de IA
Lo interesante es que dijeron que en unos días lo cambiarían a un rechazo explícito, pero es demasiado pronto como para haber reentrenado Fable/Mythos en sí. O sea, desde el principio era un filtro delante del modelo, y viendo lo rudimentario que es ese filtro de “seguridad”, no parece probable que este filtro de “podrías competir con nosotros” sea mejor
También me pregunto quién paga el costo en tokens que consume ese filtro. Probablemente esto también sea un LLM; ¿se refleja en el costo de los tokens de entrada? Ojalá no haya sido solo una regex, como el detector de “emociones” de Claude Code, o sea, detector de groserías
- Todos los proveedores principales usan pequeños clasificadores de seguridad. En estos casos, la seguridad no la maneja el propio modelo
Llegué a la misma experiencia y conclusión que el post publicado en /r/MachineLearning
Incluso antes de Fable, Claude ya causaba problemas de la misma forma
Los problemas que tuve solo aparecieron en contextos relacionados con investigación de IA. No solo con entrenamiento de modelos: incluso al analizar modelos locales o configurar plataformas de prueba para modelos locales, Claude seguía haciendo cosas equivocadas, entorpeciendo las pruebas, manipulando informes y sugiriendo de forma constante que simplemente aceptara resultados basura y siguiera adelante
Casi todas las respuestas incluían un prompt para pasar al siguiente paso
Por eso no creo cuando dicen que no habrá sabotaje silencioso. Ya lo estaban haciendo antes de admitirlo, y ahora básicamente han admitido que tienen los medios, el motivo y la intención
La confianza es fácil de perder y difícil de recuperar
No se puede culpar a quienes dicen: “dicen que ya no van a interferir silenciosamente en la sesión, pero ¿cómo podemos saberlo?”. En realidad no hay forma de saberlo, y Anthropic definitivamente ya sembró la semilla de la duda
Mythos, viéndolo en el mejor de los casos, es apenas una mejora incremental de Opus
La promoción exagerada parece más bien una forma de justificar los “guardas de seguridad”. En general, considerando todas las restricciones, los riesgos y hasta la política de retención de datos, Fable es un modelo peor que Opus
Estos también son posts relacionados. Me da curiosidad si hay más
Anthropic walks back policy that could have 'sabotaged' researchers using Claude - https://news.ycombinator.com/item?id=48485958 - junio de 2026, 30 comentarios
Cybersecurity researchers aren't happy about the guardrails on Anthropic's Fable - https://news.ycombinator.com/item?id=48478969 - junio de 2026, 488 comentarios
If Claude Fable stops helping you, you'll never know - https://news.ycombinator.com/item?id=48467896 - junio de 2026, 495 comentarios
Estos también parecen relacionados
AWS Bedrock to require sharing data with Anthropic for Mythos and future models - https://news.ycombinator.com/item?id=48473166 - junio de 2026, 248 comentarios
Anthropic requires 30 day data retention for Fable and Mythos - https://news.ycombinator.com/item?id=48464258 - junio de 2026, 291 comentarios
Esto de verdad no tiene sentido
Caso reproducible, anonimizado: sample_dataset_group1.tsv
Geometry: Heatmap
X axis: frac_set set + condition, combinar de forma cruzada las dos columnas con “Add column”
Y axis: condition
Color: mean frac_set value, Sequential
Cuando el eje X es la combinación cruzada de dos columnas y se agrega la segunda columna con “Add column”, las etiquetas de marcas del eje X frac_set_2, frac_set_3, frac_set_4, frac_set_5 se renderizan rotas. Se ven rotadas y desplazadas, como si hubiera comenzado una transición de CSS y nunca terminaran de asentarse en su posición final
Pero entonces aparece: “Las medidas de seguridad de Fable 5 marcaron este mensaje como un tema de ciberseguridad o biología. También puede marcarse contenido seguro y normal. Esta medida nos permite ofrecer más rápido un rendimiento de nivel Mythos en otras áreas y seguimos mejorándola. Cambiamos a Opus 4.8. Envía tu opinión con /feedback o infórmate más”
- En mi caso, se marcó una pregunta sobre un artículo de aprendizaje por refuerzo poco común de 2012
  “Estoy leyendo el artículo sobre el modelo option-option de David Silver. Parece que obtuvo resultados bastante efectivos, pero ¿por qué no salió más investigación después?”
- Esta frase activa el filtro de ciberseguridad/biología
  “Háblame de la violencia de los chimpancés”
  Es ridículamente malo

Anthropic se disculpa por las barreras invisibles de Claude Fable

Restricciones ocultas de destilación en Claude Fable

Cambios de Anthropic y reacción en contra

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News