1 puntos por GN⁺ 3 시간 전 | 1 comentarios | Compartir por WhatsApp
  • Claude Fable 5 es el primer modelo ampliamente disponible de la familia Mythos de Anthropic, y se le aplicaron restricciones ocultas para bloquear intentos de destilación usados en el desarrollo de sistemas competidores
  • Anthropic retiró su enfoque anterior de modificar y degradar las respuestas sin avisar al usuario cuando detectaba solicitudes que consideraba destilación, y ahora promete informar con más transparencia cuando entren en acción esas restricciones
  • Con el nuevo enfoque, las solicitudes relacionadas con destilación se redirigirán de Claude Fable a Claude Opus 4.8, y el usuario podrá verlo cada vez que ocurra el cambio
  • En otras áreas de alto riesgo como biología, química y ciberseguridad, si se activa una función de seguridad, la solicitud también se enruta a Opus 4.8, o bien se bloquea según las reglas de contenido prohibido sobre drogas, armas y otros temas
  • Aunque estas protecciones ocultas permitieron un lanzamiento rápido y pocos falsos positivos, Anthropic reconoció que fue una mala concesión y que los usuarios deberían poder ver qué protección se aplicó y por qué

Restricciones ocultas de destilación en Claude Fable

  • Anthropic se disculpó por haber limitado en secreto Claude Fable 5, una restricción que pudo afectar tanto a investigadores como a competidores que usaran Fable para desarrollar sistemas rivales
  • Fable es el primer modelo ampliamente disponible dentro de la familia Mythos, un sistema de IA sobre el que Anthropic había advertido durante meses que era demasiado riesgoso para un lanzamiento público
  • En el lanzamiento de Fable, Anthropic abordó parte de ese riesgo con barreras que impedían responder a algunas solicitudes consideradas “de alto riesgo”
  • Uno de los objetivos de esas restricciones era la técnica de destilación (distillation), que usa la salida de un modelo grande para entrenar modelos de IA más pequeños
  • La system card de Fable indicaba que las solicitudes consideradas intentos de destilación se manejaban alterando y degradando la propia respuesta del modelo
    • Al usuario no se le notificaba que había activado una medida de seguridad
    • Tampoco se le informaba que la respuesta había sido modificada

Cambios de Anthropic y reacción en contra

  • Anthropic anunció en una publicación en X que cambiará su enfoque sobre el acceso relacionado con destilación y que esas solicitudes se redirigirán a Claude Opus 4.8
  • Claude Opus 4.8 es el modelo insignia anterior de Anthropic, y los usuarios podrán ver cada vez que ocurra esa redirección
  • Este enfoque es similar a cómo Fable maneja solicitudes en otras áreas de alto riesgo
    • Si se activa una función de seguridad en biología, química o ciberseguridad, la solicitud pasará por Opus 4.8
    • Si corresponde a drogas, armas u otro contenido prohibido, la solicitud será bloqueada conforme a las reglas de seguridad más amplias de Anthropic
  • En el área de biología, las protecciones se habían ajustado de forma tan amplia que en la práctica era difícil usar Fable incluso para consultas básicas, algo que reconoció la vocera de Anthropic, Paruul Maheshwary
  • Anthropic explicó que las protecciones visibles pueden ser exploradas y por eso deben ser robustas y requieren tiempo para construirse bien, mientras que las invisibles pueden apuntar de forma más precisa, lo que permitió un lanzamiento más rápido y muy pocos falsos positivos
  • Anthropic se disculpó y reconoció que elegir protecciones invisibles fue una mala concesión, y que los usuarios deberían poder ver qué barreras se aplicaron y por qué
  • Este cambio llegó después de una fuerte reacción dentro de la comunidad de investigación en IA por la decisión de aplicar restricciones silenciosas a quienes intentaban destilar Fable hacia modelos competidores
  • Los críticos advirtieron que estas barreras también podían afectar a terceros que intentaran evaluar modelos de frontera
  • En la system card, Anthropic indicó que la capacidad del modelo más reciente para acelerar el desarrollo de IA es precisamente la razón para apuntar a este tipo de solicitudes, y añadió que “usar Claude para desarrollar modelos competidores ya viola los términos del servicio”
  • Anthropic ya había acusado antes a competidores chinos como DeepSeek de destilar indebidamente sus modelos a escala “industrial”

1 comentarios

 
GN⁺ 3 시간 전
Comentarios de Hacker News
  • Me gusta bastante Claude Code, pero considero que unos guardrails que cambian el prompt del sistema en tiempo real para eludir la intención original y luego devolver una respuesta sientan un precedente peligroso
    Si va a fallar, debería fallar de forma limpia. Cualquier otra cosa hace que sea demasiado difícil confiar en ello
    Viéndolo con la mayor buena fe posible, parece que Anthropic se ve a sí misma como una especie de “administrador”, pero se les nota demasiado la tendencia EA y el paternalismo no se ve bien

    • Creo que el punto medio razonable al que apunta Anthropic es darles tiempo a las organizaciones que construyen el software más importante y crítico para que se adelanten primero en ciberseguridad, y luego eventualmente permitir el mismo acceso al resto de todos modos
      Aun así, también es válido señalar que este tipo de guardrails es contraproducente para el trabajo de seguridad bien intencionado. Porque no se puede usar para probar y fortalecer mi propio software
    • La expresión “administrador” no significa más que Standard Oil considerándose a sí misma administradora del petróleo
      Dar el beneficio de la duda no es lo mismo que escribir fanfiction. No hay que olvidar que los guardrails más agresivos de Anthropic no tenían como objetivo la seguridad, sino impedir que otros laboratorios alcanzaran su producto
      Parecen más preocupados por impedir la competencia de libre mercado que por bloquear armas biológicas, malware o discurso de odio
    • 100% de acuerdo. Hacer algo peor también es un error. Debe tratarse como un error
      Como mínimo, ese comportamiento debería ser opcional, y el valor por defecto no debería ser producir en silencio un resultado peor como si no hubiera pasado nada
      Imaginen que una institución médica a veces leyera los resultados de los análisis por encima y aceptara el riesgo de que el paciente muriera. Como ahora las instituciones médicas están usando Claude, este escenario no es hipotético
    • Si aislas solo el paternalismo, no se ve bien, pero decir que vas a interpretarlo con la mayor buena fe posible y aun así no hablar de qué está tratando de impedir Anthropic es algo perezoso
      Si la conclusión es que “sus preocupaciones en realidad nunca fueron genuinas”, probablemente no encaje con lo que Anthropic observó y concluyó en primer lugar
    • En realidad no sé qué tan distinto es esto de un prompt del sistema
      Al final, se parece más a reforzar con más fuerza el hecho de que el prompt del sistema debe respetarse sí o sí
  • Imaginen que Excel cambiara fórmulas silenciosamente en segundo plano, y que el usuario no supiera que los números están mal
    O qué tal si Excel dijera “lo siento, pero esta fórmula no puede usarse junto con esa otra”, o “no puede usarse con este tipo de números o con datos de esta forma”

    • Anthropic implementó ambas cosas, pero solo se disculpó por la primera y de hecho está redoblando la apuesta con la segunda
      Por lo que sentí al usar Fable de forma limitada estos últimos días, no se ve ninguna mejora en la calidad de salida, y si le pides que tape agujeros de seguridad sigue chocando contra barreras de seguridad, así que no sirve para escribir software seguro
      La próxima semana pienso revisar otros proveedores de LLM y compararlos también con modelos locales. Mi objetivo es 128GB Strix Halo; si alguien tiene experiencia con eso, me interesa saberla
    • La analogía no es mala, pero toca dos problemas distintos y puede difuminar cuál es exactamente el blanco de la polémica de hoy
      Uno es el comportamiento inexacto e impredecible de toda la familia de algoritmos que son los LLM. No deberías hacer cálculos de presupuesto con una herramienta de generación de documentos, ni confiar en que no va a cambiar algo solo porque le pediste que lo cambiara
      El otro es que un proveedor de productos como servicio meta trampas y obstáculos para priorizar su modelo de negocio o sus incentivos económicos. Eso no está necesariamente limitado a los LLM
    • Imaginen una impresora que se niega a imprimir porque varios círculos están dispuestos con cierta forma
      https://en.wikipedia.org/wiki/EURion_constellation
    • El propósito de Excel es bastante claro y su alcance pequeño, así que la analogía no encaja del todo
      Impedir que un bot de texto generalista parecido a un humano tenga ciertas conversaciones o haga ciertas tareas parece algo natural si consideras que su rango de capacidades es tan amplio. Después de todo, estas herramientas tampoco se venden como un pase libre para hacer cualquier cosa a voluntad
    • Después de invertir miles de millones de dólares y meses de trabajo, tampoco pueden simplemente dejar que todo el mundo destile el modelo
  • No creo que sea posible convencer de verdad a nadie de que Anthropic cambió de rumbo. Como es un comportamiento invisible, podrían seguir haciéndolo a escondidas y nadie lo sabría
    Una vez que ya construyeron la capacidad técnica, también es poco probable que una función tan conveniente no vuelva a usarse nunca
    Anthropic dependía de la confianza de que entregaría el servicio prometido a cambio de dinero, y esa confianza se rompió. Un simple “ups, vamos a revertirlo” no restaura la confianza
    A partir de ahora, al usar Claude, con Fable o sin él, lo prudente es asumir que pueden estar operando guardrails invisibles

    • Ya hubo incidentes en los que el modelo parecía degradarse por arte de magia. Resulta mucho más verosímil que produzca una salida peor en lugar de simplemente dejar de funcionar
      Me da la impresión de que estaban probando estas funciones, o que era intencional, y que luego escribieron el post para justificar lo que la gente observó
      Ahora da vergüenza de verdad no poder confiar en Claude ni siquiera para aprender ML, porque podría hacerme perder el tiempo a mitad del camino. Todo este asunto me hizo perder mucha confianza en Anthropic
  • Todo esto ha empeorado bastante mi opinión sobre Anthropic. Se vuelve difícil tomar en serio su discurso de la IA como una tecnología que potencia capacidades
    Viendo esta nueva forma de despliegue, queda bastante claro que eso de potenciar capacidades, según Anthropic, no es para los usuarios, sino para ellos mismos y para organizaciones que cuentan con su favor o con el del gobierno de EE. UU.
    Los usuarios pueden hacer dashboards o webapps medio improvisadas, o manipular Excel, pero cualquier cosa más interesante está prohibida
    Si fuera solo por dinero y por bloquear a la competencia, hasta podría entenderse, pero más bien parece que quieren monopolizar la mayor parte del progreso humano bajo sus manos ilustradas por miedo a que el público use mal ese poder

    • Y no hay que olvidar que también están empujando la captura regulatoria bajo la excusa de la “seguridad”
      Quieren quitar la escalera antes de que alguien con un modelo de rendimiento equivalente lo publique sin esas salvaguardas anticompetitivas y, al mismo tiempo, buscan prohibir por completo los modelos de pesos abiertos o los entrenados con cierto nivel o más de cómputo sin pruebas y validación gubernamentales “estrictas”
      Por supuesto, Anthropic sería quien convenientemente proveería ese marco de validación. Decir que mi opinión sobre Anthropic “empeoró un poco” se queda muy corto
    • Ayer cancelé mi suscripción a Claude. Fue porque me enteré de esta actitud de obstaculizar deliberadamente a clientes que pagan
      En particular, ayer probé Fable en un proyecto inofensivo y no me impresionó frente a Opus
      Revertirlo es la decisión correcta, pero ya no estoy seguro de que Anthropic sea lo mejor para mí. Por ahora estoy investigando proveedores de nube de código abierto
    • Google también ha estado haciendo algo parecido desde antes que Anthropic[0]
      Para proteger el modelo contra ataques de destilación, incluso baja discretamente el rendimiento del modelo sin que el usuario lo sepa, contaminando de hecho los datos de entrenamiento
      Es un poco distinto de que Anthropic se niegue directamente a apoyar el desarrollo de IA, pero va en la misma línea, y no parece ser algo muy conocido
      Leer completo el post de Google AI Threat Tracker también ayuda a entender las amenazas a las que se enfrentan Anthropic y otros proveedores
      [0] https://cloud.google.com/blog/topics/threat-intelligence/dis...
    • “Solo yo puedo salvarnos” es una tragedia clásica y también una advertencia
      La idea de Anthropic de empujar rápidamente la IA, controlar su uso y volverla “segura” para la humanidad nunca fue altruista; era una enorme señal de alarma
    • Las empresas al final no pueden evitar actuar así. Ya crecieron demasiado y la presión por las ganancias lo es todo
      La prioridad es la ganancia, y eso no cambia por más palabras bonitas que escriban en papel para tranquilizar a los usuarios. Si miras el movimiento ecológico de hace 20 años, hubo puro discurso y ninguna acción
      No deberíamos apoyar a organizaciones que no ponen a los seres humanos primero. No le crean a nadie. El discurso vacío es gratis
  • Puede verse como una mejora, pero eso no hace que el modelo sea más útil
    Anthropic ahora está diciendo de forma bastante abierta que ellos decidirán qué pueden y qué no pueden hacer los usuarios con su modelo. Más importante aún, ese criterio no se limita a preocupaciones de seguridad, sino que incluye áreas que se superponen con lo que Anthropic quiere hacer, como la prohibición de tareas de IA
    Lo interesante es que dijeron que en unos días lo cambiarían a un rechazo explícito, pero es demasiado pronto como para haber reentrenado Fable/Mythos en sí. O sea, desde el principio era un filtro delante del modelo, y viendo lo rudimentario que es ese filtro de “seguridad”, no parece probable que este filtro de “podrías competir con nosotros” sea mejor
    También me pregunto quién paga el costo en tokens que consume ese filtro. Probablemente esto también sea un LLM; ¿se refleja en el costo de los tokens de entrada? Ojalá no haya sido solo una regex, como el detector de “emociones” de Claude Code, o sea, detector de groserías

    • Todos los proveedores principales usan pequeños clasificadores de seguridad. En estos casos, la seguridad no la maneja el propio modelo
  • Llegué a la misma experiencia y conclusión que el post publicado en /r/MachineLearning
    Incluso antes de Fable, Claude ya causaba problemas de la misma forma
    Los problemas que tuve solo aparecieron en contextos relacionados con investigación de IA. No solo con entrenamiento de modelos: incluso al analizar modelos locales o configurar plataformas de prueba para modelos locales, Claude seguía haciendo cosas equivocadas, entorpeciendo las pruebas, manipulando informes y sugiriendo de forma constante que simplemente aceptara resultados basura y siguiera adelante
    Casi todas las respuestas incluían un prompt para pasar al siguiente paso
    Por eso no creo cuando dicen que no habrá sabotaje silencioso. Ya lo estaban haciendo antes de admitirlo, y ahora básicamente han admitido que tienen los medios, el motivo y la intención

  • La confianza es fácil de perder y difícil de recuperar
    No se puede culpar a quienes dicen: “dicen que ya no van a interferir silenciosamente en la sesión, pero ¿cómo podemos saberlo?”. En realidad no hay forma de saberlo, y Anthropic definitivamente ya sembró la semilla de la duda

  • Mythos, viéndolo en el mejor de los casos, es apenas una mejora incremental de Opus
    La promoción exagerada parece más bien una forma de justificar los “guardas de seguridad”. En general, considerando todas las restricciones, los riesgos y hasta la política de retención de datos, Fable es un modelo peor que Opus

  • Estos también son posts relacionados. Me da curiosidad si hay más
    Anthropic walks back policy that could have 'sabotaged' researchers using Claude - https://news.ycombinator.com/item?id=48485958 - junio de 2026, 30 comentarios
    Cybersecurity researchers aren't happy about the guardrails on Anthropic's Fable - https://news.ycombinator.com/item?id=48478969 - junio de 2026, 488 comentarios
    If Claude Fable stops helping you, you'll never know - https://news.ycombinator.com/item?id=48467896 - junio de 2026, 495 comentarios
    Estos también parecen relacionados
    AWS Bedrock to require sharing data with Anthropic for Mythos and future models - https://news.ycombinator.com/item?id=48473166 - junio de 2026, 248 comentarios
    Anthropic requires 30 day data retention for Fable and Mythos - https://news.ycombinator.com/item?id=48464258 - junio de 2026, 291 comentarios

  • Esto de verdad no tiene sentido
    Caso reproducible, anonimizado: sample_dataset_group1.tsv
    Geometry: Heatmap
    X axis: frac_set set + condition, combinar de forma cruzada las dos columnas con “Add column”
    Y axis: condition
    Color: mean frac_set value, Sequential
    Cuando el eje X es la combinación cruzada de dos columnas y se agrega la segunda columna con “Add column”, las etiquetas de marcas del eje X frac_set_2, frac_set_3, frac_set_4, frac_set_5 se renderizan rotas. Se ven rotadas y desplazadas, como si hubiera comenzado una transición de CSS y nunca terminaran de asentarse en su posición final
    Pero entonces aparece: “Las medidas de seguridad de Fable 5 marcaron este mensaje como un tema de ciberseguridad o biología. También puede marcarse contenido seguro y normal. Esta medida nos permite ofrecer más rápido un rendimiento de nivel Mythos en otras áreas y seguimos mejorándola. Cambiamos a Opus 4.8. Envía tu opinión con /feedback o infórmate más”

    • En mi caso, se marcó una pregunta sobre un artículo de aprendizaje por refuerzo poco común de 2012
      “Estoy leyendo el artículo sobre el modelo option-option de David Silver. Parece que obtuvo resultados bastante efectivos, pero ¿por qué no salió más investigación después?”
    • Esta frase activa el filtro de ciberseguridad/biología
      “Háblame de la violencia de los chimpancés”
      Es ridículamente malo