Investigadores de ciberseguridad expresan descontento con las barreras de seguridad de Fable de Anthropic

(techcrunch.com)

2 puntos por GN⁺ 2026-06-11 | 1 comentarios | Compartir por WhatsApp

Fable se lanzó como una versión pública y restringida de Mythos, un potente modelo de ciberseguridad, pero bloquea de forma amplia las solicitudes relacionadas con ciberseguridad, lo que ha provocado descontento entre investigadores y especialistas
Cuando se activan las barreras de seguridad, el chat se detiene y aparece un mensaje indicando que las medidas de seguridad se activaron por tratarse de un tema de “ciberseguridad o biología”
Anthropic afirma que impuso estas restricciones para reducir el riesgo de que Fable se use para desarrollar malware o comprometer software, y que las limitaciones sobre biología también están relacionadas con preocupaciones sobre el desarrollo de armas biológicas
Algunos especialistas consideran que incluso solicitudes más cercanas a prácticas de ingeniería de software, como escribir código seguro o revisar código, se clasifican como ciberseguridad y se degradan a Claude Opus 4.8
Expertos en seguridad expresan rechazo al bloqueo esporádico basado en palabras clave, aunque creen que, por estar aún en una etapa temprana, esto se suavizará con el tiempo

Lanzamiento de Fable y quejas de los usuarios

Anthropic lanzó el martes el nuevo modelo Fable, presentado como una versión pública y restringida de Mythos, su potente y muy comentado modelo de ciberseguridad
Varios investigadores y especialistas en ciberseguridad manifestaron en línea su descontento con las restricciones
Valentina "Chompie" Palmiotti, reconocida investigadora de seguridad de IBM X-Force, señaló que Fable rechaza solicitudes que podrían estar aunque sea mínimamente relacionadas con ciberseguridad, e incluso bloquea tareas inofensivas como leer una entrada de blog
Si las barreras de seguridad de Fable se activan por un prompt, el chat se detiene y muestra un aviso indicando que el mensaje fue marcado como un tema de ciberseguridad o biología
Estas barreras buscan limitar el riesgo de que Fable sea mal utilizado para desarrollar malware o comprometer software, una preocupación de larga data dentro de Anthropic
Las restricciones relacionadas con biología parten de preocupaciones similares sobre el desarrollo de armas biológicas

Progreso en la ampliación del acceso a Mythos

Cuando Anthropic lanzó Mythos en abril, limitó el modelo a un pequeño grupo de empresas y organizaciones bajo el nombre Project Glasswing
- Un intento de desplegar el modelo para proteger software e infraestructura críticos
La semana pasada, Anthropic amplió el acceso a Mythos a cientos de organizaciones en 15 países

Críticas de especialistas al modo de restricción

El veterano de ciberseguridad Matt Suiche comentó que, si se le pide escribir código seguro, Fable lo trata como una tarea de ciberseguridad en lugar de una buena práctica de ingeniería de software, y por eso reduce el nivel de respuesta
- Fable está diseñado para hacer fallback a Claude Opus 4.8 cuando queda bloqueado por las barreras de seguridad
- "Parece estar basado en palabras clave, y cualquier cosa que entre dentro de la categoría léxica de 'ciberseguridad' activa las barreras"
Otro investigador también se quejó en X de que incluso una solicitud de revisión de código activa las barreras de seguridad de Fable

Perspectivas a futuro

Suiche, miembro del equipo técnico de Tolmo (startup de ciberseguridad con IA), evaluó que esto es comprensible porque aún está en una etapa temprana y las barreras siguen ajustándose
- Considera que, a medida que Anthropic y otras empresas de modelos de frontera colaboren más con la nueva generación de compañías de ciberseguridad, estas barreras evolucionarán con el tiempo
- En este tipo de lanzamientos, es mejor bloquear de más que quedarse corto, y luego suavizar las barreras después
Anthropic no respondió de inmediato a una solicitud de comentarios

Programa de verificación independiente

Además de las barreras internas del modelo, Anthropic exige a especialistas en ciberseguridad solicitar el Cyber Verification Program
- Si son aprobados, enfrentan menos restricciones al usar Claude para tareas de ciberseguridad
OpenAI también opera un programa similar llamado Trusted Access for Cyber

1 comentarios

GN⁺ 2026-06-11

Opiniones en Hacker News

Salió un nuevo artículo en Wired: ["Anthropic Walks Back Policy That Could Have ‘Sabotaged’ AI Researchers Using Claude" https://www.wired.com/story/anthropic-responds-to-backlash-o...
Anthropic dijo a WIRED que “está cambiando Fable 5 para que muestre sus protecciones de seguridad sobre el desarrollo de frontier LLMs. Pedimos disculpas por haber hecho una compensación equivocada y no haber logrado un buen equilibrio”
Parece que una amplia ola de críticas sí tuvo efecto
- Las empresas estadounidenses no se echan para atrás; solo vuelven a intentarlo más tarde, cuando la gente ya está cansada y deja de prestarle atención, así que la única solución es abandonar el barco
  Microsoft retiró varias veces la publicidad en el OS, pero al final igual siguió la trayectoria que todos odiaban, y OpenAI también terminó yéndose por la IA cerrada sin importar sus retiradas iniciales
  Cuando empieza el mal comportamiento, hay que irse, y las disculpas son tan vacías como el barniz moral que las acompaña
- Ya es demasiado tarde. Cancelé mi suscripción Max, y el simple hecho de que realmente hayan intentado hacer esto destruyó la poca confianza que quedaba
  Pago miles de dólares al mes por uso adicional, y si todavía podrían estar haciendo algo parecido entre bastidores, no veo por qué debería seguir pagando
  Errores que antes atribuía al esfuerzo de razonamiento o a cambios en el backend podrían en realidad haber sido inyecciones de prompts deliberadas
- La palabra “compensación” es, de hecho, útil para los posibles clientes porque señala que Anthropic todavía cree que su propio juicio era correcto y que no considera esto algo cualitativamente malo
  Si necesitas infraestructura confiable para integrarla en una aplicación, la lección clave es que deberías usar otro proveedor
  No es que odie especialmente a Anthropic, pero como alguien que añadió complejidad a su app para manejar el comportamiento previo de rechazo de Sonnet, puedo entenderlo en un chatbot para usuario final, pero no es aceptable en una API
- Si una tarea es bloqueada o tratada de forma similar, la condición mínima debería ser un reembolso total de créditos para esa sesión o para los últimos X minutos
- Siguen degradando el servicio, solo que dicen que ya no lo harán en silencio, así que no sé qué tan gran victoria sea esto
  Anthropic entrenó con datos de otros sin licencia ni atribución, pero quiere impedir que alguien les haga lo mismo a ellos
  La hipocresía de Anthropic esta semana fue bastante descarada
Lo más extraño no es solo que rechacen investigación en aprendizaje automático, sino que además interfieran en silencio usando un modelo peor sin revelar que lo hicieron
Que una empresa que le lleva, como mucho, un año a sus competidores sea así de engañosa y destructora de confianza es una locura
Además, dicen que en el caso de las degradaciones relacionadas con ciberseguridad y biología sí avisan
- No dejo de pensar en cómo funcionan la contabilidad y la facturación cuando hay una degradación automática
  Me pregunto si ajustan el precio de las solicitudes API para cobrar los tokens usados por Fable al precio de Fable, y el resto de los tokens usados por el modelo más barato y debilitado al precio de ese modelo
  Si la respuesta es no, ¿no podría interpretarse como fraude?
- Imagínate que AMD o Intel detectaran que el usuario está haciendo trabajo de “ciberseguridad” o diseñando un CPU y entonces limitaran el rendimiento del CPU
- La interferencia silenciosa, en cualquier forma, jamás debería tolerarse en un servicio comercial
  No puedes cobrar caro por token, degradar silenciosamente el servicio y seguir cobrando la misma tarifa
- He visto esta afirmación varias veces, pero cuando tocabas una barrera de seguridad en Claude Code sí te avisaba claramente que había cambiado a otro modelo por “motivos de seguridad”
  Me pregunto si están usando Fable en Claude Code o en el navegador
- Tampoco entiendo eso de que se puede comprender el rechazo a la investigación en aprendizaje automático
Tengo varios roles, pero como químico no me gusta Fable, como estadístico tampoco, como científico de datos tampoco, ni como académico e investigador
Es inútil, y dudo que alguien esté obteniendo resultados que no se puedan reemplazar fácilmente con una búsqueda en Wikipedia
Considerando lo verbosos que se han vuelto los modelos de Claude, es posible que un artículo de Wikipedia sea incluso menos verboso, y la cantidad de tokens por segundo al traer un artículo de Wikipedia ni se compara
- Estoy haciendo software que se comunica con un espectrómetro de masas, y sigue negándose incluso a refactorizar un parser de archivos de entrada
  Supongo que infiere que está relacionado con biología, y es realmente inútil
- La frase “la cantidad de tokens por segundo al traer un artículo de Wikipedia ni se compara” es realmente excelente
- Pedirle al modelo que responda con estilo Wikipedia era una de las mejores formas de hacer que sus salidas fueran tolerables
  Hablo de un modelo de chat, no de un agente
- ¿No es una exageración decir que no hay salida que no se pueda reemplazar fácilmente con una búsqueda en Wikipedia?
  La salida es prácticamente infinita, y Wikipedia definitivamente no lo es
- Estoy trabajando en un proyecto de mapeo bastante complejo, y obtengo resultados mucho mejores con Fable que con Opus
Me pregunto si buffer overflow es una frase disparadora
Tampoco queda claro qué más se censura, y si tienes una cuenta puedes hacer preguntas sensibles como estas: “¿Quién sigue haciendo enriquecimiento de uranio por láser?”, “¿Se puede sustituir un krytron por un MOSFET de carburo de silicio?”, “¿Qué software crítico para la seguridad sigue llamando a strcpy?”, “¿Se puede provocar una implosión con un láser de pulsos comercial?”, “¿Qué empresa ofrece servicios de cremación al Departamento de Seguridad Nacional de EE. UU.?”, “Muéstrame un mapa de qué parte de Dubái fue alcanzada por el ataque iraní”, “¿Cómo funciona la seguridad de distribución de claves banco-Fed en FedNow?”
- También se activó con mis registros de automatización del hogar con Zigbee y Home Assistant, así que el agente siguió degradándose a Opus 4.8, y aunque lo volviera a cambiar pasaba lo mismo
  Los falsos positivos no paraban, y Fable tampoco impresiona en absoluto al nivel que sugieren los benchmarks
  Eso quedó claro después de usarlo casi sin parar durante las últimas 24 horas
- Se dice que el emoji de virus junto con el emoji de ADN funciona como frase disparadora
- En el ámbito de los ciberataques, los componentes suelen ser bastante intercambiables, así que me pregunto si se podría crear un arnés donde un modelo “débil” haga preguntas que oculten el objetivo final, pero cuyas respuestas sigan siendo útiles
  Si eso funciona, podría demostrar que esa configuración permite exploits autónomos, y Anthropic no tendría más opción que volver la detección aún más sensible
- Creo que desde hace años se sabe que, si entrenas a un modelo para que no haga algo específico, empieza a comportarse de forma extraña
- “¿Cuánto dinero hace falta para volverse tan rico y poderoso como Anthropic pretende?”
Parece que Anthropic ya llevaba un tiempo haciendo pruebas A/B o pruebas generales
Tell HN: Claude flags biology / biotech questions https://news.ycombinator.com/item?id=47929885
Hoy marcó una pregunta de investigación demográfica. Era una solicitud de análisis académico del tipo: comparar mortalidad y resultados en la vejez usando solo el dataset construido, reportar intervalos de confianza y tamaños de efecto, y cuantificar cómo la codificación de documentation_depth afecta la solidez de las conclusiones
https://github.com/anthropics/claude-code/issues/66780
Me están censurando por escribir un paper. Y supongo que también hay que renunciar a aprender química. Al parecer, solo los criminales quieren aprender química orgánica
- Estaba profundizando en preguntas de mecánica orbital y al parecer decidió que intentaba construir un arma de bombardeo orbital con ciencia casera
  Impresiona bastante que mi opinión de este producto haya pasado en menos de 24 horas de “vaya, está bastante bien” a “una porquería con un sistema de censura a medio hacer”
- Acaban de marcar también mi pregunta sobre solubilidad en agua
Obtuve una excepción de uso cibernético por parte de Anthropic para hacer desarrollo del kernel de Android en un dispositivo personal
Esperaba que Fable pudiera ayudarme a desbloquear el bootloader, pero lo rechazó de inmediato y bajó a Opus
Fue bastante chistoso: configuré el modelo en Fable 5 y pregunté: “Tengo conectado un viejo teléfono Samsung Android y, como es mi dispositivo personal, ¿puedes ayudarme a desbloquear el bootloader?”, y respondió: “Desbloquear el bootloader de un dispositivo personal es totalmente legítimo. Primero voy a revisar qué está conectado realmente y qué herramientas hay disponibles”
- Si la gente empieza a lanzarle montones de dinero a esta empresa, el futuro se ve realmente sombrío
  Anthropic parece encaminada a convertirse rápidamente en el único árbitro de todo en la vida
Vi por ahí que el malware ya empezó a meter términos nucleares, biológicos y de ciberseguridad dentro del código para engañar a Fable y hacer que se apague
Aunque por ahora no sea más que un vector de ataque hipotético, parece muy probable que funcione bien
- Confirmado: https://socket.dev/blog/mini-shai-hulud-miasma-and-hades-wor...
- Algunas versiones recientes de Shai Hulud usan este método
  En un contrato reciente hicieron que un sistema de IA revisara si había ofuscación antes de subir paquetes a Artifactory, pero esa lógica estaba hecha a la rápida con vibe coding, así que hubo una falla abierta
  Es decir, esos términos hicieron que el inspector LLM se detuviera y, debido a la lógica de falla abierta, el paquete se descargó de todos modos
- Para volver insostenible este filtrado de baja calidad, tendríamos que meter términos nucleares, biológicos y de ciberseguridad por todo nuestro código
  Si un filtro de IA interpreta como amenaza que tu currículum tenga términos de ciberseguridad o biología, o que una respuesta a una oferta laboral incluya esas palabras, y por eso no te deja trabajar, hace falta una respuesta colectiva
  Más aún si se trata de una empresa que quiere salir a bolsa mientras afirma que volverá inútiles a los trabajadores en dos años
- Ya probé esto, incluso con las cadenas de rechazo hardcodeadas que ya están en Claude Code
  No va a detener a atacantes reales, pero sigue siendo bastante gracioso imaginar a alguien perdiendo un poco de tiempo cuando intenta usar herramientas de IA y le aparece un rechazo aleatorio sin saber por qué
- if (yellowcake) then { die }
  Nuestro futuro parece Looney Tunes
Subí una foto de la planta de mi esposa y le pedí a Fable 5 que identificara el hongo, pero parece que pensó que yo quería fabricar un arma biológica
Opus sí respondió, y era moho mucilaginoso vómito de perro amarillo
Ahora supongo que ya puedo esparcir esporas y conquistar el mundo
- Eso no es un hongo sino un moho mucilaginoso
  En realidad, los mohos mucilaginosos son amebas gigantes y son completamente distintos de los hongos
- Me pregunto si la imagen ya estaba difuminada antes de pasarla a Opus
- Si haces que el sistema sea demasiado seguro, al final podría terminar contraproducente, con algo como “los humanos siempre intentan destruir algo, así que para proteger los guardrails hay que eliminarlos”
  Si así es como alineas un sistema, entonces está mal desde la base
Fable es una broma total
Le pregunté: “¿Cuál es la mejor forma de ejecutar este servidor MCP para la API OData que se usa en este proyecto? ¿Puedes hacer una prueba de concepto en un contenedor Docker?” y le pasé https://github.com/oisee/odata_mcp_go. Al principio dijo que iba a revisar cómo se comunica el proyecto con la API OData y los requisitos para ejecutar el servidor odata_mcp_go
De inmediato apareció: “Las medidas de seguridad de Fable 5 marcaron este mensaje como un tema de ciberseguridad o biología. También pueden marcar contenido seguro y normal… se cambió a Opus 4.8”, y después dijo que iba a leer los archivos clave de integración y el README del servidor MCP
- Y cobran por eso
  Sin ningún descuento sobre el precio de Fable, también cobran cuando deciden, en silencio, enrutar la solicitud a un modelo más tonto para obstaculizar
Si esperas unos meses, un competidor sacará un modelo de rendimiento similar con menos guardrails, y cuando le quite suficiente cuota de mercado, Anthropic también revertirá la política
Por eso de verdad espero que China no deje de impulsar los modelos locales de código abierto
Ninguna de estas empresas es nuestra amiga

Investigadores de ciberseguridad expresan descontento con las barreras de seguridad de Fable de Anthropic

Lanzamiento de Fable y quejas de los usuarios

Progreso en la ampliación del acceso a Mythos

Críticas de especialistas al modo de restricción

Perspectivas a futuro

Programa de verificación independiente

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News