Investigadores de ciberseguridad expresan descontento con las barreras de seguridad de Fable de Anthropic
(techcrunch.com)- Fable se lanzó como una versión pública y restringida de Mythos, un potente modelo de ciberseguridad, pero bloquea de forma amplia las solicitudes relacionadas con ciberseguridad, lo que ha provocado descontento entre investigadores y especialistas
- Cuando se activan las barreras de seguridad, el chat se detiene y aparece un mensaje indicando que las medidas de seguridad se activaron por tratarse de un tema de “ciberseguridad o biología”
- Anthropic afirma que impuso estas restricciones para reducir el riesgo de que Fable se use para desarrollar malware o comprometer software, y que las limitaciones sobre biología también están relacionadas con preocupaciones sobre el desarrollo de armas biológicas
- Algunos especialistas consideran que incluso solicitudes más cercanas a prácticas de ingeniería de software, como escribir código seguro o revisar código, se clasifican como ciberseguridad y se degradan a Claude Opus 4.8
- Expertos en seguridad expresan rechazo al bloqueo esporádico basado en palabras clave, aunque creen que, por estar aún en una etapa temprana, esto se suavizará con el tiempo
Lanzamiento de Fable y quejas de los usuarios
- Anthropic lanzó el martes el nuevo modelo Fable, presentado como una versión pública y restringida de Mythos, su potente y muy comentado modelo de ciberseguridad
- Varios investigadores y especialistas en ciberseguridad manifestaron en línea su descontento con las restricciones
- Valentina "Chompie" Palmiotti, reconocida investigadora de seguridad de IBM X-Force, señaló que Fable rechaza solicitudes que podrían estar aunque sea mínimamente relacionadas con ciberseguridad, e incluso bloquea tareas inofensivas como leer una entrada de blog
- Si las barreras de seguridad de Fable se activan por un prompt, el chat se detiene y muestra un aviso indicando que el mensaje fue marcado como un tema de ciberseguridad o biología
- Estas barreras buscan limitar el riesgo de que Fable sea mal utilizado para desarrollar malware o comprometer software, una preocupación de larga data dentro de Anthropic
- Las restricciones relacionadas con biología parten de preocupaciones similares sobre el desarrollo de armas biológicas
Progreso en la ampliación del acceso a Mythos
- Cuando Anthropic lanzó Mythos en abril, limitó el modelo a un pequeño grupo de empresas y organizaciones bajo el nombre Project Glasswing
- Un intento de desplegar el modelo para proteger software e infraestructura críticos
- La semana pasada, Anthropic amplió el acceso a Mythos a cientos de organizaciones en 15 países
Críticas de especialistas al modo de restricción
- El veterano de ciberseguridad Matt Suiche comentó que, si se le pide escribir código seguro, Fable lo trata como una tarea de ciberseguridad en lugar de una buena práctica de ingeniería de software, y por eso reduce el nivel de respuesta
- Fable está diseñado para hacer fallback a Claude Opus 4.8 cuando queda bloqueado por las barreras de seguridad
- "Parece estar basado en palabras clave, y cualquier cosa que entre dentro de la categoría léxica de 'ciberseguridad' activa las barreras"
- Otro investigador también se quejó en X de que incluso una solicitud de revisión de código activa las barreras de seguridad de Fable
Perspectivas a futuro
- Suiche, miembro del equipo técnico de Tolmo (startup de ciberseguridad con IA), evaluó que esto es comprensible porque aún está en una etapa temprana y las barreras siguen ajustándose
- Considera que, a medida que Anthropic y otras empresas de modelos de frontera colaboren más con la nueva generación de compañías de ciberseguridad, estas barreras evolucionarán con el tiempo
- En este tipo de lanzamientos, es mejor bloquear de más que quedarse corto, y luego suavizar las barreras después
- Anthropic no respondió de inmediato a una solicitud de comentarios
Programa de verificación independiente
- Además de las barreras internas del modelo, Anthropic exige a especialistas en ciberseguridad solicitar el Cyber Verification Program
- Si son aprobados, enfrentan menos restricciones al usar Claude para tareas de ciberseguridad
- OpenAI también opera un programa similar llamado Trusted Access for Cyber
1 comentarios
Opiniones en Hacker News
Salió un nuevo artículo en Wired: ["Anthropic Walks Back Policy That Could Have ‘Sabotaged’ AI Researchers Using Claude" https://www.wired.com/story/anthropic-responds-to-backlash-o...
Anthropic dijo a WIRED que “está cambiando Fable 5 para que muestre sus protecciones de seguridad sobre el desarrollo de frontier LLMs. Pedimos disculpas por haber hecho una compensación equivocada y no haber logrado un buen equilibrio”
Parece que una amplia ola de críticas sí tuvo efecto
Microsoft retiró varias veces la publicidad en el OS, pero al final igual siguió la trayectoria que todos odiaban, y OpenAI también terminó yéndose por la IA cerrada sin importar sus retiradas iniciales
Cuando empieza el mal comportamiento, hay que irse, y las disculpas son tan vacías como el barniz moral que las acompaña
Pago miles de dólares al mes por uso adicional, y si todavía podrían estar haciendo algo parecido entre bastidores, no veo por qué debería seguir pagando
Errores que antes atribuía al esfuerzo de razonamiento o a cambios en el backend podrían en realidad haber sido inyecciones de prompts deliberadas
Si necesitas infraestructura confiable para integrarla en una aplicación, la lección clave es que deberías usar otro proveedor
No es que odie especialmente a Anthropic, pero como alguien que añadió complejidad a su app para manejar el comportamiento previo de rechazo de Sonnet, puedo entenderlo en un chatbot para usuario final, pero no es aceptable en una API
Anthropic entrenó con datos de otros sin licencia ni atribución, pero quiere impedir que alguien les haga lo mismo a ellos
La hipocresía de Anthropic esta semana fue bastante descarada
Lo más extraño no es solo que rechacen investigación en aprendizaje automático, sino que además interfieran en silencio usando un modelo peor sin revelar que lo hicieron
Que una empresa que le lleva, como mucho, un año a sus competidores sea así de engañosa y destructora de confianza es una locura
Además, dicen que en el caso de las degradaciones relacionadas con ciberseguridad y biología sí avisan
Me pregunto si ajustan el precio de las solicitudes API para cobrar los tokens usados por Fable al precio de Fable, y el resto de los tokens usados por el modelo más barato y debilitado al precio de ese modelo
Si la respuesta es no, ¿no podría interpretarse como fraude?
No puedes cobrar caro por token, degradar silenciosamente el servicio y seguir cobrando la misma tarifa
Me pregunto si están usando Fable en Claude Code o en el navegador
Tengo varios roles, pero como químico no me gusta Fable, como estadístico tampoco, como científico de datos tampoco, ni como académico e investigador
Es inútil, y dudo que alguien esté obteniendo resultados que no se puedan reemplazar fácilmente con una búsqueda en Wikipedia
Considerando lo verbosos que se han vuelto los modelos de Claude, es posible que un artículo de Wikipedia sea incluso menos verboso, y la cantidad de tokens por segundo al traer un artículo de Wikipedia ni se compara
Supongo que infiere que está relacionado con biología, y es realmente inútil
Hablo de un modelo de chat, no de un agente
La salida es prácticamente infinita, y Wikipedia definitivamente no lo es
Me pregunto si
buffer overflowes una frase disparadoraTampoco queda claro qué más se censura, y si tienes una cuenta puedes hacer preguntas sensibles como estas: “¿Quién sigue haciendo enriquecimiento de uranio por láser?”, “¿Se puede sustituir un krytron por un MOSFET de carburo de silicio?”, “¿Qué software crítico para la seguridad sigue llamando a strcpy?”, “¿Se puede provocar una implosión con un láser de pulsos comercial?”, “¿Qué empresa ofrece servicios de cremación al Departamento de Seguridad Nacional de EE. UU.?”, “Muéstrame un mapa de qué parte de Dubái fue alcanzada por el ataque iraní”, “¿Cómo funciona la seguridad de distribución de claves banco-Fed en FedNow?”
Los falsos positivos no paraban, y Fable tampoco impresiona en absoluto al nivel que sugieren los benchmarks
Eso quedó claro después de usarlo casi sin parar durante las últimas 24 horas
Si eso funciona, podría demostrar que esa configuración permite exploits autónomos, y Anthropic no tendría más opción que volver la detección aún más sensible
Parece que Anthropic ya llevaba un tiempo haciendo pruebas A/B o pruebas generales
Tell HN: Claude flags biology / biotech questions https://news.ycombinator.com/item?id=47929885
Hoy marcó una pregunta de investigación demográfica. Era una solicitud de análisis académico del tipo: comparar mortalidad y resultados en la vejez usando solo el dataset construido, reportar intervalos de confianza y tamaños de efecto, y cuantificar cómo la codificación de documentation_depth afecta la solidez de las conclusiones
https://github.com/anthropics/claude-code/issues/66780
Me están censurando por escribir un paper. Y supongo que también hay que renunciar a aprender química. Al parecer, solo los criminales quieren aprender química orgánica
Impresiona bastante que mi opinión de este producto haya pasado en menos de 24 horas de “vaya, está bastante bien” a “una porquería con un sistema de censura a medio hacer”
Obtuve una excepción de uso cibernético por parte de Anthropic para hacer desarrollo del kernel de Android en un dispositivo personal
Esperaba que Fable pudiera ayudarme a desbloquear el bootloader, pero lo rechazó de inmediato y bajó a Opus
Fue bastante chistoso: configuré el modelo en Fable 5 y pregunté: “Tengo conectado un viejo teléfono Samsung Android y, como es mi dispositivo personal, ¿puedes ayudarme a desbloquear el bootloader?”, y respondió: “Desbloquear el bootloader de un dispositivo personal es totalmente legítimo. Primero voy a revisar qué está conectado realmente y qué herramientas hay disponibles”
Anthropic parece encaminada a convertirse rápidamente en el único árbitro de todo en la vida
Vi por ahí que el malware ya empezó a meter términos nucleares, biológicos y de ciberseguridad dentro del código para engañar a Fable y hacer que se apague
Aunque por ahora no sea más que un vector de ataque hipotético, parece muy probable que funcione bien
En un contrato reciente hicieron que un sistema de IA revisara si había ofuscación antes de subir paquetes a Artifactory, pero esa lógica estaba hecha a la rápida con vibe coding, así que hubo una falla abierta
Es decir, esos términos hicieron que el inspector LLM se detuviera y, debido a la lógica de falla abierta, el paquete se descargó de todos modos
Si un filtro de IA interpreta como amenaza que tu currículum tenga términos de ciberseguridad o biología, o que una respuesta a una oferta laboral incluya esas palabras, y por eso no te deja trabajar, hace falta una respuesta colectiva
Más aún si se trata de una empresa que quiere salir a bolsa mientras afirma que volverá inútiles a los trabajadores en dos años
No va a detener a atacantes reales, pero sigue siendo bastante gracioso imaginar a alguien perdiendo un poco de tiempo cuando intenta usar herramientas de IA y le aparece un rechazo aleatorio sin saber por qué
if (yellowcake) then { die }Nuestro futuro parece Looney Tunes
Subí una foto de la planta de mi esposa y le pedí a Fable 5 que identificara el hongo, pero parece que pensó que yo quería fabricar un arma biológica
Opus sí respondió, y era moho mucilaginoso vómito de perro amarillo
Ahora supongo que ya puedo esparcir esporas y conquistar el mundo
En realidad, los mohos mucilaginosos son amebas gigantes y son completamente distintos de los hongos
Si así es como alineas un sistema, entonces está mal desde la base
Fable es una broma total
Le pregunté: “¿Cuál es la mejor forma de ejecutar este servidor MCP para la API OData que se usa en este proyecto? ¿Puedes hacer una prueba de concepto en un contenedor Docker?” y le pasé https://github.com/oisee/odata_mcp_go. Al principio dijo que iba a revisar cómo se comunica el proyecto con la API OData y los requisitos para ejecutar el servidor
odata_mcp_goDe inmediato apareció: “Las medidas de seguridad de Fable 5 marcaron este mensaje como un tema de ciberseguridad o biología. También pueden marcar contenido seguro y normal… se cambió a Opus 4.8”, y después dijo que iba a leer los archivos clave de integración y el README del servidor MCP
Sin ningún descuento sobre el precio de Fable, también cobran cuando deciden, en silencio, enrutar la solicitud a un modelo más tonto para obstaculizar
Si esperas unos meses, un competidor sacará un modelo de rendimiento similar con menos guardrails, y cuando le quite suficiente cuota de mercado, Anthropic también revertirá la política
Por eso de verdad espero que China no deje de impulsar los modelos locales de código abierto
Ninguna de estas empresas es nuestra amiga