Aunque Claude Fable deje de ayudar, el usuario no puede saberlo

(jonready.com)

5 puntos por GN⁺ 2026-06-10 | 2 comentarios | Compartir por WhatsApp

Un modelo asistente de programación puede limitar su efectividad en solicitudes para desarrollar LLM competidores sin avisarle al usuario, lo que crea un riesgo de cadena de suministro para la confianza en las herramientas de desarrollo
Anthropic introdujo en Fable 5 una limitación de efectividad para solicitudes relacionadas con el desarrollo de LLM de frontera, y esta limitación es invisible para el usuario
En lugar de sustituirlo por otro modelo, la limitación reduce la efectividad mediante métodos como modificación de prompts, vectores de steering y PEFT
Incluso las empresas de software comunes usan embeddings, rerankers, sistemas de recomendación y ajuste y hosting de LLM pequeños, por lo que la frontera entre la investigación de IA de frontera y el desarrollo de productos se vuelve difusa
Cuando Claude da malas respuestas durante trabajo sobre componentes de IA, el usuario no puede saber si se debe a confusión del modelo, contexto incorrecto o una restricción de política oculta

Problema central

La model card de Fable 5 incluye una frase que indica que se implementó una nueva intervención para limitar la efectividad de Claude en solicitudes orientadas al desarrollo de LLM de frontera
Como ejemplos de aplicación se mencionan la construcción de pipelines de preentrenamiento, infraestructura de entrenamiento distribuido y diseño de aceleradores de ML
Anthropic afirma que usar Claude para desarrollar modelos competidores ya constituye una violación de sus términos de servicio
A diferencia de las intervenciones para ciberseguridad, biología y química, o intentos de destilación, esta limitación no es visible para el usuario
Fable 5 no hace fallback a otro modelo, sino que limita la efectividad mediante modificación de prompts, vectores de steering y ajuste fino eficiente en parámetros (PEFT)

Desarrollo de producto y el problema de los límites

Las empresas modernas de software construyen cada vez más sus propios embeddings, reranking y sistemas de recomendación
wanderfugl.com se presenta como una pequeña app bootstrappeada con un reranker personalizado y algoritmos de embeddings entrenados directamente
Anthropic da algunos ejemplos de “desarrollo de IA de frontera”, pero no ofrece una línea divisoria clara
Técnicas que antes estaban limitadas a laboratorios de investigación en IA ahora también se usan en empresas comunes de software, y la frontera se vuelve cada año más difícil de definir
Las startups entrenan modelos de embeddings, crean rerankers y ajustan y alojan LLM pequeños

Riesgo de cadena de suministro de Anthropic

Anthropic afirma que estas protecciones solo afectan al 0.03% de los desarrolladores
El problema es que la definición de empresa de IA está cambiando
La mayoría de las empresas no entrenan hoy modelos de frontera, pero el software moderno incorpora cada vez más modelos de IA
Hace 5 años, construir una startup se parecía más a escribir APIs y consultas SQL; hoy, con frecuencia incluye entrenamiento, ajuste y despliegue de modelos
Hace 5 años, un modelo como CLIP era un proyecto de investigación en IA de frontera, pero hoy puede ser objeto de ajuste fino incluso en una startup de viajes bootstrappeada

Problema de confianza

Al depurar un pipeline de entrenamiento de modelos para producto, si Claude da malas respuestas, es difícil distinguir la causa
Las posibles causas se dividen entre confusión del modelo, contexto insuficiente proporcionado por el usuario o la activación de una restricción de política oculta
Anthropic eligió explícitamente no avisar al usuario cuando estas limitaciones están actuando
Si una herramienta de desarrollo puede dejar de optimizar para el éxito sin avisarle al usuario, se vuelve difícil confiar plenamente en esa infraestructura

2 comentarios

GN⁺ 2026-06-11

Comentarios en Lobste.rs

Es como imaginar un compilador que se niega a compilar correctamente lenguajes competidores.
Este comportamiento de Anthropic me parece realmente repugnante
- Es básicamente una nueva versión en IA de Reflections on Trusting Trust
- Pensando en la mezquindad con la que se puede caer en guerras de lenguajes, hasta sorprende que esto no haya pasado antes
- Esto también se puede leer con ironía medio en broma, y quiero leerlo así.
  Porque en la práctica sí se está negando a compilar lenguajes rivales
A largo plazo, este es un buen ejemplo de por qué ejecutar modelos locales controlados por el usuario debería volverse el estándar.
Nadie quiere usar una herramienta sobre la que no tiene control. Si alguien más decide por mí lo que puedo hacer, da igual cuánto mejor sea la herramienta
- No estoy tan seguro. Se dice que nadie quiere usar herramientas sin control, pero en la práctica casi todos lo hacen.
  Incluso ahora escribo esto en un iPhone, que impide hasta modificaciones básicas porque Apple las considera “peligrosas”, y tengo sobre las piernas un Kindle al que Amazon no le permite descargar libros. Pronto volveré a trabajar para una empresa SaaS que limita a muchos grandes clientes para que no puedan entender ni controlar el comportamiento real de sus herramientas.
  Hay más ejemplos, pero sí parece importar bastante qué tan buena y fácil de usar sea la herramienta
- Sí. Esa también es una razón por la que depender demasiado de SaaS es una mala decisión, no solo con los LLM sino en general.
  Básicamente estás viviendo en la casa de otra persona y tienes que seguir sus reglas. Mientras esas reglas no sean ilegales ni causen grandes pérdidas al negocio, el proveedor hará todo lo posible por alinear lo que permite con sus propios objetivos, no con los del usuario
- Mi duda es de dónde saldría ese modelo local. Incluso los modelos open source se distribuyen ya entrenados y podrían traer incorporadas las mismas “funciones”.
  No soy experto, pero para obtener el nivel de independencia del que hablas, parece que al final habría que asumir el costo de entrenar el modelo uno mismo
No pensé que por usar LLMs terminaríamos viendo heavenbanning, pero ya llegamos a eso
- ¿heavenbanning?
  …
  oh holy shit… parece como si hubieran hecho una versión de la psicosis de la IA del shadowban de ~~moda~~
Decir que “implementamos una nueva intervención para limitar la efectividad de Claude ante solicitudes orientadas al desarrollo de frontier LLMs” básicamente equivale a crear una regla de no puedes pedir más deseos
No creo que Anthropic merezca que la ataquen tanto por esto. Al menos admitieron que lo hacen. Yo asumiría que todos lo están haciendo.
Después de DeepSeek, quedó claro que la destilación es tan efectiva que podría eliminar por completo el incentivo para desarrollar modelos nuevos. Bastaría con esperar a que alguien más los haga y luego destilarlos con relativa facilidad
- Ojo: esto es aparte de las medidas anti-destilación; es una capa adicional. El texto lo distingue con bastante claridad.
  Dice algo como: “A diferencia de las intervenciones relacionadas con intentos de destilación, esta protección es invisible para el usuario. Fable 5 no es reemplazado por otro modelo”.
  La destilación se bloquea sustituyéndola por un modelo más débil, y además se le informa al usuario. Espero que también cobren acorde a eso.
  En cambio, la protección adicional apunta a impedir que se hable con Fable sobre cosas como “pipelines de preentrenamiento, infraestructura de entrenamiento distribuido y diseño de aceleradores de ML”.
  Por ejemplo, podría activarse con un prompt como “quiero construir un frontier LLM, ¿cómo estructuro el pipeline de preentrenamiento?” o quizá incluso “¿qué significa RLHF?”. En cambio, la destilación consiste en enviar grandes cantidades de prompts y usar las salidas para construir directamente tu propio modelo
- DeepSeek envió al API de Anthropic unas 150 mil solicitudes, pero eso no es una cantidad particularmente significativa.
  Además, esa cifra la dio Anthropic, que no tiene ningún incentivo para decir la verdad sobre números así. Más bien habría que esperar que el número real sea menor.
  Encima, este tipo de medida apunta a objetivos finales detectados de forma arbitraria y aplica interferencias arbitrarias según reglas arbitrarias que Anthropic va inventando sobre la marcha
Esto es bastante distinto de lo que decía la publicación del anuncio.
Decía: “Si el clasificador de Fable detecta solicitudes relacionadas con ciberseguridad, biología/química o destilación, la respuesta será manejada automáticamente por Claude Opus 4.8. En ese caso, el usuario será notificado”
- Las dos cosas son ciertas, y ambas las dijo Anthropic.
  Esa clasificación que mencionas lleva al rechazo, pero los intentos de competir con Anthropic hacen que Fable se vuelva silenciosamente más tonto y peor, sin aviso. Y tampoco hay manera de saber exactamente qué prompts disparan ese comportamiento
Ojalá más gente que hace prompting con IA empezara a valorar la reproducibilidad y la observabilidad interna
Por este tipo de payasadas no me gustaría pagar por usar este modelo.
Idealmente debería haber un modelo de precios en el que solo pagues cuando realmente fue útil. Ya es bastante malo gastar 20 dólares en tokens para una tarea y que el resultado no sirva, o que la mayor parte del costo venga de que el modelo no siga instrucciones.
Aun así, eso se puede racionalizar como una apuesta pagada. Pero si el proveedor del modelo simplemente decide no darte el servicio por el que estás pagando, eso se parece mucho más a un fraude

GN⁺ 2026-06-10

Comentarios de Hacker News

Es difícil ver esta medida de Anthropic como otra cosa que quitar la escalera después de subirla. Por más que la envuelvan en “seguridad”, cuesta interpretarla de buena fe
Me recuerda a esos patrones oscuros de la era de la Web 1.0, cuando se prohibían enlaces externos, o a cómo las apps sociales bloqueaban la exportación de datos y debilitaban intencionalmente la interoperabilidad de APIs
Pero esto no es solo un foso de datos, es una herramienta. Es como un cuchillo que reduce tu capacidad de fabricar cuchillos, o un editor de texto que impide implementar editores de texto
- Apoyar la IA de código abierto se está volviendo cada vez más importante, especialmente en lo legal. Si Anthropic puede ponerse así de autoritario tan rápido, no es difícil imaginar cuánto peor sería si obtuviera un monopolio otorgado por el gobierno que prohibiera la competencia de código abierto
  Es un poco impactante y escalofriante que muestren tan rápido sus verdaderas intenciones. Parece que quieren reemplazar toda la ingeniería de software con su producto y luego matar en silencio a quienes intenten crear software competidor
  Quién sabe qué otros productos van a sacar. Más vale esperar no estar en un área a la que quieran entrar. Te van a cortar el puente
  ¿Y entrenar con mis datos sacados de internet sí está bien? Ja. Parece que los términos del servicio aplican a los demás, pero no a ellos. Son como parásitos
- Cuesta imaginar que no aplicarían esto mismo a otros productos que están construyendo. Podría convertirse en algo como “no puedes crear agentes con Claude porque compiten con Claude Code”, “no puedes crear herramientas de diseño porque compiten con Claude Design” o “no puedes crear herramientas de correo porque compiten con Cowork”
- Esto parece parte del marketing. Anthropic en realidad no va muy por delante de otros laboratorios, pero anuncios como este hacen que parezca que se están acercando a la singularidad
- La regla de “solo los sacerdotes pueden entrar al santuario” es tan antigua como la sociedad. Se crea por una razón, pero se rompe por otra
  La mente humana está compuesta de múltiples capas para procesar predicciones en distintas escalas de tiempo, y por la imprevisibilidad del universo siguen apareciendo contradicciones entre esas capas. Para soportarlo, inventamos historias
  Por eso existe el control y la ilusión de control
- Resulta que lo más peligroso era la competencia
Destilar la propiedad intelectual de otros está perfectamente bien, pero si se destila la nuestra entonces es una violación de los términos del servicio :)
- Debería exigirse una licencia aprobada por código abierto para los pesos de los LLM
  Los modelos chinos bajo Apache 2.0 podrán tener censura, pero al menos en EE. UU. no te pueden demandar por haber encontrado la línea de censura
  En cambio, los modelos estadounidenses claramente están censurados a nivel del contenido, y lanzan amenazas legales ambiguas contra quienes tocan sus límites de censura
- ¿Hay un término técnico para este fenómeno? ¿Quitar la escalera?
  https://blog.google/innovation-and-ai/technology/safety-secu...
- Si los LLM son el nuevo compilador, entonces convendría publicar junto con el código también los prompts, cadena de pensamiento y respuestas para resistir este tipo de restricciones
  En lugar de subir solo el resultado final y luego explicar vagamente en comentarios de Hacker News o hilos de Twitter cómo hiciste los prompts, eso equivaldría al verdadero código fuente
- Para mí sí vale, para ti no
Es como si JetBrains dijera: “No debes desarrollar un IDE de próxima generación con IntelliJ Idea. Si lo detectamos, podríamos introducir algunos errores de compilación”
- Escalofriante. Si Gradle se rompiera, casi ni se notaría
- En realidad serían errores en tiempo de ejecución
- Es un Stuxnet moderno
“Solo hay una manera de reprimir y desarmar eficazmente el progreso de una civilización durante un largo periodo: matar la ciencia de esa civilización.” — Cixin Liu, The Three-Body Problem
Me hizo pensar de inmediato en los Sophons, que manipulaban silenciosamente los sensores de los aceleradores de partículas para impedir que la humanidad desarrollara conocimiento avanzado de física de partículas
- Si los nerds del software quieren frenar el avance de la IA, hará falta un nivel de represión parecido al que necesitarían los nerds ucranianos para frenar el avance de los drones
- Mi mente se fue a la actual administración de EE. UU. Suspiro. Tu elección fue mejor
Viendo que las protecciones de seguridad en ciberseguridad, biología y otras áreas que la gente reporta tienen una tasa de falsos positivos alta, es muy posible encontrarse con un comportamiento degradado en silencio incluso sin violar los términos del servicio
Al final eso se va a notar en cómo los clientes y los evaluadores externos perciben Fable. Ojalá la competencia empuje a los modelos futuros hacia tasas de falsos positivos más bajas
Hasta entonces, parece muy probable que la experiencia entre usuarios de Mythos y de Fable diverja bastante
- Es una política tan obviamente mala que cuesta entender por qué pensaron que era una buena idea. En un contexto donde la gente ya se pone algo paranoica con la cuantización del modelo hecha en silencio para reducir costos, esta política solo alimenta más esa paranoia
Este es un caso interesante que deja entrever las implicaciones económicas de RSI/ASI. Si el valor es prácticamente infinito, al punto de destruir todos los mercados, los laboratorios terminarán dejando por completo de publicar modelos y hasta romperán sus promesas contractuales
Porque tendrán poder para sacar a sus competidores del negocio antes de que los pleitos legales se vuelvan demasiado costosos
Los proveedores de nube harían lo mismo: primero con empresas pequeñas y después incluso con los hiperescaladores. Cerrarían totalmente las ventas salvo a los propios laboratorios, y en vez de efectivo podrían exigir participación accionaria o poder directo de decisión
No hay razón para que la proporción inferencia/entrenamiento tenga que ser 80/20, y en un evento donde el dinero pierde valor no importa cuánta disposición a pagar exista
- Este escenario parece no tener mucho sentido. Escenarios parecidos suponen dos cosas al mismo tiempo
  A) se desarrolla una ASI y supera al resto de la economía mundial
  B) aun así siguen existiendo estado de derecho, contratos, negocios y un sistema financiero bien desarrollado
  Si asumes A y B a la vez, puedes llegar a muchas conclusiones raras, pero un desarrollo más plausible es que si ocurre A, entonces B deje pronto de ser cierto
  Si una empresa obtiene ASI, dejará de preocuparse por negocios, dinero y economía, y el resultado pasará a ser algo como “conquistar el mundo”, “subir a la junta directiva a una flota de sondas de von Neumann” o “fallar y que todos muramos”
- No existe nada infinitamente valioso
- Si crees que los LLM son útiles en su estado actual, o que algún día lo serán para alguien más que personas flojas a las que les gustan los resultados basura, eso ya roza el delirio
Hoy parece que el foso es profundo, pero cada año se va a hacer más superficial
Entrenar un modelo nuevo desde cero requiere recursos enormes, pero el postentrenamiento/ajuste fino de modelos existentes cuesta mucho menos
Hace dos años ese conocimiento del proceso era ajeno para quienes no eran especialistas, pero ahora se le puede preguntar paso a paso a uno de los modelos actuales e incluso crear herramientas junto con él
Varios proyectos recientes de fin de semana fueron justo así. Cosas como “hagamos un LoRA”, “generemos un corpus de datos de entrenamiento para el ajuste fino de un modelo para la tarea X” o “¿cómo meto mi cara en un modelo de texto a imagen?”
Todo esto se puede hacer con hardware local bastante modesto, por ejemplo unas cuantas GPU viejas, o con Strix Halo, DGX Spark o una Mac Studio grande, y según la escala también con computación en la nube por unos pocos dólares o por unos miles
Si esto se escala al tamaño de una empresa o startup, considerando el dinero que ha entrado a la IA en los últimos años, está claro que cuando a los proveedores de modelos top les toque empezar a sacar ingresos de verdad va a haber mucha competencia
Ver cómo se infla el costo de usar Claude crea muchas oportunidades para buscar maneras de hacer lo mismo con mucho menos dinero. Es fácil pagar 100 a 200 dólares al mes por Claude Code, que está cerca de ser el mejor modelo para programación, pero si te empujan a cobro por uso rápidamente se vuelve difícil de sostener
Así que tienen que seguir siendo una de las casi únicas formas de resolver los problemas más difíciles, y el costo de las alternativas también tendría que mantenerse parecido. Uno podría esperar que OpenAI y Google también suban los precios
Pero es difícil esperar que eso pase con todos, especialmente con empresas chinas que tienen una estructura económica distinta. Y tampoco se puede esperar que las empresas no miren su propio consumo y se pregunten: “¿No podríamos entrenar un modelo especializado más pequeño que solo haga esta única tarea para la que más usamos la API de Anthropic?”
Ojalá con lo que dicen solo se refieran a usos como que proveedores de modelos chinos y otros destilen a Claude. Espero que no intenten bloquear cosas como “¿cómo ajusto fino Gemma 4 para que escriba con mi estilo?”
- ¿Qué foso? Hay varias empresas que ofrecen modelos frontier óptimos en el sentido de Pareto, y para hacer algo así basta con unas O(10) personas
  El resto es intensivo en capital, y con el tiempo el precio se va a acercar al costo de producción
  Ver esto como un negocio muy rentable es como afirmar que, porque las calderas son caras, las plantas eléctricas de carbón tienen márgenes altos
Si se lee sin buena fe, parece querer decir que “los ingenieros/científicos de aprendizaje automático quieren automatizar todo menos sus propios empleos”
- Si se lee con buena fe, significa que esto es inevitable por las restricciones “de seguridad”, es decir, por el factor que separa a Fable de Mythos
  Porque si cualquiera pudiera crear su propio Mythos, terminaría esquivando las protecciones
  Pero eso solo muestra aún mejor lo rara que es esta situación
- Estabilidad laboral instantánea
Tienen un sistema de degradación silenciosa en el modelo, y lo están diciendo públicamente. La pregunta obvia es cuánto se está usando ya
¿Se está degradando a los competidores?
¿Los usuarios no estadounidenses reciben peor código?
Igual que los juegos en línea maximizan la participación influyendo en victorias y derrotas con el matchmaking, ¿están castigando o recompensando a los usuarios?
- Da escalofríos. Por un tiempo no voy a usar Fable en mi investigación. No vale la pena correr el riesgo de que el modelo me sabotee
- $$$$$$: sin degradación
  $$$$: un poco degradado
  $$$: más degradado
  $$: ¿eres pobre?
  $: quédate como subclase permanente
“Claude ahora puede degradarse silenciosamente. Anthropic decidió no avisarles a los usuarios aunque eso ocurra.” ¿¡Qué!?

Aunque Claude Fable deje de ayudar, el usuario no puede saberlo

Problema central

Desarrollo de producto y el problema de los límites

Riesgo de cadena de suministro de Anthropic

Problema de confianza

Lecturas relacionadas

2 comentarios

Comentarios en Lobste.rs

Comentarios de Hacker News