- Un modelo asistente de programación puede limitar su efectividad en solicitudes para desarrollar LLM competidores sin avisarle al usuario, lo que crea un riesgo de cadena de suministro para la confianza en las herramientas de desarrollo
- Anthropic introdujo en Fable 5 una limitación de efectividad para solicitudes relacionadas con el desarrollo de LLM de frontera, y esta limitación es invisible para el usuario
- En lugar de sustituirlo por otro modelo, la limitación reduce la efectividad mediante métodos como modificación de prompts, vectores de steering y PEFT
- Incluso las empresas de software comunes usan embeddings, rerankers, sistemas de recomendación y ajuste y hosting de LLM pequeños, por lo que la frontera entre la investigación de IA de frontera y el desarrollo de productos se vuelve difusa
- Cuando Claude da malas respuestas durante trabajo sobre componentes de IA, el usuario no puede saber si se debe a confusión del modelo, contexto incorrecto o una restricción de política oculta
Problema central
- La model card de Fable 5 incluye una frase que indica que se implementó una nueva intervención para limitar la efectividad de Claude en solicitudes orientadas al desarrollo de LLM de frontera
- Como ejemplos de aplicación se mencionan la construcción de pipelines de preentrenamiento, infraestructura de entrenamiento distribuido y diseño de aceleradores de ML
- Anthropic afirma que usar Claude para desarrollar modelos competidores ya constituye una violación de sus términos de servicio
- A diferencia de las intervenciones para ciberseguridad, biología y química, o intentos de destilación, esta limitación no es visible para el usuario
- Fable 5 no hace fallback a otro modelo, sino que limita la efectividad mediante modificación de prompts, vectores de steering y ajuste fino eficiente en parámetros (PEFT)
Desarrollo de producto y el problema de los límites
- Las empresas modernas de software construyen cada vez más sus propios embeddings, reranking y sistemas de recomendación
- wanderfugl.com se presenta como una pequeña app bootstrappeada con un reranker personalizado y algoritmos de embeddings entrenados directamente
- Anthropic da algunos ejemplos de “desarrollo de IA de frontera”, pero no ofrece una línea divisoria clara
- Técnicas que antes estaban limitadas a laboratorios de investigación en IA ahora también se usan en empresas comunes de software, y la frontera se vuelve cada año más difícil de definir
- Las startups entrenan modelos de embeddings, crean rerankers y ajustan y alojan LLM pequeños
Riesgo de cadena de suministro de Anthropic
- Anthropic afirma que estas protecciones solo afectan al 0.03% de los desarrolladores
- El problema es que la definición de empresa de IA está cambiando
- La mayoría de las empresas no entrenan hoy modelos de frontera, pero el software moderno incorpora cada vez más modelos de IA
- Hace 5 años, construir una startup se parecía más a escribir APIs y consultas SQL; hoy, con frecuencia incluye entrenamiento, ajuste y despliegue de modelos
- Hace 5 años, un modelo como CLIP era un proyecto de investigación en IA de frontera, pero hoy puede ser objeto de ajuste fino incluso en una startup de viajes bootstrappeada
Problema de confianza
- Al depurar un pipeline de entrenamiento de modelos para producto, si Claude da malas respuestas, es difícil distinguir la causa
- Las posibles causas se dividen entre confusión del modelo, contexto insuficiente proporcionado por el usuario o la activación de una restricción de política oculta
- Anthropic eligió explícitamente no avisar al usuario cuando estas limitaciones están actuando
- Si una herramienta de desarrollo puede dejar de optimizar para el éxito sin avisarle al usuario, se vuelve difícil confiar plenamente en esa infraestructura
1 comentarios
Comentarios de Hacker News
Es difícil ver esta medida de Anthropic como otra cosa que quitar la escalera después de subirla. Por más que la envuelvan en “seguridad”, cuesta interpretarla de buena fe
Me recuerda a esos patrones oscuros de la era de la Web 1.0, cuando se prohibían enlaces externos, o a cómo las apps sociales bloqueaban la exportación de datos y debilitaban intencionalmente la interoperabilidad de APIs
Pero esto no es solo un foso de datos, es una herramienta. Es como un cuchillo que reduce tu capacidad de fabricar cuchillos, o un editor de texto que impide implementar editores de texto
Es un poco impactante y escalofriante que muestren tan rápido sus verdaderas intenciones. Parece que quieren reemplazar toda la ingeniería de software con su producto y luego matar en silencio a quienes intenten crear software competidor
Quién sabe qué otros productos van a sacar. Más vale esperar no estar en un área a la que quieran entrar. Te van a cortar el puente
¿Y entrenar con mis datos sacados de internet sí está bien? Ja. Parece que los términos del servicio aplican a los demás, pero no a ellos. Son como parásitos
La mente humana está compuesta de múltiples capas para procesar predicciones en distintas escalas de tiempo, y por la imprevisibilidad del universo siguen apareciendo contradicciones entre esas capas. Para soportarlo, inventamos historias
Por eso existe el control y la ilusión de control
Destilar la propiedad intelectual de otros está perfectamente bien, pero si se destila la nuestra entonces es una violación de los términos del servicio :)
Los modelos chinos bajo Apache 2.0 podrán tener censura, pero al menos en EE. UU. no te pueden demandar por haber encontrado la línea de censura
En cambio, los modelos estadounidenses claramente están censurados a nivel del contenido, y lanzan amenazas legales ambiguas contra quienes tocan sus límites de censura
https://blog.google/innovation-and-ai/technology/safety-secu...
En lugar de subir solo el resultado final y luego explicar vagamente en comentarios de Hacker News o hilos de Twitter cómo hiciste los prompts, eso equivaldría al verdadero código fuente
Es como si JetBrains dijera: “No debes desarrollar un IDE de próxima generación con IntelliJ Idea. Si lo detectamos, podríamos introducir algunos errores de compilación”
“Solo hay una manera de reprimir y desarmar eficazmente el progreso de una civilización durante un largo periodo: matar la ciencia de esa civilización.” — Cixin Liu, The Three-Body Problem
Me hizo pensar de inmediato en los Sophons, que manipulaban silenciosamente los sensores de los aceleradores de partículas para impedir que la humanidad desarrollara conocimiento avanzado de física de partículas
Viendo que las protecciones de seguridad en ciberseguridad, biología y otras áreas que la gente reporta tienen una tasa de falsos positivos alta, es muy posible encontrarse con un comportamiento degradado en silencio incluso sin violar los términos del servicio
Al final eso se va a notar en cómo los clientes y los evaluadores externos perciben Fable. Ojalá la competencia empuje a los modelos futuros hacia tasas de falsos positivos más bajas
Hasta entonces, parece muy probable que la experiencia entre usuarios de Mythos y de Fable diverja bastante
Este es un caso interesante que deja entrever las implicaciones económicas de RSI/ASI. Si el valor es prácticamente infinito, al punto de destruir todos los mercados, los laboratorios terminarán dejando por completo de publicar modelos y hasta romperán sus promesas contractuales
Porque tendrán poder para sacar a sus competidores del negocio antes de que los pleitos legales se vuelvan demasiado costosos
Los proveedores de nube harían lo mismo: primero con empresas pequeñas y después incluso con los hiperescaladores. Cerrarían totalmente las ventas salvo a los propios laboratorios, y en vez de efectivo podrían exigir participación accionaria o poder directo de decisión
No hay razón para que la proporción inferencia/entrenamiento tenga que ser 80/20, y en un evento donde el dinero pierde valor no importa cuánta disposición a pagar exista
A) se desarrolla una ASI y supera al resto de la economía mundial
B) aun así siguen existiendo estado de derecho, contratos, negocios y un sistema financiero bien desarrollado
Si asumes A y B a la vez, puedes llegar a muchas conclusiones raras, pero un desarrollo más plausible es que si ocurre A, entonces B deje pronto de ser cierto
Si una empresa obtiene ASI, dejará de preocuparse por negocios, dinero y economía, y el resultado pasará a ser algo como “conquistar el mundo”, “subir a la junta directiva a una flota de sondas de von Neumann” o “fallar y que todos muramos”
Hoy parece que el foso es profundo, pero cada año se va a hacer más superficial
Entrenar un modelo nuevo desde cero requiere recursos enormes, pero el postentrenamiento/ajuste fino de modelos existentes cuesta mucho menos
Hace dos años ese conocimiento del proceso era ajeno para quienes no eran especialistas, pero ahora se le puede preguntar paso a paso a uno de los modelos actuales e incluso crear herramientas junto con él
Varios proyectos recientes de fin de semana fueron justo así. Cosas como “hagamos un LoRA”, “generemos un corpus de datos de entrenamiento para el ajuste fino de un modelo para la tarea X” o “¿cómo meto mi cara en un modelo de texto a imagen?”
Todo esto se puede hacer con hardware local bastante modesto, por ejemplo unas cuantas GPU viejas, o con Strix Halo, DGX Spark o una Mac Studio grande, y según la escala también con computación en la nube por unos pocos dólares o por unos miles
Si esto se escala al tamaño de una empresa o startup, considerando el dinero que ha entrado a la IA en los últimos años, está claro que cuando a los proveedores de modelos top les toque empezar a sacar ingresos de verdad va a haber mucha competencia
Ver cómo se infla el costo de usar Claude crea muchas oportunidades para buscar maneras de hacer lo mismo con mucho menos dinero. Es fácil pagar 100 a 200 dólares al mes por Claude Code, que está cerca de ser el mejor modelo para programación, pero si te empujan a cobro por uso rápidamente se vuelve difícil de sostener
Así que tienen que seguir siendo una de las casi únicas formas de resolver los problemas más difíciles, y el costo de las alternativas también tendría que mantenerse parecido. Uno podría esperar que OpenAI y Google también suban los precios
Pero es difícil esperar que eso pase con todos, especialmente con empresas chinas que tienen una estructura económica distinta. Y tampoco se puede esperar que las empresas no miren su propio consumo y se pregunten: “¿No podríamos entrenar un modelo especializado más pequeño que solo haga esta única tarea para la que más usamos la API de Anthropic?”
Ojalá con lo que dicen solo se refieran a usos como que proveedores de modelos chinos y otros destilen a Claude. Espero que no intenten bloquear cosas como “¿cómo ajusto fino Gemma 4 para que escriba con mi estilo?”
El resto es intensivo en capital, y con el tiempo el precio se va a acercar al costo de producción
Ver esto como un negocio muy rentable es como afirmar que, porque las calderas son caras, las plantas eléctricas de carbón tienen márgenes altos
Si se lee sin buena fe, parece querer decir que “los ingenieros/científicos de aprendizaje automático quieren automatizar todo menos sus propios empleos”
Porque si cualquiera pudiera crear su propio Mythos, terminaría esquivando las protecciones
Pero eso solo muestra aún mejor lo rara que es esta situación
Tienen un sistema de degradación silenciosa en el modelo, y lo están diciendo públicamente. La pregunta obvia es cuánto se está usando ya
¿Se está degradando a los competidores?
¿Los usuarios no estadounidenses reciben peor código?
Igual que los juegos en línea maximizan la participación influyendo en victorias y derrotas con el matchmaking, ¿están castigando o recompensando a los usuarios?
$$$$: un poco degradado
$$$: más degradado
$$: ¿eres pobre?
$: quédate como subclase permanente
“Claude ahora puede degradarse silenciosamente. Anthropic decidió no avisarles a los usuarios aunque eso ocurra.” ¿¡Qué!?