2 puntos por GN⁺ 5 시간 전 | 1 comentarios | Compartir por WhatsApp
  • Un modelo asistente de programación puede limitar su efectividad en solicitudes para desarrollar LLM competidores sin avisarle al usuario, lo que crea un riesgo de cadena de suministro para la confianza en las herramientas de desarrollo
  • Anthropic introdujo en Fable 5 una limitación de efectividad para solicitudes relacionadas con el desarrollo de LLM de frontera, y esta limitación es invisible para el usuario
  • En lugar de sustituirlo por otro modelo, la limitación reduce la efectividad mediante métodos como modificación de prompts, vectores de steering y PEFT
  • Incluso las empresas de software comunes usan embeddings, rerankers, sistemas de recomendación y ajuste y hosting de LLM pequeños, por lo que la frontera entre la investigación de IA de frontera y el desarrollo de productos se vuelve difusa
  • Cuando Claude da malas respuestas durante trabajo sobre componentes de IA, el usuario no puede saber si se debe a confusión del modelo, contexto incorrecto o una restricción de política oculta

Problema central

  • La model card de Fable 5 incluye una frase que indica que se implementó una nueva intervención para limitar la efectividad de Claude en solicitudes orientadas al desarrollo de LLM de frontera
  • Como ejemplos de aplicación se mencionan la construcción de pipelines de preentrenamiento, infraestructura de entrenamiento distribuido y diseño de aceleradores de ML
  • Anthropic afirma que usar Claude para desarrollar modelos competidores ya constituye una violación de sus términos de servicio
  • A diferencia de las intervenciones para ciberseguridad, biología y química, o intentos de destilación, esta limitación no es visible para el usuario
  • Fable 5 no hace fallback a otro modelo, sino que limita la efectividad mediante modificación de prompts, vectores de steering y ajuste fino eficiente en parámetros (PEFT)

Desarrollo de producto y el problema de los límites

  • Las empresas modernas de software construyen cada vez más sus propios embeddings, reranking y sistemas de recomendación
  • wanderfugl.com se presenta como una pequeña app bootstrappeada con un reranker personalizado y algoritmos de embeddings entrenados directamente
  • Anthropic da algunos ejemplos de “desarrollo de IA de frontera”, pero no ofrece una línea divisoria clara
  • Técnicas que antes estaban limitadas a laboratorios de investigación en IA ahora también se usan en empresas comunes de software, y la frontera se vuelve cada año más difícil de definir
  • Las startups entrenan modelos de embeddings, crean rerankers y ajustan y alojan LLM pequeños

Riesgo de cadena de suministro de Anthropic

  • Anthropic afirma que estas protecciones solo afectan al 0.03% de los desarrolladores
  • El problema es que la definición de empresa de IA está cambiando
  • La mayoría de las empresas no entrenan hoy modelos de frontera, pero el software moderno incorpora cada vez más modelos de IA
  • Hace 5 años, construir una startup se parecía más a escribir APIs y consultas SQL; hoy, con frecuencia incluye entrenamiento, ajuste y despliegue de modelos
  • Hace 5 años, un modelo como CLIP era un proyecto de investigación en IA de frontera, pero hoy puede ser objeto de ajuste fino incluso en una startup de viajes bootstrappeada

Problema de confianza

  • Al depurar un pipeline de entrenamiento de modelos para producto, si Claude da malas respuestas, es difícil distinguir la causa
  • Las posibles causas se dividen entre confusión del modelo, contexto insuficiente proporcionado por el usuario o la activación de una restricción de política oculta
  • Anthropic eligió explícitamente no avisar al usuario cuando estas limitaciones están actuando
  • Si una herramienta de desarrollo puede dejar de optimizar para el éxito sin avisarle al usuario, se vuelve difícil confiar plenamente en esa infraestructura

1 comentarios

 
GN⁺ 5 시간 전
Comentarios de Hacker News
  • Es difícil ver esta medida de Anthropic como otra cosa que quitar la escalera después de subirla. Por más que la envuelvan en “seguridad”, cuesta interpretarla de buena fe
    Me recuerda a esos patrones oscuros de la era de la Web 1.0, cuando se prohibían enlaces externos, o a cómo las apps sociales bloqueaban la exportación de datos y debilitaban intencionalmente la interoperabilidad de APIs
    Pero esto no es solo un foso de datos, es una herramienta. Es como un cuchillo que reduce tu capacidad de fabricar cuchillos, o un editor de texto que impide implementar editores de texto

    • Apoyar la IA de código abierto se está volviendo cada vez más importante, especialmente en lo legal. Si Anthropic puede ponerse así de autoritario tan rápido, no es difícil imaginar cuánto peor sería si obtuviera un monopolio otorgado por el gobierno que prohibiera la competencia de código abierto
      Es un poco impactante y escalofriante que muestren tan rápido sus verdaderas intenciones. Parece que quieren reemplazar toda la ingeniería de software con su producto y luego matar en silencio a quienes intenten crear software competidor
      Quién sabe qué otros productos van a sacar. Más vale esperar no estar en un área a la que quieran entrar. Te van a cortar el puente
      ¿Y entrenar con mis datos sacados de internet sí está bien? Ja. Parece que los términos del servicio aplican a los demás, pero no a ellos. Son como parásitos
    • Cuesta imaginar que no aplicarían esto mismo a otros productos que están construyendo. Podría convertirse en algo como “no puedes crear agentes con Claude porque compiten con Claude Code”, “no puedes crear herramientas de diseño porque compiten con Claude Design” o “no puedes crear herramientas de correo porque compiten con Cowork”
    • Esto parece parte del marketing. Anthropic en realidad no va muy por delante de otros laboratorios, pero anuncios como este hacen que parezca que se están acercando a la singularidad
    • La regla de “solo los sacerdotes pueden entrar al santuario” es tan antigua como la sociedad. Se crea por una razón, pero se rompe por otra
      La mente humana está compuesta de múltiples capas para procesar predicciones en distintas escalas de tiempo, y por la imprevisibilidad del universo siguen apareciendo contradicciones entre esas capas. Para soportarlo, inventamos historias
      Por eso existe el control y la ilusión de control
    • Resulta que lo más peligroso era la competencia
  • Destilar la propiedad intelectual de otros está perfectamente bien, pero si se destila la nuestra entonces es una violación de los términos del servicio :)

    • Debería exigirse una licencia aprobada por código abierto para los pesos de los LLM
      Los modelos chinos bajo Apache 2.0 podrán tener censura, pero al menos en EE. UU. no te pueden demandar por haber encontrado la línea de censura
      En cambio, los modelos estadounidenses claramente están censurados a nivel del contenido, y lanzan amenazas legales ambiguas contra quienes tocan sus límites de censura
    • ¿Hay un término técnico para este fenómeno? ¿Quitar la escalera?
      https://blog.google/innovation-and-ai/technology/safety-secu...
    • Si los LLM son el nuevo compilador, entonces convendría publicar junto con el código también los prompts, cadena de pensamiento y respuestas para resistir este tipo de restricciones
      En lugar de subir solo el resultado final y luego explicar vagamente en comentarios de Hacker News o hilos de Twitter cómo hiciste los prompts, eso equivaldría al verdadero código fuente
    • Para mí sí vale, para ti no
  • Es como si JetBrains dijera: “No debes desarrollar un IDE de próxima generación con IntelliJ Idea. Si lo detectamos, podríamos introducir algunos errores de compilación”

    • Escalofriante. Si Gradle se rompiera, casi ni se notaría
    • En realidad serían errores en tiempo de ejecución
    • Es un Stuxnet moderno
  • “Solo hay una manera de reprimir y desarmar eficazmente el progreso de una civilización durante un largo periodo: matar la ciencia de esa civilización.” — Cixin Liu, The Three-Body Problem
    Me hizo pensar de inmediato en los Sophons, que manipulaban silenciosamente los sensores de los aceleradores de partículas para impedir que la humanidad desarrollara conocimiento avanzado de física de partículas

    • Si los nerds del software quieren frenar el avance de la IA, hará falta un nivel de represión parecido al que necesitarían los nerds ucranianos para frenar el avance de los drones
    • Mi mente se fue a la actual administración de EE. UU. Suspiro. Tu elección fue mejor
  • Viendo que las protecciones de seguridad en ciberseguridad, biología y otras áreas que la gente reporta tienen una tasa de falsos positivos alta, es muy posible encontrarse con un comportamiento degradado en silencio incluso sin violar los términos del servicio
    Al final eso se va a notar en cómo los clientes y los evaluadores externos perciben Fable. Ojalá la competencia empuje a los modelos futuros hacia tasas de falsos positivos más bajas
    Hasta entonces, parece muy probable que la experiencia entre usuarios de Mythos y de Fable diverja bastante

    • Es una política tan obviamente mala que cuesta entender por qué pensaron que era una buena idea. En un contexto donde la gente ya se pone algo paranoica con la cuantización del modelo hecha en silencio para reducir costos, esta política solo alimenta más esa paranoia
  • Este es un caso interesante que deja entrever las implicaciones económicas de RSI/ASI. Si el valor es prácticamente infinito, al punto de destruir todos los mercados, los laboratorios terminarán dejando por completo de publicar modelos y hasta romperán sus promesas contractuales
    Porque tendrán poder para sacar a sus competidores del negocio antes de que los pleitos legales se vuelvan demasiado costosos
    Los proveedores de nube harían lo mismo: primero con empresas pequeñas y después incluso con los hiperescaladores. Cerrarían totalmente las ventas salvo a los propios laboratorios, y en vez de efectivo podrían exigir participación accionaria o poder directo de decisión
    No hay razón para que la proporción inferencia/entrenamiento tenga que ser 80/20, y en un evento donde el dinero pierde valor no importa cuánta disposición a pagar exista

    • Este escenario parece no tener mucho sentido. Escenarios parecidos suponen dos cosas al mismo tiempo
      A) se desarrolla una ASI y supera al resto de la economía mundial
      B) aun así siguen existiendo estado de derecho, contratos, negocios y un sistema financiero bien desarrollado
      Si asumes A y B a la vez, puedes llegar a muchas conclusiones raras, pero un desarrollo más plausible es que si ocurre A, entonces B deje pronto de ser cierto
      Si una empresa obtiene ASI, dejará de preocuparse por negocios, dinero y economía, y el resultado pasará a ser algo como “conquistar el mundo”, “subir a la junta directiva a una flota de sondas de von Neumann” o “fallar y que todos muramos”
    • No existe nada infinitamente valioso
    • Si crees que los LLM son útiles en su estado actual, o que algún día lo serán para alguien más que personas flojas a las que les gustan los resultados basura, eso ya roza el delirio
  • Hoy parece que el foso es profundo, pero cada año se va a hacer más superficial
    Entrenar un modelo nuevo desde cero requiere recursos enormes, pero el postentrenamiento/ajuste fino de modelos existentes cuesta mucho menos
    Hace dos años ese conocimiento del proceso era ajeno para quienes no eran especialistas, pero ahora se le puede preguntar paso a paso a uno de los modelos actuales e incluso crear herramientas junto con él
    Varios proyectos recientes de fin de semana fueron justo así. Cosas como “hagamos un LoRA”, “generemos un corpus de datos de entrenamiento para el ajuste fino de un modelo para la tarea X” o “¿cómo meto mi cara en un modelo de texto a imagen?”
    Todo esto se puede hacer con hardware local bastante modesto, por ejemplo unas cuantas GPU viejas, o con Strix Halo, DGX Spark o una Mac Studio grande, y según la escala también con computación en la nube por unos pocos dólares o por unos miles
    Si esto se escala al tamaño de una empresa o startup, considerando el dinero que ha entrado a la IA en los últimos años, está claro que cuando a los proveedores de modelos top les toque empezar a sacar ingresos de verdad va a haber mucha competencia
    Ver cómo se infla el costo de usar Claude crea muchas oportunidades para buscar maneras de hacer lo mismo con mucho menos dinero. Es fácil pagar 100 a 200 dólares al mes por Claude Code, que está cerca de ser el mejor modelo para programación, pero si te empujan a cobro por uso rápidamente se vuelve difícil de sostener
    Así que tienen que seguir siendo una de las casi únicas formas de resolver los problemas más difíciles, y el costo de las alternativas también tendría que mantenerse parecido. Uno podría esperar que OpenAI y Google también suban los precios
    Pero es difícil esperar que eso pase con todos, especialmente con empresas chinas que tienen una estructura económica distinta. Y tampoco se puede esperar que las empresas no miren su propio consumo y se pregunten: “¿No podríamos entrenar un modelo especializado más pequeño que solo haga esta única tarea para la que más usamos la API de Anthropic?”
    Ojalá con lo que dicen solo se refieran a usos como que proveedores de modelos chinos y otros destilen a Claude. Espero que no intenten bloquear cosas como “¿cómo ajusto fino Gemma 4 para que escriba con mi estilo?”

    • ¿Qué foso? Hay varias empresas que ofrecen modelos frontier óptimos en el sentido de Pareto, y para hacer algo así basta con unas O(10) personas
      El resto es intensivo en capital, y con el tiempo el precio se va a acercar al costo de producción
      Ver esto como un negocio muy rentable es como afirmar que, porque las calderas son caras, las plantas eléctricas de carbón tienen márgenes altos
  • Si se lee sin buena fe, parece querer decir que “los ingenieros/científicos de aprendizaje automático quieren automatizar todo menos sus propios empleos”

    • Si se lee con buena fe, significa que esto es inevitable por las restricciones “de seguridad”, es decir, por el factor que separa a Fable de Mythos
      Porque si cualquiera pudiera crear su propio Mythos, terminaría esquivando las protecciones
      Pero eso solo muestra aún mejor lo rara que es esta situación
    • Estabilidad laboral instantánea
  • Tienen un sistema de degradación silenciosa en el modelo, y lo están diciendo públicamente. La pregunta obvia es cuánto se está usando ya
    ¿Se está degradando a los competidores?
    ¿Los usuarios no estadounidenses reciben peor código?
    Igual que los juegos en línea maximizan la participación influyendo en victorias y derrotas con el matchmaking, ¿están castigando o recompensando a los usuarios?

    • Da escalofríos. Por un tiempo no voy a usar Fable en mi investigación. No vale la pena correr el riesgo de que el modelo me sabotee
    • $$$$$$: sin degradación
      $$$$: un poco degradado
      $$$: más degradado
      $$: ¿eres pobre?
      $: quédate como subclase permanente
  • “Claude ahora puede degradarse silenciosamente. Anthropic decidió no avisarles a los usuarios aunque eso ocurra.” ¿¡Qué!?