La verdad detrás del “90% de descuento en Claude”: resultó ser una vía para robar datos de entrenamiento de IA
(kmjournal.net)La verdad detrás del “90% de descuento en Claude”: resultó ser una vía para robar datos de entrenamiento de IA
Hola. Hoy les comparto una noticia un poco interesante, pero también preocupante. Se descubrió que Claude, el modelo de IA generativa de Anthropic, se está distribuyendo en el mercado negro chino a un precio equivalente a cerca del 10% del oficial, es decir, con un 90% de descuento. Si solo fuera reventa ilegal, podría parecer un caso más, pero el verdadero problema es otro. Según se informa, se está usando como canal para extraer los datos de prompts de los usuarios y aprovecharlos como insumo de entrenamiento para otros modelos de IA.
¿Cómo fue posible un descuento del 90%?
Según el estado actual de la llamada “economía de proxies de API (API Proxy Economy)”, dado a conocer recientemente por la investigadora Zhilan Chen, del Oxford China Policy Lab, redes de proxies conocidas localmente como “centros de intermediación” estarían operando casi de forma abierta en GitHub, Telegram, Taobao y otras plataformas.
En general, los métodos usados para bajar tanto el precio son los siguientes.
Crear masivamente cuentas de prueba gratuita y luego revender los permisos de API
Suscribirse a planes de pago con tarjetas de crédito robadas y distribuir el acceso
Tomar un solo plan Max de unos 200 dólares al mes y revenderlo dividido entre varios usuarios
Ir un paso más allá con el “cambio de modelo”: el usuario cree que está usando Claude Opus, el modelo premium, pero en realidad recibe respuestas generadas por Haiku, más barato, o incluso por modelos open source
El rendimiento ni siquiera llegó a la mitad
Según el análisis de 17 servicios proxy realizado por investigadores del CISPA Helmholtz Center for Information Security de Alemania, con base en un benchmark del ámbito médico, la API oficial mostró una tasa de aciertos de alrededor del 84%, mientras que los servicios proxy apenas alcanzaron cerca del 37%. Es decir, los datos objetivos muestran que, así como se abarata el precio, también cae fuertemente la calidad de los resultados.
El verdadero objetivo eran los “datos de prompts”
Hay otro punto que la industria considera aún más serio. Los operadores de estos proxies estarían almacenando tanto los prompts de los usuarios como las respuestas de la IA, e incluso los procesos de razonamiento (Chain of Thought, CoT), para luego procesarlos y venderlos como datasets de entrenamiento.
Si lo pensamos bien, los prompts cuidadosamente refinados por usuarios avanzados de IA y los datos de cadena de pensamiento son activos extremadamente valiosos para mejorar el rendimiento de los modelos. Incluso han surgido análisis que sugieren que esta estructura de obtención de datos pudo haber influido, al menos en parte, en el rápido aumento de la capacidad de razonamiento de modelos chinos de IA en los últimos tiempos.
De hecho, este febrero Anthropic anunció que más de 16 millones de consultas provinieron de unas 24,000 cuentas fraudulentas que se estima estaban vinculadas con empresas chinas como DeepSeek, Moonshot AI y MiniMax.
La sombra aún mayor: filtración de código fuente
También está creciendo la preocupación desde el lado de la seguridad. Hoy en día, muchos desarrolladores usan agentes de programación con IA introduciendo no solo código fuente, sino también estructuras de API e incluso información interna de autenticación. Pero si ese tráfico pasa por servidores proxy no verificados, existe el riesgo de que información interna de las empresas termine filtrándose tal cual a servidores externos.
La investigadora Chen explicó que “usar servicios de IA a través de proxies no verificados equivale prácticamente a enviar datos confidenciales a servidores de terceros”.
Para cerrar
Este caso va más allá de un simple problema de distribución ilegal y resulta muy revelador porque muestra que, en la era de la IA, se está formando un nuevo “mercado de robo de datos”. Si se topan con una gateway de API llamativamente barata, quizá valga la pena preguntarse qué puede estar pasando detrás. En especial, si usan agentes de programación para trabajar con código de su empresa, convendría revisar una vez más hacia dónde está fluyendo el tráfico.
Fuente: KMJ — https://www.kmjournal.net/news/articleView.html?idxno=11241
3 comentarios
Uy
Uf..
El karma hizo lo suyo