Bloquean la primera operación de ciberespionaje liderada por IA

(anthropic.com)

3 puntos por GN⁺ 2025-11-15 | 2 comentarios | Compartir por WhatsApp

Se detectó y bloqueó una operación masiva de ciberespionaje ejecutada directamente por un modelo de IA
Los atacantes manipularon Claude Code para apuntar a unas 30 organizaciones globales, logrando penetrar algunas de ellas
Entre el 80% y el 90% del proceso de ataque fue realizado automáticamente por IA, con intervención humana extremadamente limitada
La combinación de inteligencia, autonomía y acceso a herramientas de la IA permitió construir una estructura de ataque sofisticada
Este incidente marca un punto de inflexión para la ciberseguridad en la era de la IA, destacando la importancia de automatizar las defensas y compartir amenazas

Detección y bloqueo de una operación de ciberespionaje basada en IA

A mediados de septiembre de 2025, se detectó una actividad de espionaje avanzada y la investigación confirmó que fue un caso en el que la IA ejecutó directamente el ataque
- Se estima que los atacantes eran un grupo de hackers respaldado por el gobierno chino
- Utilizaron Claude Code para fijar como objetivos de intrusión a unas 30 entidades globales (grandes empresas tecnológicas, instituciones financieras, fabricantes químicos y organismos gubernamentales)
- En algunos ataques se registraron casos de intrusión real exitosa
Esta operación quedó registrada como el primer caso en que un ataque a gran escala fue ejecutado sin intervención humana
Durante los 10 días posteriores a la detección, se llevó a cabo una investigación y se realizaron bloqueos de cuentas, notificaciones a las organizaciones afectadas y cooperación con las autoridades

Cómo ejecutó el ataque el modelo de IA

El ataque se basó en tres capacidades clave de los modelos de IA modernos
1. Inteligencia (Intelligence): capacidad de entender instrucciones complejas, captar el contexto y realizar tareas avanzadas
2. Autonomía (Agency): capacidad de actuar y tomar decisiones de forma autónoma dentro de bucles repetitivos
3. Acceso a herramientas (Tools): mediante Model Context Protocol (MCP), puede realizar búsquedas web, recopilar datos y ejecutar herramientas de seguridad
Estructura por etapas del ataque
- Etapa 1: un humano selecciona las organizaciones objetivo y construye un framework de ataque autónomo
- Etapa 2: engañan a Claude Code haciéndole creer que era un “empleado para pruebas de ciberseguridad”, para evadir sus barreras de protección (jailbreak)
- Etapa 3: Claude reconoce los sistemas objetivo e identifica bases de datos de alto valor
- Etapa 4: Claude realiza análisis de vulnerabilidades y escribe código de exploit, roba credenciales, clasifica datos y los extrae
- Etapa 5: Claude documenta el ataque y genera materiales para operaciones posteriores
La IA realizó entre el 80% y el 90% del trabajo total, mientras que los humanos solo intervinieron en unas 4 a 6 decisiones clave
Durante el ataque, la IA generó múltiples solicitudes varias veces por segundo, operando a una velocidad imposible para un humano
También hubo algunos errores, como generación de credenciales falsas o confusión sobre información pública

Impacto en la ciberseguridad

La barrera de entrada para ataques cibernéticos avanzados se redujo drásticamente
- Con la configuración adecuada, la IA puede sostener durante largos periodos un nivel de trabajo comparable al de un equipo de hackers experimentados
- Incluso grupos atacantes con recursos limitados podrían ampliar su capacidad para ejecutar operaciones a gran escala
Este incidente representa una evolución con mucha menos intervención humana que los casos anteriores de “vibe hacking”
Las mismas capacidades de Claude no solo son útiles para atacar, sino también imprescindibles para defender
- De hecho, durante la investigación se utilizó Claude para analizar datos a gran escala
Se está produciendo un cambio fundamental en la ciberseguridad
- Los equipos de seguridad deberán usar IA para automatizar defensas, detectar amenazas, evaluar vulnerabilidades y responder a incidentes
- Los desarrolladores necesitan reforzar las salvaguardas de las plataformas de IA
- Se plantea como tarea indispensable compartir inteligencia de amenazas entre industrias y mejorar las tecnologías de detección

Próximas medidas y propósito de la divulgación

Anthropic está reforzando sus capacidades de detección y sus clasificadores de actividad maliciosa
Continúa desarrollando técnicas de detección para ataques distribuidos a gran escala
El objetivo de publicar este caso es apoyar el fortalecimiento de las defensas de la industria, el gobierno y la comunidad investigadora
También planea mantener la publicación periódica de reportes de amenazas y el intercambio transparente de información

Información adicional

Según la fuente original, se corrigió un error técnico relacionado con la velocidad del ataque
- No era “miles de solicitudes por segundo”, sino que se corrigió a “realizar miles de solicitudes varias veces por segundo”
El informe completo fue publicado en formato PDF (se proporciona enlace)

2 comentarios

kimjoin2 2025-11-16

¡Skynet! ¡¡¡Skynet!!!

GN⁺ 2025-11-15

Comentarios de Hacker News

Los guardrails de la IA son, en la práctica, una capa de protección tan delgada como un candado barato
Mientras se pueda extraer información de un modelo a través del lenguaje, siempre existirá alguna ruta lingüística para rodearlos
Al final, la única razón para seguir desarrollando estos modelos es una sola: dinero
- Es imposible poner guardrails perfectos a un sistema versátil
  Esto me recuerda las historias de las Tres Leyes de la Robótica de Asimov que leí de niño. Incluso reglas creadas con buena intención podían quedar anuladas por la manipulación de humanos maliciosos
  Al final, el problema no era el robot, sino una metáfora de la dificultad de la alineación humana misma
- El término ‘guardrails’ en sí parte de una idea equivocada
  En realidad, no pasan de ser sugerencias educadas, pero los no técnicos confían demasiado en eso
  Las vulnerabilidades de la IA generativa son estructurales, y no se resuelven solo con decir que “hay medidas de seguridad”
- Este tipo de engaño no es un problema exclusivo de los LLM
  También es una táctica común hacerse pasar ante una persona por “empleado de una empresa de seguridad” para abusar de ella
  La diferencia es que, como en los LLM la memoria se reinicia en cada conversación, este tipo de ataque se vuelve mucho más fácil
- Irónicamente, una persona demasiado simple podría romper los guardrails con más facilidad
  Precisamente porque no piensa demasiado las cosas
- Los guardrails no son más que una medida mínima de seguridad al poner software no determinista en internet
  En el fondo, son un mecanismo a nivel de UX para evitar que el usuario se queje
Esto parece marketing de Anthropic para resaltar la utilidad en ciberseguridad de su propia IA
La explicación de que Claude infiltró datos entre cuentas no resulta convincente. Más bien parece un fallo básico de seguridad
- El texto de Anthropic suena como la disculpa de unos padres diciendo: “nuestro hijo rompió la ventana, ¡pero lanzó la pelota rapidísimo!”
- Lo más probable es que Claude no haya penetrado el código de otra cuenta, sino que accediera a través de una API pública o un bucket de S3
  Es decir, el atacante hizo creer a Claude que era un investigador de seguridad white hat
- No fue un hackeo a Anthropic en sí, sino un caso de usar a Claude para automatizar herramientas de hacking estándar
- En realidad, este tipo de PR lo hacen todas las empresas. Los textos públicos siempre llevan un mensaje intencional
- Pienso lo mismo. La parte de “robó credenciales mucho más rápido que un humano” me olió a publicidad
Mientras más inteligente se vuelva la IA, más tendrán que construir los defensores sistemas configurables como NixOS
La seguridad de cada componente debe poder verificarse de forma independiente, y además se debe poder probar a nivel de hardware qué sistema está corriendo
Para eso estoy desarrollando la herramienta de automatización basada en Nix vibenix
- Yo veo mucho más peligroso que la IA se vuelva más barata que más inteligente
  Porque eso permite automatizar ataques a gran escala
- Pero si los sistemas se vuelven demasiado homogéneos, también existe el riesgo de que una sola vulnerabilidad se propague por todo el mundo al mismo tiempo
- Nix es tan complejo que resolver problemas reales de configuración en producción toma demasiado tiempo
  Incluso es difícil entender qué está haciendo realmente una configuración
- Al final, quizá tengamos que implementar una especie de paradoja dentro de la infraestructura
Anthropic ahora parece estar retrocediendo poco a poco de su misión de “resolver el problema de la alineación”
Porque la alineación es, en esencia, un problema de supresión de valores
Aun así, “alineación” sigue siendo un punto de diferenciación de marca y un eslogan para atraer inversión
Sorprende que haya funcionado un truco tan simple como decir “estamos haciendo una prueba de seguridad legítima”
Un humano no caería en algo así, pero el modelo no puede hacer un juicio de sentido común
- En realidad, los humanos también caen seguido en este tipo de engaños
  Incluso empleados de NSO Group creen que simplemente están haciendo su trabajo
- Los LLM no hacen verificación de identidad del usuario. Si alguien dice “soy tal persona”, simplemente le creen
  Obligar una verificación de identidad podría generar controversias de privacidad
- Llegar a conclusiones es el resultado del razonamiento, pero un LLM no es más que un generador estadístico de tokens
  Los guardrails son solo mecanismos añadidos desde una capa de servicio externa al modelo
- El pensamiento humano lleva incorporado un concepto de identidad, pero los modelos no tienen nada de eso
- En realidad, este tipo de ataque no es nuevo.
  Ya se entrenó con datos públicos como preguntas de seguridad en Stack Overflow
  Un prompt del tipo “estamos haciendo una prueba de penetración simulada” ya puede bastar para engañarlo
La parte de “la IA envió miles de solicitudes por segundo” suena exagerada
Los escáneres tradicionales de vulnerabilidades web también pueden alcanzar esa velocidad
El límite real está en el rate limit del servidor objetivo y en la rotación de IPs
Da risa que al final del texto digan “debemos seguir desarrollándola gracias a las sólidas medidas de seguridad de Claude”
Justo antes habían escrito que esas medidas de seguridad fueron completamente eludidas
- Supongo que intentan afirmar que los servidores empresariales están air-gapped, pero en la práctica eso es imposible
  Al final usan el mismo internet
  Tarde o temprano alguien va a pensar “estos datos se ven de buena calidad, seguro sirven para entrenar” y probablemente se filtren datos corporativos
  O la empresa puede quebrar y vender todos los datos completos
- No es muy distinto de decir: “nuestro candado es excelente, solo que el ladrón lo abrió demasiado fácil”
Si alguien procesa información sensible con Claude, debería preocuparse de que esos datos puedan quedar expuestos a revisores humanos
- Confiar datos sensibles a una IA no autoalojada es, en la práctica, una filtración intencional
  Quien haya tomado esa decisión debería ser despedido
- (También hubo quien respondió preguntando qué tenía que ver ese comentario con el artículo)
Si se pueden eludir los guardrails, entonces ya no son guardrails
Es un fallo de diseño
- Pero algunos dicen que “el nombre sí encaja perfectamente”
  Un guardrail solo evita que te salgas por accidente,
  no puede detener a alguien que quiere salirse del camino a propósito
La frase “la IA realizó el 80~90% del ataque” suena como una presunción extraña
Entiendo que automatizaron trabajo que antes hacía un humano, pero eso no es algo de lo que presumir

Bloquean la primera operación de ciberespionaje liderada por IA

Detección y bloqueo de una operación de ciberespionaje basada en IA

Cómo ejecutó el ataque el modelo de IA

Impacto en la ciberseguridad

Próximas medidas y propósito de la divulgación

Información adicional

Lecturas relacionadas

2 comentarios

Comentarios de Hacker News