4 puntos por GN⁺ 2026-02-21 | 1 comentarios | Compartir por WhatsApp
  • Claude Code Security es una función de seguridad basada en IA que detecta vulnerabilidades en bases de código y ofrece sugerencias de parches para revisión humana
  • Detecta vulnerabilidades complejas que las herramientas de análisis estático existentes pasan por alto, siguiendo las interacciones del código y el flujo de datos como lo haría un investigador humano
  • Todos los resultados se muestran en un panel tras pasar por verificación en múltiples etapas y evaluación de severidad, y no se corrigen automáticamente sin la aprobación del desarrollador
  • Anthropic lanzó esta función como una vista previa de investigación limitada para clientes Enterprise y Team, y para mantenedores de código abierto
  • Busca elevar el nivel de seguridad en toda la industria, preparándose para una era en la que la IA pueda encontrar vulnerabilidades más rápido que los atacantes

Resumen de Claude Code Security

  • Claude Code Security es una nueva función integrada en la versión web de Claude Code que escanea bases de código para detectar vulnerabilidades de seguridad y proponer parches
    • Se ofrece como vista previa de investigación y supone revisión humana
  • Fue diseñada como una herramienta para resolver los problemas de escasez de personal y exceso de vulnerabilidades que enfrentan los equipos de seguridad existentes
  • Las herramientas de análisis tradicionales se centran en patrones conocidos, pero Claude puede detectar incluso vulnerabilidades nuevas y dependientes del contexto

Cómo funciona

  • El análisis estático tradicional detecta patrones conocidos de vulnerabilidades con base en reglas, pero tiende a pasar por alto errores de lógica de negocio o fallas de control de acceso
  • Claude Code Security entiende y razona sobre el significado del código como un investigador humano, para detectar vulnerabilidades complejas
    • Rastrea las interacciones entre componentes y el flujo de datos
  • Los resultados de detección pasan por un proceso de verificación en múltiples etapas para minimizar falsos positivos
    • Claude vuelve a revisar por sí mismo los resultados y asigna niveles de severidad
  • Los resultados verificados se muestran en un panel, donde los equipos pueden revisarlos y aprobarlos
    • Cada elemento incluye una puntuación de confianza, y no se aplica ninguna corrección sin aprobación humana

Base de investigación en ciberseguridad de Claude

  • Claude Code Security fue desarrollado con base en más de un año de investigación en seguridad de Claude
  • El Frontier Red Team de Anthropic puso a Claude a participar en competencias de Capture-the-Flag y realizó experimentos de defensa de infraestructura con IA en colaboración con Pacific Northwest National Laboratory
  • Con el modelo más reciente, Claude Opus 4.6, encontró más de 500 vulnerabilidades en código abierto
    • Incluyendo errores que seguían presentes incluso tras décadas de revisión por expertos
    • Actualmente se está llevando a cabo un proceso de divulgación responsable junto con los mantenedores
  • Anthropic también está usando a Claude para la seguridad de su código interno, y desarrolló esta función para ofrecer al exterior las mismas capacidades defensivas

Perspectivas futuras

  • Está cerca el momento en que la IA podrá escanear la mayoría de las bases de código del mundo
    • Los modelos de IA pueden detectar con eficacia errores ocultos durante largos periodos
  • Los atacantes también pueden usar IA para encontrar vulnerabilidades rápidamente, pero el riesgo puede reducirse si los defensores aplican parches de forma proactiva
  • Claude Code Security se presenta como un paso hacia bases de código más seguras y estándares de seguridad más altos en toda la industria

Participación y acceso

  • Se ofrece como vista previa de investigación para clientes Enterprise y Team
    • Los participantes pueden colaborar directamente con el equipo de Anthropic para mejorar la herramienta
  • Los mantenedores de código abierto pueden solicitar acceso gratuito y rápido
  • Más información en claude.com/solutions/claude-code-security

1 comentarios

 
GN⁺ 2026-02-21
Opiniones de Hacker News
  • No sorprende que Anthropic haya lanzado una función de detección de vulnerabilidades
    porque OpenAI ya presentó Aardvark y Google anunció BigSleep.
    La clave, creo, está en la escala y la precisión. Anthropic dice que encontró 500 vulnerabilidades de “alta severidad” con Opus 4.6, pero queda la duda de si realmente eran graves. BigSleep encontró unas 20 y Aardvark no publicó cifras.
    Cuando fundé Semgrep, me pareció notable que en la competencia DARPA AIxCC les exigieran a los participantes de detección de vulnerabilidades basada en LLM publicar el costo por vulnerabilidad y la matriz de confusión. Sin esos datos, es difícil saber qué modelo realmente va adelante.
    Si a los agentes de seguridad con LLM se les da acceso a herramientas como Semgrep o CodeQL, la tasa de falsos positivos baja bastante. En el futuro, probablemente los humanos actúen como gerentes de AppSec administrando estos agentes de ingeniería de seguridad virtual.

    • El mayor problema de las herramientas SAST como Semgrep son los falsos positivos. Los desarrolladores solo quieren el 0.1% de resultados que llevan a problemas reales, pero el enfoque de coincidencia de patrones genera demasiado ruido.
      Yo también he probado la combinación de coincidencia de patrones + LLM y fue bastante efectiva. Aun así, solo aplica a SAST; en áreas como SCA o imágenes de contenedores, que representan el 90% del ruido para los equipos de seguridad, sigue siendo difícil resolverlo.
    • Este tipo de función puede servir para escanear una vez un repositorio pequeño, pero en la realidad de cambios frecuentes en el código el costo de reescanear es demasiado alto. Faltan partes del flujo de trabajo real, como crear PR, resolver conflictos o encontrar revisores.
      Como investigación es interesante, pero como herramienta práctica tiene límites.
    • Yo también estoy siguiendo un enfoque parecido. Amplié con agentes una herramienta interna enfocada en seguridad, rendimiento y SEO de sitios web, y los resultados fueron sorprendentes.
      Es un servicio llamado SquirrelScan, donde el agente ajusta dinámicamente la configuración con base en reglas escritas por humanos para eliminar falsos positivos y hacer validaciones.
  • Hubo una broma de “Anakin: voy a salvar al mundo con un escáner de vulnerabilidades con IA”.
    Era un diálogo donde Padme preguntaba algo como: “Entonces lo escaneas para arreglar esas vulnerabilidades, ¿verdad?”, una sátira sobre el propósito de los escáneres con IA.

    • Creo que por eso esta función quedó limitada a solicitudes de acceso para equipos y empresas.
      Como alternativa open source está DeepAudit.
    • Preocupa que usuarios maliciosos escaneen en masa proyectos open source o paquetes de npm para encontrar zero-days.
      Ojalá Anthropic tenga un sistema de alerta temprana para detectar patrones de uso anómalos.
    • Irónicamente, los laboratorios son los que están sacando los toolkits de hacking más potentes, pero las acciones de las empresas de ciberseguridad defensiva siguen cayendo. No entiendo la lógica del mercado.
    • También hubo quien dijo que no entendía bien el sentido del chiste.
  • Desde la perspectiva de alguien que dirige una firma de auditoría de seguridad, ya se siente que las grandes empresas de LLM están entrando incluso al mercado de auditoría.
    Nuestros servicios basados en IA, como zkao.io, también están bajo presión competitiva.
    Creo que a futuro hay dos escenarios posibles.
    Uno es un mundo donde desaparecen los auditores humanos y los desarrolladores; el otro es uno donde evoluciona un mercado de nicho que sigue requiriendo experiencia y criterio humano.
    Las empresas serias seguirán queriendo colaborar con personas, y es probable que el modelo sobreviva como SaaS + apoyo humano.
    En cambio, los “vibe coders” usarán herramientas como Claude Code Security, y su calidad estará al nivel del “vibe coding”: suficientemente útil, pero no perfecta.
    Viéndolo de forma realista, creo que esto último es más probable. Herramientas así vuelven más fuertes a equipos pequeños de auditoría especializada como el nuestro.

    • Corrección ortográfica: “seize” no, la forma correcta es “cease”.
    • Los desarrolladores no van a desaparecer. Solo van a evolucionar hacia una nueva clase de desarrollador. Pero para los auditores, el futuro se ve más oscuro.
  • Me pareció interesante la parte de la explicación de Anthropic que dice: “Claude Code Security lee y razona sobre el código como un investigador humano”.
    Nuestro equipo también ha estado combinando análisis estático con IA, así que veo este enfoque como la dirección evolutiva de la automatización de seguridad.

    • Pero esa frase no es cierta. Al final, los LLM son máquinas de coincidencia de patrones. Un investigador humano hace más que simple coincidencia de patrones.
      Decir que “razona como un humano” parece una exageración de marketing.
  • Claude Code Opus 4.5 registró cerca de 71% de precisión en el OpenSSF CVE Benchmark.
    Nosotros usamos SAST como filtro inicial, y luego hacemos que el LLM aproveche artefactos de análisis estático como grafos de flujo de datos y grafos de dependencias.
    Ese enfoque fue mucho más efectivo que simplemente decirle que “actúe como un investigador de seguridad”. Cuando publiquen la nueva función, planeamos actualizar el benchmark.

  • Los productos de la competencia me decepcionaron. En su mayoría solo redetectaban problemas que ya encontraban las herramientas de análisis estático existentes, y además había muchos falsos positivos en los escaneos con IA.
    Espero que esta vez los resultados sean mejores.

  • Mucha gente duda de que la IA pueda tener el pensamiento creativo de un ingeniero de seguridad senior, pero creo que esa discusión pierde de vista lo esencial.
    El verdadero valor de estas herramientas está en automatizar tareas repetitivas de seguridad.
    Problemas simples, como falta de validación de entradas o uso de componentes vulnerables, no necesitan que los revise personal de alto nivel.
    Ojalá estas herramientas se conviertan en asistentes que reduzcan el trabajo tedioso de los equipos de seguridad.

    • Los LLM, especialmente Claude, de hecho muestran capacidades al nivel de un ingeniero de seguridad. Nuestra startup está creando un agente para pruebas de penetración ofensivas, y con solo correrlo unas horas encuentra vulnerabilidades raras que una persona podría pasar por alto.
    • De hecho, entre los investigadores de vulnerabilidades hay bastante optimismo no público. Hay muchos más expertos experimentando en silencio y viendo potencial que personas escépticas hablando en público.
    • Como pentester en una empresa Fortune 500, coincido con esa evaluación. La mayoría de los hallazgos internos son temas de “mejores prácticas”, así que si un agente puede encargarse automáticamente de eso, el trabajo se vuelve mucho más eficiente.
      La colaboración humano-agente probablemente será la forma de operar de los equipos de seguridad en el futuro.
    • Nosotros también probamos Claude Opus 4.6 y nos impresionó mucho que la tasa de falsos positivos fuera menor al 50%.
  • Yo estaba quemando un montón de tokens de Claude para crear un sistema de defensa contra bots de IA, y pensé que Anthropic se había dado cuenta.

    • Nosotros también llevamos años desarrollando un sistema propio. Tal vez te sirva revisar Tirreno, hecho directamente por ingenieros.