La evaluación de DeepSeek por parte de NIST es un ataque político disfrazado de ciencia

(erichartford.com)

2 puntos por GN⁺ 2025-10-07 | 1 comentarios | Compartir por WhatsApp

El informe de evaluación de los modelos de IA de DeepSeek publicado por NIST en septiembre de 2025 es un documento con fines políticos, no una evaluación técnica neutral, y busca frenar la IA open source china sin presentar evidencia de amenazas de seguridad reales
El informe no presenta ninguna evidencia de puertas traseras, spyware ni filtración de datos en los modelos de DeepSeek; solo señala que tienen menos ajuste de seguridad, son más fáciles de vulnerar con jailbreak y reflejan perspectivas del gobierno chino
DeepSeek, bajo licencia Apache 2.0, publicó por completo los pesos del modelo, la arquitectura y la metodología de entrenamiento, aportando enormemente a la investigación abierta en IA, pero el gobierno de EE. UU. la calificó como una “IA adversaria”
NIST confunde deliberadamente la ejecución local con el uso por API y utiliza una metodología sesgada, omitiendo comparaciones con otros modelos open source o pruebas de sesgo en modelos estadounidenses
El informe forma parte de una política industrial para contener a DeepSeek, que demostró la competitividad de la IA open source, y así proteger la posición monopólica de las empresas de IA de EE. UU., priorizando intereses comerciales y estratégicos por encima de la neutralidad científica

La verdadera naturaleza del informe de evaluación de DeepSeek de NIST

El informe de NIST sobre DeepSeek del 30 de septiembre de 2025 es un documento de ataque político, no una evaluación técnica neutral
- No hay ninguna evidencia de puertas traseras, spyware ni filtración de datos
- Es un intento del gobierno de EE. UU. de obstaculizar la ciencia abierta, la investigación abierta y el open source usando miedo y desinformación
- Ataca, con política y mentiras, una contribución a la humanidad para proteger el poder corporativo y mantener el control
Tras la publicación del informe hubo pánico en línea
- Se afirmó que los pesos de DeepSeek estaban comprometidos
- Se afirmó que China espía a través del modelo
- Se afirmó que la sola descarga representa un riesgo de seguridad
- Todas estas afirmaciones son falsas

Los verdaderos logros de DeepSeek

Desarrollo de modelos de IA competitivos
- Alcanzó rendimiento de frontera con un presupuesto mucho menor que OpenAI o Anthropic
- No es perfecto, pero es un resultado impresionante para ese nivel de presupuesto
Publicación completa bajo licencia Apache 2.0
- Pesos del modelo
- Arquitectura
- Metodología de entrenamiento
- Artículos de investigación
Permitió que cualquiera reprodujera el trabajo y ejecutara modelos de escala de frontera en local
- Facilita recrear todo desde cero
- Una de las mayores contribuciones a la investigación abierta en IA de los últimos años
La reacción del gobierno de EE. UU.: etiquetarla como “IA adversaria” e insinuar espionaje

La estrategia central de engaño de NIST

Confusión deliberada de tres escenarios
- Escenario A: al usar la app/API de DeepSeek, los prompts se envían a servidores en China (un problema real de soberanía de datos)
- Escenario B: al descargar los pesos abiertos y ejecutar el modelo en local, no se envía ningún dato fuera del dispositivo
- Escenario C: al usar servicios de terceros confiables como OpenRouter, Fireworks o Chutes, la infraestructura y el control de privacidad dependen del proveedor de hosting
NIST mete deliberadamente en el mismo saco estas situaciones completamente distintas
- Cuenta las descargas locales mientras advierte sobre un “riesgo para la seguridad nacional”
- Cualquiera con conocimientos técnicos básicos sabe que eso es engañoso
Esa confusión sirve de base para el resto del encuadre engañoso del informe

Lo que NIST realmente encontró

Lo que queda al quitar el lenguaje sensacionalista
1. Los modelos de DeepSeek son más fáciles de vulnerar con jailbreak que los modelos estadounidenses con safety tuning
2. A veces reflejan perspectivas del gobierno chino
3. Tienen un rendimiento ligeramente inferior en ciertos benchmarks
4. Se afirma que tienen un costo por token más alto (sin proporcionar metodología)
Eso es todo
- No hay evidencia de comportamiento malicioso
- No hay evidencia de filtración de datos
- No hay evidencia de que el modelo actúe de forma maliciosa más allá de “responder a prompts de una manera que no nos gusta”
Análisis del hallazgo sobre jailbreak
- Se debe a que DeepSeek invirtió menos en entrenamiento de seguridad (un tema de recursos)
- NIST no probó modelos estadounidenses antiguos para comparar
- Mientras tanto, gpt-oss-120b de OpenAI es muy fácil de vulnerar con jailbreak
Análisis del hallazgo sobre la “narrativa del Partido Comunista Chino”
- No sorprende que un modelo entrenado con datos chinos refleje perspectivas chinas
- Está sujeto a las leyes de censura de China
- Eso no es una vulnerabilidad de seguridad

Las comparaciones que NIST no hizo

No compara con otros modelos abiertos
- ¿Dónde están Llama, Mistral y Falcon?
- Si los hubiera comparado, habría quedado claro que no es un problema de DeepSeek sino que, en general, los modelos abiertos tienen menos capas de seguridad que los modelos cerrados
No compara con modelos estadounidenses tempranos
- ¿Qué tan vulnerables eran a jailbreak los GPT-3 de 2020?
- Esa comparación debilitaría la narrativa, por eso no se hace
No prueba el sesgo estadounidense en modelos estadounidenses
- Parece que solo el sesgo chino se considera un riesgo de seguridad
Usa benchmarks privados
- Un “benchmark privado construido por CAISI” impide la reproducción o verificación
- Eso no es ciencia, es investigación de defensa de una postura

Lo que el informe realmente está diciendo

Si lees entre líneas
1. Los modelos de DeepSeek están menos pulidos: es lógico, porque se invirtió menos en su desarrollo y por eso tienen asperezas
2. Los modelos chinos son lo suficientemente competitivos como para preocupar: si no fueran una amenaza al mercado, este informe no existiría
3. EE. UU. teme perder su dominio en IA: fue encargado explícitamente bajo el “AI Action Plan” de Trump. La declaración del secretario de Comercio deja claro que esto es política industrial, no una evaluación neutral

La amenaza real (pista: no es contra ti)

Lo que DeepSeek realmente amenazó: el monopolio
- El verdadero “crimen” de DeepSeek fue demostrar que el open source funciona
- Probó que se pueden construir modelos potentes sin miles de millones en venture capital ni APIs privadas
Eso aterra a las empresas que venden acceso a la IA a precio premium
- Cuando DeepSeek dijo “aquí están los pesos, ejecútalos tú mismo”, atacó el foso económico del que dependen esas empresas
Esa es la razón de la existencia del informe de NIST
- Porque DeepSeek probó que la apertura puede competir con los sistemas cerrados
- El establishment necesita frenarlo

La hipocresía

Advertencias de NIST vs realidad
- NIST: advierte que los modelos de DeepSeek podrían responder a prompts maliciosos en entornos simulados
- Realidad: los modelos estadounidenses sí envían datos reales a servidores externos
El caso de OpenAI
- ¿Recuerdas cuando ChatGPT usaba las conversaciones para entrenamiento?
- Solo agregó la opción de exclusión después de la reacción negativa
Comparación
- Ejecutar pesos de DeepSeek en local = cero transferencia de datos
- Usar la API de OpenAI = transferencia continua de datos al servidor
- ¿Cuál de los dos es el riesgo de privacidad?
El informe advierte sobre la “adopción de IA extranjera” mientras ignora que toda API en la nube, sea estadounidense o no, exige confiar en infraestructura ajena
- Los pesos abiertos en local son más auditables y más seguros que cualquier servicio en la nube
Pero ese no es el mensaje. Porque esto nunca trató de seguridad. Se trata de controlar la narrativa

Traición al open source y a la ciencia abierta

La comunidad open source construyó los cimientos de la IA moderna
- Linux, Python, PyTorch, Transformers
- Décadas de desarrollo colaborativo, compartido libremente
DeepSeek participa de esa tradición
- Toma conocimiento abierto, construye algo impresionante y lo devuelve a la comunidad
La reacción de la institución estadounidense: llamarlo una amenaza
Imagina que China hubiera hecho esto cuando Meta lanzó Llama
- Si hubiera publicado un informe gubernamental diciendo que los pesos de Llama son una herramienta de vigilancia porque “son vulnerables a jailbreak”
- Lo habríamos llamado proteccionismo, paranoia tecnológica, un ataque a la investigación abierta
Pero cuando lo hacemos nosotros? “Seguridad nacional”
La investigación abierta debe ser universal
- No se puede defender la ciencia abierta solo cuando conviene

Una prueba que puedes hacer tú mismo

No me creas a mí, no le creas a NIST, compruébalo tú mismo
Descarga los pesos de DeepSeek
- Usa huggingface transformers, vLLM, LM Studio o llama.cpp para ejecutarlos en local
- Abre una herramienta de monitoreo de red
Observa
- Exactamente cero paquetes salen hacia ningún lugar
- Los prompts se procesan por completo en el dispositivo
- La terrible “amenaza de seguridad” no hace más que multiplicaciones de matrices sin conectarse a nada
Pregúntate: por qué el gobierno de EE. UU. miente sobre esto?
La “amenaza de seguridad” no está en el modelo. Está en la política

De qué sí deberías preocuparte

Existen preocupaciones legítimas
- Uso de la API de DeepSeek: si envías datos sensibles al servicio hospedado de DeepSeek, pasan por infraestructura china. Es el mismo problema real de soberanía de datos que existe al usar cualquier proveedor extranjero de nube
- Vulnerabilidad a jailbreak: si construyes aplicaciones en producción, debes probar vulnerabilidades en cualquier modelo e implementar salvaguardas a nivel de aplicación. No dependas solo de los guardrails del modelo. Además, usa en inferencia un modelo guardián (LlamaGuard o Qwen3Guard, por ejemplo) para clasificar y filtrar tanto prompts como respuestas
- Sesgo y censura: todos los modelos reflejan sus datos de entrenamiento. Tenlo presente uses el modelo que uses
Estos son desafíos de ingeniería
- No son una razón para evitar por completo los modelos open source (o chinos)

Lo que esto significa para el futuro de la IA

Esto no se trata solo de DeepSeek
- Se trata de si la IA seguirá siendo abierta y auditable, o si quedará cercada por gobiernos y corporaciones
Las preguntas
- ¿Vamos a permitir que “open source” se redefina como “abierto solo si es de EE. UU.”?
- ¿Vamos a exigir evidencia real para las afirmaciones de seguridad, o aceptar insinuaciones vagas?
- ¿La IA seguirá siendo un proyecto humano compartido, o se convertirá en un arma geopolítica?
DeepSeek demostró que hay otro camino. Por eso había que desacreditarla

La opinión del autor

Antecedentes del autor
- Ejecuta modelos open source en local
- Entrena sus propios modelos
- Cree en la alineación componible y en la libertad del usuario
- Considera que la IA debe ser una herramienta para los usuarios, no para corporaciones ni gobiernos
Evaluación del informe de NIST
- No es una evaluación técnica neutral
- Es un documento de política diseñado para impedir la adopción de modelos chinos de IA y proteger los intereses comerciales y estratégicos de EE. UU.
Postura sobre la promoción industrial del gobierno de EE. UU.
- No hay nada intrínsecamente malo en que el gobierno de EE. UU. promueva su industria
- Pero hay que llamarlo por lo que es
- No hay que disfrazar el proteccionismo como investigación de seguridad
- No hay que fabricar amenazas
- No hay que mentirle al público sobre lo que muestra la evidencia
La contribución de DeepSeek
- Nos dio un regalo valioso y valiente
- Los pesos son solo datos safetensor
- Se quedan en el disco y funcionan según se les ordena
- No llaman a casa. No espían. No filtran datos
Conclusión
- Si te preocupa, es porque no entiendes cómo funciona la inferencia local
- Si crees la propaganda del miedo, es porque te manipularon con éxito
- Nada de esto trata de seguridad. Trata de poder: de quién construye, comparte y entiende las herramientas que dan forma al futuro

Conclusión

El código y la investigación son open source y auditables. Todo lo demás es política
Recomendación al lector
- Lee por ti mismo el informe de NIST y el código
- Busca evidencia real de código malicioso o funciones de vigilancia
- No la vas a encontrar, porque no existe
Luego empieza a preguntar
- ¿Por qué te dicen que temas al open source cuando funciona demasiado bien?

1 comentarios

GN⁺ 2025-10-07

Opinión de Hacker News

No me sorprende en absoluto que las agencias de EE. UU. lleven mucho tiempo siendo usadas políticamente en asuntos transfronterizos; yo también siempre he sido escéptico con la electrónica china. Estoy de acuerdo en que este informe es falso y xenófobo, pero aun así sigo sospechando que, si China llega a tener suficiente control sobre los LLM, podría intentar alguna forma de manipulación sutil, ya sea ahora o en el futuro. Y esto no aplica solo a China: EE. UU. o cualquier gran potencia haría lo mismo si tuviera suficiente poder. Al final, lo importante es mantener una actitud de cuestionar continuamente los modelos, compararlos y vigilar de forma constante si responden a nuestras necesidades y no a las de su proveedor.
- Mencionaste la posibilidad de una manipulación sutil por parte de China a través de los LLM; me da curiosidad saber de qué formas concretas podría ocurrir.
- La influencia gubernamental o política, por supuesto, interviene hasta cierto punto. La cuestión no es si existe o no, sino dónde y cuánto pesa esa influencia. No tiene sentido descartar este informe de plano como “falso” o “sesgado”; necesitamos filtrar y analizar la información en un mundo complejo.
- Difundir desinformación sobre productos extranjeros no es la solución; sería mejor reconocer que la gente quiere modelos open source y publicar el mejor modelo nacional posible para que se adopte ampliamente.
- Si ordeno mis ideas sobre la democracia estadounidense, diría que el liderazgo de EE. UU. busca la máxima flexibilidad posible para decidir lo que quiera en cualquier momento. Como es una democracia, necesita mantener la ilusión del apoyo popular, y el gobierno crea un entorno donde, al inculcar cierta visión y controlar parte de cómo piensa la población, puede asegurar cierto nivel de respaldo para cualquier decisión. Si la política cambia o aparece un nuevo líder, siempre es posible culpar al anterior y hacer un nuevo comienzo moral del tipo “antes estaba mal, pero ahora cambió”. Eso es algo imposible en un régimen autoritario. Por ejemplo, aunque Putin reconozca las pérdidas de la guerra, no puede detenerla sin perder legitimidad política. Si Rusia fuera una democracia al estilo estadounidense, podrían elegir rápidamente a un nuevo líder, retirar tropas, imponerle a Putin algún castigo simbólico y luego eximirlo de responsabilidad ante la comunidad internacional.
- Estas agencias también se usan como herramientas políticas dentro de las propias fronteras.
Les recomiendo a todos leer primero el informe original, luego leer este análisis y sacar sus propias conclusiones. Es importante leer la fuente original y no dejarse llevar por resúmenes hechos para atraer clics.
- Aquí está el original: https://www.nist.gov/system/files/documents/2025/09/30/CAISI_Evaluation_of_DeepSeek_AI_Models.pdf
- Parece que mucha gente no leyó el original; basta con ver cómo el informe trata exfiltration para notar que el ensayo y el informe original de NIST no dicen lo mismo. Que una página clickbait reciba más atención que un informe técnico de 70 páginas refleja lo corta que se ha vuelto la capacidad de atención de la gente hoy en día.
Como alguien que aloja LLM para investigadores y personal en una universidad europea, esto me toca bastante de cerca. Sin modelos chinos, varias de las cosas que hacemos hoy serían imposibles. Desde mi punto de vista, en la UE o donde sea deberían agradecer que los institutos chinos publiquen estos modelos bajo licencias tan generosas. Sin ellos, las opciones habrían sido pésimas. Si necesitas un modelo potente de origen estadounidense, te recomiendan construir un centro de datos de NVIDIA de cientos de millones de dólares; incluso las opciones de la UE, aunque las alojes en hardware propio, exigen pagar licencias, aunque al final el know-how también queda protegido. En cambio, DeepSeek incluso publicó la “fuente secreta”, lo que ayudó a proyectos open source como vLLM a alojar modelos de forma más eficiente.
Al leer realmente el informe, el contenido no coincide con la descripción del artículo.
- Lo curioso es que hasta los comentarios de este post difieren del contenido real del texto. El autor insiste en presentarlo como un ataque al open source, pero los comentarios más bien parecen mencionar correctamente los problemas que podrían surgir por la influencia china.
- Esta entrada de blog es muy engañosa. Los primeros párrafos del texto enfatizan que el informe de NIST “no encontró malware, backdoors ni señales de fuga de datos”, pero eso no es algo que NIST realmente afirme. Si solo lees la entrada del blog, parece que NIST hubiera dicho sin base que existían backdoors.
- En mi caso, sentí que sí coincidía bastante bien con el contenido real del informe.
Aunque los modelos chinos sean blanco de difamación, yo igual voy a usar modelos buenos y baratos para sacar ventaja competitiva.
- La difamación es al final el primer paso que lleva a la criminalización.
- No encontré ninguna expresión de difamación en el artículo de NIST (el original). Mi definición de “difamación” sería propaganda para satanizar a un país enemigo; si no, me gustaría que señalaran exactamente en qué parte del informe ocurre eso. Ver https://www.thefreedictionary.com/demonization
- Es anormal que la gente defienda modelos cerrados que rinden peor, cuestan varias veces más y además tienen más censura. Las empresas chinas no están tan obsesionadas con los benchmarks como las occidentales, y en uso real siento que modelos como Kimi, GLM y Deepseek, aunque obtengan puntajes más bajos en benchmarks en inglés, ofrecen una calidad percibida mucho mejor. En particular, Kimi responde preguntas de hardware con mucho más detalle y precisión que Gemini o Claude. Creo que eso se debe a que aprovecha mejor el entrenamiento con datos en chino.
El autor, Eric Hartford, dijo que había que “eliminar el lenguaje incendiario”, pero al leer el informe no vi ese tipo de lenguaje. En general, el estilo es seco y hasta aburrido.
- Más bien en la entrada del blog hay muchísimo lenguaje incendiario sin fundamento.
- De hecho, creo que este artículo se parece más a “propaganda negra” contra NIST o contra EE. UU. El lenguaje incendiario se ve más en el artículo que en el informe.
Gracias por compartir buenos insights. Si alguien ha usado de verdad el modelo uncensored Dolphin creado por el autor, me interesa conocer su experiencia.
- Si doy mi opinión, la mejor manera es crear tu propio framework de evaluación y probarlo tú mismo. La segunda mejor opción es buscar casos externos que hayan hecho evaluaciones similares a la tuya. Pero si no estableces tus propios criterios, no puedes saber si la evaluación de otros es realmente confiable. En especial en ML o IA, valoro poco la calidad de las discusiones que se dan en HN. Siento que los participantes son rápidos, cínicos y faccionalizados, y no realmente orientados a buscar la verdad. Aun así, quiero seguir aquí y contribuir a la discusión. Ojalá siempre haya claridad, lógica y debate profundo. A veces se siente como https://xkcd.com/386/.
Dado que DeepSeek incluso ya cuenta con un artículo revisado por pares en Nature, y el mismo artículo reconoce algunos problemas señalados por investigadores independientes en modelos abiertos, por eso creo que esta evaluación de NIST se parece más a un ataque político. Igual que con el caso de CryptoAG o la polémica de Huawei, donde las agencias de inteligencia de EE. UU. han aprovechado cualquier ventaja tecnológica con fines de vigilancia sin que al final aparecieran grandes pruebas maliciosas, esa práctica es la base de esta inquietud. Al final, sería positivo para todo el sector que existan diversos modelos abiertos como Kimi y Qwen, que se nivelen costo y rendimiento, y que desaparezca la competencia entre países por usar la IA como una “fosa geopolítica”.
Para cuando salió este informe de NIST, ya parecía ir un paso atrás, porque China ya había publicado modelos open source mucho mejores después de DeepSeek.
- DeepSeek sigue lanzando nuevas versiones; ver https://api-docs.deepseek.com/updates
Me pregunto por qué NIST evalúa rendimiento, costo y adopción. Compararon modelos estadounidenses recientes (OpenAI GPT-5 series, Anthropic Opus 4, etc.) con DeepSeek antiguos (R1, R1-0528, V3.1), cuando el DeepSeek 3.2 actual rinde muy bien. No es que porque un auto haga de 0 a 60 millas en 3 segundos la evaluación del gobierno sea lo importante; yo tengo que manejarlo y juzgar por mí mismo. El “modelo de máxima seguridad” de DeepSeek aparece descrito con una tasa de rechazo del 6% ante solicitudes maliciosas, pero en la práctica los modelos GPT de EE. UU. también ya pueden ser abusados sin restricciones. Creo que este informe no es una evaluación de NIST ni una crítica de seguridad, sino simplemente material de propaganda estadounidense.

La evaluación de DeepSeek por parte de NIST es un ataque político disfrazado de ciencia

La verdadera naturaleza del informe de evaluación de DeepSeek de NIST

Los verdaderos logros de DeepSeek

La estrategia central de engaño de NIST

Lo que NIST realmente encontró

Las comparaciones que NIST no hizo

Lo que el informe realmente está diciendo

La amenaza real (pista: no es contra ti)

La hipocresía

Traición al open source y a la ciencia abierta

Una prueba que puedes hacer tú mismo

De qué sí deberías preocuparte

Lo que esto significa para el futuro de la IA

La opinión del autor

Conclusión

Lecturas relacionadas

1 comentarios

Opinión de Hacker News