- Es un modelo de codificación orientado a agentes para manejar tareas de codificación de largo plazo y flujos de trabajo complejos de ingeniería de software, y mejora la capacidad de completar tareas de extremo a extremo y la eficiencia en el uso de tokens sobre la base de Kimi K2.6
- Frente a Kimi K2.6, reduce en alrededor de 30% el uso de tokens de razonamiento, mientras que Kimi Code Bench v2 sube de 50.9 a 62.0 y MCP Mark Verified de 72.8 a 81.1
- La arquitectura del modelo está basada en MoE y cuenta con 1T de parámetros totales, 32B de parámetros activos, longitud de contexto de 256K y codificador visual MoonViT
- El despliegue está dirigido a la API oficial y a vLLM, SGLang y KTransformers, y como tiene la misma arquitectura que Kimi-K2.5/Kimi-K2.6, se puede reutilizar el método de despliegue existente
- Al usarlo, el modo Thinking y preserve_thinking se fuerzan obligatoriamente; admite entrada de imágenes y la entrada de video por ahora solo está disponible de forma experimental en la API oficial
Descripción general del modelo
- Kimi K2.7-Code es un modelo agente centrado en codificación basado en Kimi K2.6, con mejoras en tareas realistas de codificación de largo plazo
- Refuerza la capacidad de completar tareas de extremo a extremo a lo largo de flujos de trabajo complejos de ingeniería de software
- En comparación con Kimi K2.6, reduce el uso de tokens de razonamiento en alrededor de 30%, mejorando la eficiencia de tokens
- Se ofrece con etiquetas como image-text input, Transformers, Safetensors, conversational y custom_code
Resumen del modelo
- La arquitectura es Mixture-of-Experts (MoE), con 1T de parámetros totales y 32B de parámetros activos
- Tiene 61 capas en total, incluyendo capas Dense, y 1 capa Dense
- La Attention Hidden Dimension es 7168, y la MoE Hidden Dimension es 2048 por experto
- Tiene 64 Attention Heads, 384 expertos, 8 expertos seleccionados por token y 1 Shared Expert
- El vocabulario es de 160K y la longitud de contexto es de 256K
- El mecanismo de attention es MLA y la función de activación es SwiGLU
- El codificador visual es MoonViT y el codificador visual tiene 400M de parámetros
Resultados de evaluación
-
Benchmarks de codificación
- En Kimi Code Bench v2, Kimi K2.6 registra 50.9, Kimi K2.7 Code 62.0, GPT-5.5 69.0 y Claude Opus 4.8 67.4
- En Program Bench, Kimi K2.6 registra 48.3, Kimi K2.7 Code 53.6, GPT-5.5 69.1 y Claude Opus 4.8 63.8
- En MLS Bench Lite, Kimi K2.6 registra 26.7, Kimi K2.7 Code 35.1, GPT-5.5 35.5 y Claude Opus 4.8 42.8
-
Benchmarks de agentes
- En Kimi Claw 24/7 Bench, Kimi K2.6 registra 42.9, Kimi K2.7 Code 46.9, GPT-5.5 52.8 y Claude Opus 4.8 50.4
- En MCP Atlas, Kimi K2.6 registra 69.4, Kimi K2.7 Code 76.0, GPT-5.5 79.4 y Claude Opus 4.8 81.3
- En MCP Mark Verified, Kimi K2.6 registra 72.8, Kimi K2.7 Code 81.1, GPT-5.5 92.9 y Claude Opus 4.8 76.4
-
Condiciones de evaluación
- A menos que se indique lo contrario, Kimi K2.7 Code y K2.6 se probaron en Kimi Code CLI con el modo Thinking activado, temperature 1.0, top-p 0.95 y longitud de contexto de 262,144 tokens
- GPT-5.5 se ejecutó en modo xhigh de Codex, y Opus 4.8 en modo xhigh de Claude Code
- Salvo esas diferencias, todos los benchmarks se evaluaron en las mismas condiciones
-
Composición de los benchmarks
- Kimi Code Bench V2 es un benchmark interno que evalúa agentes de codificación en tareas realistas y cubre más de 10 lenguajes de programación principales y todo el stack tecnológico de producción
- Kimi Code Bench V2 incluye casos de uso internos de ingeniería, incidentes de producción y tareas de proyectos open source reales
- Program Bench exige reproducir el comportamiento de programas usando solo binarios compilados y documentación, y utiliza 200 tareas y más de 248,000 pruebas de comportamiento generadas por fuzzing
- MLS-Bench evalúa si los sistemas de IA pueden crear métodos de ML generalizables y escalables, y MLS-Bench-Lite es un subconjunto oficial de 30 tareas
- Kimi Claw 24/7 Bench es un benchmark interno que evalúa el rendimiento de agentes de largo plazo en colaboración continua de varios días, y cubre 17 escenarios profesionales y 610 puntos de evaluación
- MCP-Atlas evalúa el desempeño de los LLM en tareas realistas de uso de herramientas mediante MCP escalable
- MCPMark-Verified es la versión verificada por humanos de MCPMark y evalúa el uso de herramientas MCP en 5 entornos reales de servidor, incluidos Notion, GitHub, Filesystem, Postgres y Playwright
Cuantización Native INT4
- Kimi-K2.7-Code adopta el mismo método de cuantización native int4 que Kimi-K2-Thinking
Despliegue
- La API de Kimi-K2.7-Code está disponible en https://platform.moonshot.ai
- La API oficial ofrece una API compatible con OpenAI/Anthropic
- Los motores de inferencia recomendados son vLLM, SGLang y KTransformers
- Kimi-K2.7-Code tiene la misma arquitectura que Kimi-K2.5/Kimi-K2.6, por lo que se puede reutilizar directamente el método de despliegue
- El requisito de versión de
transformerses>=4.57.1, <5.0.0 - Los ejemplos de despliegue pueden verse en la Model Deployment Guide
Cómo usarlo
-
Condiciones básicas para llamadas API
- La demo de uso se basa en el método de llamada de la API oficial
- Kimi-K2.7-Code fuerza Thinking y
preserve_thinkingen True - En APIs de terceros desplegadas con vLLM o SGLang, el chat con contenido de video es una función experimental que por ahora solo está disponible en la API oficial
- La
temperaturerecomendada para el modo Thinking es1.0y eltop_precomendado es0.95 - El modo Instant no está soportado
-
Chat Completion
- El ejemplo de Chat Completion llama a la API de K2.7-Code en modo Thinking
- El código de ejemplo usa el cliente
openaipara llamar aclient.chat.completions.createy establecemax_tokens=4096 - En la respuesta, imprime
response.choices[0].message.reasoningyresponse.choices[0].message.content
-
Entrada de contenido visual
- K2.7-Code soporta entrada de imágenes y video
- El ejemplo de entrada de imagen codifica la imagen en base64 y la pasa a
image_url, generando la respuesta conmax_tokens=8192 - El ejemplo de entrada de video codifica un archivo mp4 en base64 y lo pasa a
video_url - El chat con video es por ahora una función experimental disponible solo en la API oficial
-
Preserve Thinking
- Kimi K2.7 Code fuerza el modo
preserve_thinkingy conserva todo el contenido de reasoning en interacciones de múltiples turnos preserve_thinkingmejora el rendimiento en escenarios de agentes de codificación- Esta función está activada por defecto y no se puede desactivar
- Algunas APIs podrían no soportar
reasoning_content, por lo que se puede intentar conreasoning
- Kimi K2.7 Code fuerza el modo
-
Interleaved Thinking y llamadas de herramientas en múltiples pasos
- K2.7-Code comparte el diseño de Interleaved Thinking y Multi-Step Tool Call con K2 Thinking
- Para ejemplos de uso, consulta la documentación de K2 Thinking
-
Framework de agente de codificación
- Kimi K2.7-Code funciona mejor cuando se usa con Kimi Code CLI como framework de agentes
- Kimi Code CLI está disponible en https://www.kimi.com/code
Ejemplos de ejecución local
-
Transformers
- En Transformers se puede crear un pipeline de alto nivel con
pipeline("image-text-to-text", model="moonshotai/Kimi-K2.7-Code", trust_remote_code=True) - La carga directa del modelo es posible con
AutoModel.from_pretrained("moonshotai/Kimi-K2.7-Code", trust_remote_code=True, dtype="auto")
- En Transformers se puede crear un pipeline de alto nivel con
-
vLLM
- vLLM se instala con
pip install vllmy el servidor se inicia convllm serve "moonshotai/Kimi-K2.7-Code" - El ejemplo de llamada usa el endpoint de API compatible con OpenAI
http://localhost:8000/v1/chat/completions - En Docker Model Runner se ejecuta con
docker model run hf.co/moonshotai/Kimi-K2.7-Code
- vLLM se instala con
-
SGLang
- SGLang se instala con
pip install sglangy el servidor se inicia conpython3 -m sglang.launch_server --model-path "moonshotai/Kimi-K2.7-Code" - El ejemplo de llamada usa el endpoint de API compatible con OpenAI
http://localhost:30000/v1/chat/completions - El ejemplo de ejecución con Docker configura GPU, memoria compartida, caché de Hugging Face y la variable de entorno
HF_TOKEN
- SGLang se instala con
Licencia
- El repositorio de código y los pesos del modelo se distribuyen bajo la Modified MIT License
1 comentarios
Comentarios en Hacker News
Me dio risa leer la cláusula de licencia modificada. Básicamente es una licencia MIT con una cláusula de publicidad de las viejas BSD añadida, y más que nada parece una petición de que les den “publicidad” si se usa en un producto, sin importar los usuarios activos mensuales o los ingresos
La verdad, suena como una petición razonable
Le di a Kimi K2.7-code instrucciones bastante simples para hacer rebase del parche Fil-C de OpenSSL de 3.3.1 a 3.5.7, y parece que salió bien
El parche pesaba 177 KB, así que no era un cambio pequeño, y al principio no aplicaba limpio, así que el agente tuvo que hacer un trabajo bastante sustancial
Solo le di el parche para 3.3.1, el comando de compilación, la ruta de 3.5.7 y el enlace a la documentación de cambios (https://fil-c.org/constant_time_crypto)
Eso sí, usé T800, mi propio agente de código; no es público, y ya lo había probado y afinado bastante antes para K2.5
Creo que el costo de la API quedó entre $5 y $10. Corrección: era OpenSSL, no OpenSSH
Personalmente, cuando uso código abierto o routers, pasando cierto nivel ya no siento una gran diferencia entre modelos. La excepción serían modelos caros y medio ambiguos como Gemini
En ese sentido, los modelos chinos están bastante bien. Normalmente los uso haciendo que escriban código por función o método, y luego diseño y ensamblo
La línea GPT sí es más cuidadosa y mejor, pero no sé si la diferencia sea enorme. Dependerá del flujo de trabajo, pero si los manejas con suficiente rigor, me pregunto si de verdad hay tanta diferencia
Convertir una MacBook M1 Pro en almohadilla térmica mientras corría Qwen 3.6 35B A3B MTP fue relativamente exitoso
Cuando intenté usar modelos Gemini como si fueran “locales”, apareció un problema parecido: cortan demasiado el esfuerzo, cometen muchos errores y aumentan los turnos
En cambio, viendo que Fable insiste tanto en ser “proactivo”, parece que con una marca fuerte y cobro efectivo también se puede ir en la dirección opuesta
Si ya tienes un diseño consistente, que es la parte difícil, puedes meterlo en un modelo bastante pequeño y obtener casi la misma calidad
No lo completa de una sola vez, pero es más rápido y más barato, así que al final termina jugando a favor. Además, también puede hacerse en local
Por eso hay que hacer explícitamente que las pruebas comentadas rompan la compilación. Personalmente no me pasó eso con modelos de Anthropic u OpenAI
Es parecido a cuando antes se hablaba de “autos japoneses”; hoy casi ya no significa mucho, y simplemente se dice Toyota, Honda o Lexus
Si alguien ha usado
opencode+ Kimi K2.6/2.7 comparándolo con Claude Code, de verdad me da mucha curiosidad. Quisiera saber qué es mejor o peor y cómo queda la comparación de costosAhora mismo pago $100 por el plan 5x Max, pero Fable consume el límite de uso bastante rápido, y tampoco diría que la diferencia frente a Opus sea como de la noche al día
Como lo uso sobre todo para proyectos personales, una factura de $100 también se siente bastante pesada, y no quiero pagar más
Claude Code sí es mejor. Pero lo importante es que opencode + Kimi 2.6 también es bastante usable
Si sabes exactamente qué quieres y solo le pides escribir código simple, la mayoría de los modelos populares como DeepSeek o Kimi rinden bien y no se sienten tan distintos de los modelos de Anthropic
En cambio, Opus entiende muchísimo mejor la intención que DeepSeek. Cuando usas DeepSeek, tienes que escribir prompts mucho más precisos, y si los haces vagos, seguido se va por direcciones raras
Kimi está en un punto intermedio. Recupera hasta cierto punto ese flujo de “prompt relajado”, y su planificación inspira más confianza que la de DeepSeek
Es posible tener un flujo de trabajo parecido al de Claude Code, pero en general es un poco peor en todo. La longitud de contexto, la cantidad de errores, la toma de decisiones, las recomendaciones y la capacidad de depuración quedan un poco por debajo
En términos de uso, el plan de $100 de Claude en realidad tiene muy buena relación costo-beneficio. Por precio por token, Kimi es mucho más barato, pero la suscripción de Claude parece estar bastante subsidiada, así que por $100 recibes muchos más tokens de los que podrías comprar vía API
Al final, con patrones de uso parecidos, el costo de opencode + Kimi y Claude Code puede terminar siendo similar
DeepSeek es más barato y los tokens en caché son ridículamente económicos, pero si vienes de Claude Code quizá tengas que ajustar tu forma de trabajar según tus hábitos
Para proyectos personales, me parece bastante práctica una combinación de plan Opencode Go de $10 más $10 en créditos de DeepSeek v4 en un servicio como OpenRouter
Kimi se siente más como un desarrollador en entrevista, así que es más divertido. Ver cómo razona el problema se parece a cómo yo explico las cosas en una sesión de pizarrón. Da risa que diga “wait” demasiado seguido
Claude se parece más a un empleado ya contratado o incluso a un equipo de empleados. No arranca con explicaciones largas; solo pregunta cuando hace falta y luego entrega un informe o plan integral
Creo que OpenCode es un mejor harness. En costos no puedo comparar directamente porque nunca corrí exactamente el mismo prompt en ambos lados
Hace poco hice que Kimi creara un wrapper de
libpqpara el lenguaje de programación ZenC(https://github.com/nobleach/zenc-postgres), tardó como una hora y costó unos $4ohmypi, pero también puedes usar OpenCode o seguir con Claude CodeDeepSeek-V4-Pro es bastante bueno, y para tareas o actividades pequeñas que le encargarías a Haiku o Sonnet, puedes usar DS4-Flash. Solo tienes que entrar con un prepago de $10
OpenCode Go cuesta $5 al mes y puedes usar Qwen-3.7-Max para diseño, planificación, arquitectura y resolución de problemas difíciles. Se siente más cercano a Opus 3.6 o 3.7 que a DeepSeek, y fue lo más parecido que encontré
OpenAI Codex, con el plan de $20 al mes, te permite usar GPT-5.5 por API para diseño, planificación, arquitectura, resolución de problemas y redacción de commits. Si el problema es realmente difícil, también puedes pagar $100 y pegarlo en el chat de GPT-5.5-Pro
Xiaomi MiMo-2.5-Pro te da 72 centavos en créditos gratis si consigues de un amigo un código de recomendación de $2. Cuesta lo mismo que DeepSeek y es bastante capaz, en algún punto entre Sonnet y Opus. También vale la pena solicitar la beta de UltraSpeed
En OpenCode u
ohmypipuedes ir cambiando estos modelos sobre la marcha hasta encontrar el que mejor te funcione. Yo uso CodexBar para ver el consumo casi en tiempo realPara usuarios ligeros o gente nueva en programación, el plan de $20 de Cursor es una buena forma de empezar con Composer-2.5 y Composer-2.5-Fast. También incluye cuota de API, así que además de Cursor mismo puedes acceder a Opus-4.x o GPT-5.5-Pro desde OpenCode u
ohmypiSi usas Grok o Twitter, SuperGrok por $30 al mes tiene un buen modelo de visión, y lo he usado para pruebas automáticas de frontend. Aunque ahora me estoy cambiando a Qwen-3-VL local en una Mac común. Si eres menos técnico, unreach te facilita alojar modelos locales en Mac
Si tienes una GPU potente como una RTX 5090, también vale la pena probar Qwen-3.6 en local. Con
ollamaollama-swapes relativamente fácilTodavía no he probado el nuevo Kimi, pero opero un equipo con 3 desarrolladores profesionales, 1 diseñador gráfico que usa mucho Midjourney y Grok Imagine, y 1 usuario no técnico que usa
ohmypipara levantar requisitos y dar seguimiento a la implementación, y mantengo el costo por empleado por debajo de $200 al mesCon un poco más de esfuerzo, probablemente podría acercarlo a $75 por empleado al mes
La única función que no funciona es webfetch y la búsqueda web, pero lo reemplacé desviando al agente con ddg MCP y un pre-hook de obtención/búsqueda web
La memoria, el caché y lo demás funcionan bien
Qwen, para planificación, se parece a Opus, aunque Fable claramente es mejor
Para programar, si Opus escribe el plan, los resultados de Kimi y DeepSeek son casi indistinguibles de los de Opus
La diferencia más grande está en el ritmo de salida. Por ejemplo, Kimi piensa durante mucho tiempo y luego saca mucho texto rápidamente
Ahora mismo estoy probando Fable para investigación y planificación, y DeepSeek v4 flash para programación. Los resultados se parecen a Opus + DeepSeek v4 pro, y el costo total parece menor
Está bien y maneja bien la mayoría de las tareas que le lanzas, pero falla en tareas cognitivamente complejas. Se atasca con frecuencia. Aun así, cuesta alrededor de $6 al mes.
Hay un punto de inflexión en el que deja de importar cuál es el modelo “mejor”, y creo que no estamos lejos de eso. Fable está realmente muy bien ahora, pero si dentro de un año Kimi lo alcanza, aunque Fable6 sea mucho mejor, si cuesta 1/10 probablemente usaría Kimi
Antes, al ver Opus 4.5, pensé: “si ya es así de bueno, en 6~12 meses los modelos chinos van a ser igual de buenos y baratos, así que usaré esos”, pero me equivoqué. Incluso ahora sigo pagando el premium por Opus 4.7/8 y Fable
Aun así, en algún momento simplemente llegarán al nivel de hacer lo que uno quiere, y desde ahí empezará la competencia por bajar precios
Ahora que las empresas chinas ya pueden acceder a tokens de Fable muy buenos, espero que esa competencia se acelere
Por eso, aunque el precio por token sea más alto, un mejor modelo puede terminar siendo más barato en la práctica
Si Opus es 5 veces más caro que Kimi K2.6 u otros modelos chinos y apenas es un poco mejor, me preguntaba cómo empresas como Anthropic logran seguir siendo competitivas
Mi hipótesis es que las empresas estadounidenses no pueden enviar sus datos al lado chino, y eso se entiende. Pero ¿eso realmente será un “foso” defensivo?
Lo digo como alguien que usa bastante seguido los modelos de Kimi y en general le gustan
En benchmarks como DeepSWE, que todavía no están gamificados, Kimi K2.6 queda bastante por detrás de Claude Sonnet 4.6($3/$15), y también un poco por detrás de GPT 5.4 Mini($0.75/$4.50)
No hay duda de que los modelos de Kimi son muy buenos en muchas tareas de programación, y tienen la mejor calidad entre los modelos de pesos abiertos
Pero para obtener resultados generales similares a Sonnet/Opus, en promedio hay que usar muchos más tokens y gestionar más el modelo
No hay que mirar cuánto cuesta por token, sino cuánto pagas por todo el proceso
Además, cuando se gasta bastante dinero, hay suficientes actores racionales que corren evaluaciones, así que es posible que “un poco mejor” no sea solo una sensación
Igual, las suites de evaluación que yo mismo puedo ver son solo una parte. También podría ser que todos sean irracionales y Anthropic se aproveche de eso
Kimi y otros modelos open source pueden sacar buenos puntajes en cosas como SWE-bench, pero cuando los usas de verdad se siente la diferencia
Curiosamente, todos dicen que la suscripción de Claude está subsidiada basándose en el precio del API, pero nadie conoce el costo real de inferencia de Claude, y los proveedores chinos también pueden ofrecer inferencia barata. Entonces me pregunto por qué piensan que Claude no podría hacerlo
También puede haber otros acuerdos de precios de API no públicos para clientes empresariales. Tal vez lo único que vemos son precios de lista altos
En esas tareas, la diferencia es abismal
Después de probarlo bien, sí parece una mejora bastante decente. Solo con usar menos tokens para la misma tarea ya es razón suficiente para usarlo en vez de K2.6 cuando se necesita un modelo abierto
Si un modelo nuevo no es claramente 20~30% mejor que DeepSeek v4, pero cuesta más por token que DeepSeek, creo que casi automáticamente termina relegado a un modelo de poco uso. Quizás sirva para planificación
Aún no estoy muy familiarizado con los modelos open-weight/open-source. Si alguien los usa de tiempo completo, me gustaría escuchar sobre la configuración y el rendimiento. Estoy considerando mover a la organización fuera de los productos de Anthropic
En calidad de modelo no hay una gran diferencia, pero la diferencia de costo es ridícula. Al menos así es en la forma en que yo uso agentes.
Ayer, por ejemplo, estaba desarrollando un pequeño DSL para buscar documentación técnica compleja y quise probar Fable para agregar un operador pequeño.
Fable quemó $13 y sí produjo una solución, pero objetivamente no fue mejor que lo que DeepSeek v4 hizo por $1.7 en la misma tarea.
Eso sí, yo les asigno trabajo fragmentado a los agentes. En el caso del DSL, yo diseñé los operadores y le hice implementar cada uno por separado al agente.
Si hubiera empezado con un documento complejo y le hubiera pedido diseñar todo de punta a punta, tal vez Fable habría brillado.
Pero cada vez que le doy tareas de mayor alcance a un agente, termina quemando millones de tokens y generando código dudoso, así que al final yo igual tuve que invertir tiempo en entenderlo
Por ejemplo, si miras un archivo como https://github.com/gitsense/gsc-cli/blob/main/internal/cli/r..., dejé indicado qué modelo usé.
4.7 no era particularmente bueno con código
go, y por eso empezó a aparecerGemini 3 Flashen la atribución.4.7 es un modelo ofrecido por Cerebras, y para mí la velocidad de iteración importa muchísimo más.
Después de probar MiMo v2.5.0-Pro, estoy convencido de que habría podido hacer el 100% de lo que hizo Gemini 3 Flash.
Unas cuantas veces tuve que pedirle explicaciones a Sonnet cuando me atoré, pero el sucio secreto que Anthropic y OpenAI no te van a decir es que, si sabes programar, honestamente los modelos ya son lo suficientemente buenos.
Por mi experiencia con MiMo y lo que otras personas dicen de GLM 5.1, creo que ya entramos en una competencia de hardware.
Para alguien que sabe programar y quiere amplificar con IA lo que ya sabe, los modelos chinos son un reemplazo del 100% para Claude.
Ahora la cuestión será qué proveedor ofrece la inferencia más rápida.
MiMo-v2.5.0-Pro-Ultraspeed genera buenos resultados rápido y también quema dinero rápido
La principal excepción son los modelos de alrededor de 30B parámetros, que todavía se pueden correr en GPUs de consumo.
Aun así, las GPUs de consumo también se han ido encareciendo cada vez más en los últimos años, así que ya cuesta justificarlo
También sigo probando GPT y es bastante sólido. Es muy rápido y muy bueno depurando. Pero el código a menudo es demasiado listo y me da dolor de cabeza.
Tal vez se pueda corregir con prompts. Ayudó un poco con los modelos chinos. Como en la vieja época de la IA de imágenes, basta con decirle que lo haga elegante, tipo “+good -bad”.
Por ahora sigue siendo necesario que una persona pueda entender el código, y el único que satisface ese requisito de forma consistente es Claude.
Aun así, ojalá algún día uno de los laboratorios chinos descubra una receta especial.
Para cambios pequeños, DeepSeek Flash es buenísimo. Se siente como tener IA prácticamente ilimitada pegada al instante, y eso está genial
Lo corro en una MacBook Pro M4 Max con 128GB de memoria.
Normalmente lo ejecuto como servidor, y desde mi máquina de trabajo me conecto por Tailscale para usar el agente de programación Pi.
Es un salto enorme frente a cuando usaba modelos Qwen, pero no tiene capacidades de visión, así que cuando necesito visión sigo corriendo esos modelos.
Antes usaba GLM 4.7 flash como mi caballo de batalla para programación, pero para todo lo que no sea visión ya me cambié por completo a DeepSeek
Me da curiosidad si alguien ha intentado eliminar los elementos del PCCh de los modelos open-weight chinos. No lo digo con sarcasmo; me refiero a si alguien los ha auditado a fondo con técnicas como inspección de robustez de pesos o activación de conceptos.
Por ejemplo, si el PCCh realmente hubiera intentado sembrar comportamientos dependientes del contexto, ver cómo responde ante entradas que podrían detonar conductas engañosas o maliciosas.
No sé si cosas como la sospecha de que generan código vulnerable cuando se usan en aplicaciones del gobierno de EE. UU. realmente se hayan demostrado.
En una época de competencia geopolítica fuerte, esta clase de preguntas no es irracional. Aplica sin importar en qué país vivas
Es una consultora alemana, y una vez vi una presentación suya sobre ajustar modelos DeepSeek y quitarles sesgos. Estuvo bastante interesante.
https://www.tngtech.com/en/about-us/news/release-of-deepseek...
Lo que habría que preocupar no es solo el código, sino también otras cosas como posible mensajería implícita
https://github.com/p-e-w/heretic