1 puntos por GN⁺ 4 시간 전 | 1 comentarios | Compartir por WhatsApp
  • Es un modelo de codificación orientado a agentes para manejar tareas de codificación de largo plazo y flujos de trabajo complejos de ingeniería de software, y mejora la capacidad de completar tareas de extremo a extremo y la eficiencia en el uso de tokens sobre la base de Kimi K2.6
  • Frente a Kimi K2.6, reduce en alrededor de 30% el uso de tokens de razonamiento, mientras que Kimi Code Bench v2 sube de 50.9 a 62.0 y MCP Mark Verified de 72.8 a 81.1
  • La arquitectura del modelo está basada en MoE y cuenta con 1T de parámetros totales, 32B de parámetros activos, longitud de contexto de 256K y codificador visual MoonViT
  • El despliegue está dirigido a la API oficial y a vLLM, SGLang y KTransformers, y como tiene la misma arquitectura que Kimi-K2.5/Kimi-K2.6, se puede reutilizar el método de despliegue existente
  • Al usarlo, el modo Thinking y preserve_thinking se fuerzan obligatoriamente; admite entrada de imágenes y la entrada de video por ahora solo está disponible de forma experimental en la API oficial

Descripción general del modelo

  • Kimi K2.7-Code es un modelo agente centrado en codificación basado en Kimi K2.6, con mejoras en tareas realistas de codificación de largo plazo
  • Refuerza la capacidad de completar tareas de extremo a extremo a lo largo de flujos de trabajo complejos de ingeniería de software
  • En comparación con Kimi K2.6, reduce el uso de tokens de razonamiento en alrededor de 30%, mejorando la eficiencia de tokens
  • Se ofrece con etiquetas como image-text input, Transformers, Safetensors, conversational y custom_code

Resumen del modelo

  • La arquitectura es Mixture-of-Experts (MoE), con 1T de parámetros totales y 32B de parámetros activos
  • Tiene 61 capas en total, incluyendo capas Dense, y 1 capa Dense
  • La Attention Hidden Dimension es 7168, y la MoE Hidden Dimension es 2048 por experto
  • Tiene 64 Attention Heads, 384 expertos, 8 expertos seleccionados por token y 1 Shared Expert
  • El vocabulario es de 160K y la longitud de contexto es de 256K
  • El mecanismo de attention es MLA y la función de activación es SwiGLU
  • El codificador visual es MoonViT y el codificador visual tiene 400M de parámetros

Resultados de evaluación

  • Benchmarks de codificación

    • En Kimi Code Bench v2, Kimi K2.6 registra 50.9, Kimi K2.7 Code 62.0, GPT-5.5 69.0 y Claude Opus 4.8 67.4
    • En Program Bench, Kimi K2.6 registra 48.3, Kimi K2.7 Code 53.6, GPT-5.5 69.1 y Claude Opus 4.8 63.8
    • En MLS Bench Lite, Kimi K2.6 registra 26.7, Kimi K2.7 Code 35.1, GPT-5.5 35.5 y Claude Opus 4.8 42.8
  • Benchmarks de agentes

    • En Kimi Claw 24/7 Bench, Kimi K2.6 registra 42.9, Kimi K2.7 Code 46.9, GPT-5.5 52.8 y Claude Opus 4.8 50.4
    • En MCP Atlas, Kimi K2.6 registra 69.4, Kimi K2.7 Code 76.0, GPT-5.5 79.4 y Claude Opus 4.8 81.3
    • En MCP Mark Verified, Kimi K2.6 registra 72.8, Kimi K2.7 Code 81.1, GPT-5.5 92.9 y Claude Opus 4.8 76.4
  • Condiciones de evaluación

    • A menos que se indique lo contrario, Kimi K2.7 Code y K2.6 se probaron en Kimi Code CLI con el modo Thinking activado, temperature 1.0, top-p 0.95 y longitud de contexto de 262,144 tokens
    • GPT-5.5 se ejecutó en modo xhigh de Codex, y Opus 4.8 en modo xhigh de Claude Code
    • Salvo esas diferencias, todos los benchmarks se evaluaron en las mismas condiciones
  • Composición de los benchmarks

    • Kimi Code Bench V2 es un benchmark interno que evalúa agentes de codificación en tareas realistas y cubre más de 10 lenguajes de programación principales y todo el stack tecnológico de producción
    • Kimi Code Bench V2 incluye casos de uso internos de ingeniería, incidentes de producción y tareas de proyectos open source reales
    • Program Bench exige reproducir el comportamiento de programas usando solo binarios compilados y documentación, y utiliza 200 tareas y más de 248,000 pruebas de comportamiento generadas por fuzzing
    • MLS-Bench evalúa si los sistemas de IA pueden crear métodos de ML generalizables y escalables, y MLS-Bench-Lite es un subconjunto oficial de 30 tareas
    • Kimi Claw 24/7 Bench es un benchmark interno que evalúa el rendimiento de agentes de largo plazo en colaboración continua de varios días, y cubre 17 escenarios profesionales y 610 puntos de evaluación
    • MCP-Atlas evalúa el desempeño de los LLM en tareas realistas de uso de herramientas mediante MCP escalable
    • MCPMark-Verified es la versión verificada por humanos de MCPMark y evalúa el uso de herramientas MCP en 5 entornos reales de servidor, incluidos Notion, GitHub, Filesystem, Postgres y Playwright

Cuantización Native INT4

  • Kimi-K2.7-Code adopta el mismo método de cuantización native int4 que Kimi-K2-Thinking

Despliegue

  • La API de Kimi-K2.7-Code está disponible en https://platform.moonshot.ai
  • La API oficial ofrece una API compatible con OpenAI/Anthropic
  • Los motores de inferencia recomendados son vLLM, SGLang y KTransformers
  • Kimi-K2.7-Code tiene la misma arquitectura que Kimi-K2.5/Kimi-K2.6, por lo que se puede reutilizar directamente el método de despliegue
  • El requisito de versión de transformers es >=4.57.1, <5.0.0
  • Los ejemplos de despliegue pueden verse en la Model Deployment Guide

Cómo usarlo

  • Condiciones básicas para llamadas API

    • La demo de uso se basa en el método de llamada de la API oficial
    • Kimi-K2.7-Code fuerza Thinking y preserve_thinking en True
    • En APIs de terceros desplegadas con vLLM o SGLang, el chat con contenido de video es una función experimental que por ahora solo está disponible en la API oficial
    • La temperature recomendada para el modo Thinking es 1.0 y el top_p recomendado es 0.95
    • El modo Instant no está soportado
  • Chat Completion

    • El ejemplo de Chat Completion llama a la API de K2.7-Code en modo Thinking
    • El código de ejemplo usa el cliente openai para llamar a client.chat.completions.create y establece max_tokens=4096
    • En la respuesta, imprime response.choices[0].message.reasoning y response.choices[0].message.content
  • Entrada de contenido visual

    • K2.7-Code soporta entrada de imágenes y video
    • El ejemplo de entrada de imagen codifica la imagen en base64 y la pasa a image_url, generando la respuesta con max_tokens=8192
    • El ejemplo de entrada de video codifica un archivo mp4 en base64 y lo pasa a video_url
    • El chat con video es por ahora una función experimental disponible solo en la API oficial
  • Preserve Thinking

    • Kimi K2.7 Code fuerza el modo preserve_thinking y conserva todo el contenido de reasoning en interacciones de múltiples turnos
    • preserve_thinking mejora el rendimiento en escenarios de agentes de codificación
    • Esta función está activada por defecto y no se puede desactivar
    • Algunas APIs podrían no soportar reasoning_content, por lo que se puede intentar con reasoning
  • Interleaved Thinking y llamadas de herramientas en múltiples pasos

    • K2.7-Code comparte el diseño de Interleaved Thinking y Multi-Step Tool Call con K2 Thinking
    • Para ejemplos de uso, consulta la documentación de K2 Thinking
  • Framework de agente de codificación

    • Kimi K2.7-Code funciona mejor cuando se usa con Kimi Code CLI como framework de agentes
    • Kimi Code CLI está disponible en https://www.kimi.com/code

Ejemplos de ejecución local

  • Transformers

    • En Transformers se puede crear un pipeline de alto nivel con pipeline("image-text-to-text", model="moonshotai/Kimi-K2.7-Code", trust_remote_code=True)
    • La carga directa del modelo es posible con AutoModel.from_pretrained("moonshotai/Kimi-K2.7-Code", trust_remote_code=True, dtype="auto")
  • vLLM

    • vLLM se instala con pip install vllm y el servidor se inicia con vllm serve "moonshotai/Kimi-K2.7-Code"
    • El ejemplo de llamada usa el endpoint de API compatible con OpenAI http://localhost:8000/v1/chat/completions
    • En Docker Model Runner se ejecuta con docker model run hf.co/moonshotai/Kimi-K2.7-Code
  • SGLang

    • SGLang se instala con pip install sglang y el servidor se inicia con python3 -m sglang.launch_server --model-path "moonshotai/Kimi-K2.7-Code"
    • El ejemplo de llamada usa el endpoint de API compatible con OpenAI http://localhost:30000/v1/chat/completions
    • El ejemplo de ejecución con Docker configura GPU, memoria compartida, caché de Hugging Face y la variable de entorno HF_TOKEN

Licencia

1 comentarios

 
GN⁺ 4 시간 전
Comentarios en Hacker News
  • Me dio risa leer la cláusula de licencia modificada. Básicamente es una licencia MIT con una cláusula de publicidad de las viejas BSD añadida, y más que nada parece una petición de que les den “publicidad” si se usa en un producto, sin importar los usuarios activos mensuales o los ingresos
    La verdad, suena como una petición razonable

    • Esto parece una cláusula dirigida a Cursor. Como diciendo que no los hagan quedar mal al obligarlos a revelarlo públicamente
    • La cláusula de “publicidad” aquí parece ser solo revelar en alguna parte del producto que lo usaron. Por ejemplo, ponerlo en los créditos de la sección “About”
    • Se siente añadido a las apuradas. Pensé que habrían afinado más el lenguaje legal sobre qué incluye la “interfaz de usuario”
  • Le di a Kimi K2.7-code instrucciones bastante simples para hacer rebase del parche Fil-C de OpenSSL de 3.3.1 a 3.5.7, y parece que salió bien
    El parche pesaba 177 KB, así que no era un cambio pequeño, y al principio no aplicaba limpio, así que el agente tuvo que hacer un trabajo bastante sustancial
    Solo le di el parche para 3.3.1, el comando de compilación, la ruta de 3.5.7 y el enlace a la documentación de cambios (https://fil-c.org/constant_time_crypto)
    Eso sí, usé T800, mi propio agente de código; no es público, y ya lo había probado y afinado bastante antes para K2.5
    Creo que el costo de la API quedó entre $5 y $10. Corrección: era OpenSSL, no OpenSSH

  • Personalmente, cuando uso código abierto o routers, pasando cierto nivel ya no siento una gran diferencia entre modelos. La excepción serían modelos caros y medio ambiguos como Gemini
    En ese sentido, los modelos chinos están bastante bien. Normalmente los uso haciendo que escriban código por función o método, y luego diseño y ensamblo
    La línea GPT sí es más cuidadosa y mejor, pero no sé si la diferencia sea enorme. Dependerá del flujo de trabajo, pero si los manejas con suficiente rigor, me pregunto si de verdad hay tanta diferencia

    • Más o menos me rendí con los routers de inferencia “gratis”. Como era de esperar, al intentar ahorrar inferencia al máximo, muchas veces baja la calidad del razonamiento
      Convertir una MacBook M1 Pro en almohadilla térmica mientras corría Qwen 3.6 35B A3B MTP fue relativamente exitoso
      Cuando intenté usar modelos Gemini como si fueran “locales”, apareció un problema parecido: cortan demasiado el esfuerzo, cometen muchos errores y aumentan los turnos
      En cambio, viendo que Fable insiste tanto en ser “proactivo”, parece que con una marca fuerte y cobro efectivo también se puede ir en la dirección opuesta
    • En mi experiencia, al implementar funciones individuales casi no hay diferencia entre un modelo de punta y un modelo reciente de clase 30B
      Si ya tienes un diseño consistente, que es la parte difícil, puedes meterlo en un modelo bastante pequeño y obtener casi la misma calidad
      No lo completa de una sola vez, pero es más rápido y más barato, así que al final termina jugando a favor. Además, también puede hacerse en local
    • La diferencia en los resultados no es grande, pero sí es cierto que hay que tratarlos con más rigor. Por ejemplo, Kimi K2.5/K2.6 a veces confundía pruebas fallidas con “fallos preexistentes” y las comentaba, en lugar de corregir el problema que acababa de crear
      Por eso hay que hacer explícitamente que las pruebas comentadas rompan la compilación. Personalmente no me pasó eso con modelos de Anthropic u OpenAI
    • Ojalá dejen de usar la expresión “modelos chinos”. Tiene una connotación negativa
      Es parecido a cuando antes se hablaba de “autos japoneses”; hoy casi ya no significa mucho, y simplemente se dice Toyota, Honda o Lexus
  • Si alguien ha usado opencode + Kimi K2.6/2.7 comparándolo con Claude Code, de verdad me da mucha curiosidad. Quisiera saber qué es mejor o peor y cómo queda la comparación de costos
    Ahora mismo pago $100 por el plan 5x Max, pero Fable consume el límite de uso bastante rápido, y tampoco diría que la diferencia frente a Opus sea como de la noche al día
    Como lo uso sobre todo para proyectos personales, una factura de $100 también se siente bastante pesada, y no quiero pagar más

    • Usaba Claude Code principalmente con Opus, pero me pasé a opencode + Kimi 2.6 para proyectos personales y lo he usado durante varios meses
      Claude Code sí es mejor. Pero lo importante es que opencode + Kimi 2.6 también es bastante usable
      Si sabes exactamente qué quieres y solo le pides escribir código simple, la mayoría de los modelos populares como DeepSeek o Kimi rinden bien y no se sienten tan distintos de los modelos de Anthropic
      En cambio, Opus entiende muchísimo mejor la intención que DeepSeek. Cuando usas DeepSeek, tienes que escribir prompts mucho más precisos, y si los haces vagos, seguido se va por direcciones raras
      Kimi está en un punto intermedio. Recupera hasta cierto punto ese flujo de “prompt relajado”, y su planificación inspira más confianza que la de DeepSeek
      Es posible tener un flujo de trabajo parecido al de Claude Code, pero en general es un poco peor en todo. La longitud de contexto, la cantidad de errores, la toma de decisiones, las recomendaciones y la capacidad de depuración quedan un poco por debajo
      En términos de uso, el plan de $100 de Claude en realidad tiene muy buena relación costo-beneficio. Por precio por token, Kimi es mucho más barato, pero la suscripción de Claude parece estar bastante subsidiada, así que por $100 recibes muchos más tokens de los que podrías comprar vía API
      Al final, con patrones de uso parecidos, el costo de opencode + Kimi y Claude Code puede terminar siendo similar
      DeepSeek es más barato y los tokens en caché son ridículamente económicos, pero si vienes de Claude Code quizá tengas que ajustar tu forma de trabajar según tus hábitos
      Para proyectos personales, me parece bastante práctica una combinación de plan Opencode Go de $10 más $10 en créditos de DeepSeek v4 en un servicio como OpenRouter
    • En el trabajo uso Claude, y en proyectos personales uso Kimi. En la organización tenemos LiteLLM y Kimi 2.5 habilitados, pero casi nunca funcionan bien, así que Claude y GPT son las herramientas principales
      Kimi se siente más como un desarrollador en entrevista, así que es más divertido. Ver cómo razona el problema se parece a cómo yo explico las cosas en una sesión de pizarrón. Da risa que diga “wait” demasiado seguido
      Claude se parece más a un empleado ya contratado o incluso a un equipo de empleados. No arranca con explicaciones largas; solo pregunta cuando hace falta y luego entrega un informe o plan integral
      Creo que OpenCode es un mejor harness. En costos no puedo comparar directamente porque nunca corrí exactamente el mismo prompt en ambos lados
      Hace poco hice que Kimi creara un wrapper de libpq para el lenguaje de programación ZenC(https://github.com/nobleach/zenc-postgres), tardó como una hora y costó unos $4
    • Estoy muy satisfecho con ohmypi, pero también puedes usar OpenCode o seguir con Claude Code
      DeepSeek-V4-Pro es bastante bueno, y para tareas o actividades pequeñas que le encargarías a Haiku o Sonnet, puedes usar DS4-Flash. Solo tienes que entrar con un prepago de $10
      OpenCode Go cuesta $5 al mes y puedes usar Qwen-3.7-Max para diseño, planificación, arquitectura y resolución de problemas difíciles. Se siente más cercano a Opus 3.6 o 3.7 que a DeepSeek, y fue lo más parecido que encontré
      OpenAI Codex, con el plan de $20 al mes, te permite usar GPT-5.5 por API para diseño, planificación, arquitectura, resolución de problemas y redacción de commits. Si el problema es realmente difícil, también puedes pagar $100 y pegarlo en el chat de GPT-5.5-Pro
      Xiaomi MiMo-2.5-Pro te da 72 centavos en créditos gratis si consigues de un amigo un código de recomendación de $2. Cuesta lo mismo que DeepSeek y es bastante capaz, en algún punto entre Sonnet y Opus. También vale la pena solicitar la beta de UltraSpeed
      En OpenCode u ohmypi puedes ir cambiando estos modelos sobre la marcha hasta encontrar el que mejor te funcione. Yo uso CodexBar para ver el consumo casi en tiempo real
      Para usuarios ligeros o gente nueva en programación, el plan de $20 de Cursor es una buena forma de empezar con Composer-2.5 y Composer-2.5-Fast. También incluye cuota de API, así que además de Cursor mismo puedes acceder a Opus-4.x o GPT-5.5-Pro desde OpenCode u ohmypi
      Si usas Grok o Twitter, SuperGrok por $30 al mes tiene un buen modelo de visión, y lo he usado para pruebas automáticas de frontend. Aunque ahora me estoy cambiando a Qwen-3-VL local en una Mac común. Si eres menos técnico, unreach te facilita alojar modelos locales en Mac
      Si tienes una GPU potente como una RTX 5090, también vale la pena probar Qwen-3.6 en local. Con ollama o llama-swap es relativamente fácil
      Todavía no he probado el nuevo Kimi, pero opero un equipo con 3 desarrolladores profesionales, 1 diseñador gráfico que usa mucho Midjourney y Grok Imagine, y 1 usuario no técnico que usa ohmypi para levantar requisitos y dar seguimiento a la implementación, y mantengo el costo por empleado por debajo de $200 al mes
      Con un poco más de esfuerzo, probablemente podría acercarlo a $75 por empleado al mes
    • Estoy usando Claude Code con un proxy de litellm parcheado, openrouter y Qwen 3.7 max/Kimi K2.6/DeepSeek v4 pro conectados
      La única función que no funciona es webfetch y la búsqueda web, pero lo reemplacé desviando al agente con ddg MCP y un pre-hook de obtención/búsqueda web
      La memoria, el caché y lo demás funcionan bien
      Qwen, para planificación, se parece a Opus, aunque Fable claramente es mejor
      Para programar, si Opus escribe el plan, los resultados de Kimi y DeepSeek son casi indistinguibles de los de Opus
      La diferencia más grande está en el ritmo de salida. Por ejemplo, Kimi piensa durante mucho tiempo y luego saca mucho texto rápidamente
      Ahora mismo estoy probando Fable para investigación y planificación, y DeepSeek v4 flash para programación. Los resultados se parecen a Opus + DeepSeek v4 pro, y el costo total parece menor
    • Solo puedo hablar de GLM 5.1, pero para mí está más o menos al nivel de Sonnet 4

Está bien y maneja bien la mayoría de las tareas que le lanzas, pero falla en tareas cognitivamente complejas. Se atasca con frecuencia. Aun así, cuesta alrededor de $6 al mes.

  • Hay un punto de inflexión en el que deja de importar cuál es el modelo “mejor”, y creo que no estamos lejos de eso. Fable está realmente muy bien ahora, pero si dentro de un año Kimi lo alcanza, aunque Fable6 sea mucho mejor, si cuesta 1/10 probablemente usaría Kimi
    Antes, al ver Opus 4.5, pensé: “si ya es así de bueno, en 6~12 meses los modelos chinos van a ser igual de buenos y baratos, así que usaré esos”, pero me equivoqué. Incluso ahora sigo pagando el premium por Opus 4.7/8 y Fable
    Aun así, en algún momento simplemente llegarán al nivel de hacer lo que uno quiere, y desde ahí empezará la competencia por bajar precios
    Ahora que las empresas chinas ya pueden acceder a tokens de Fable muy buenos, espero que esa competencia se acelere

    • Según quién seas y cómo uses los modelos, hay casos en los que ya se llegó a ese punto
    • Creo que el siguiente frente de competencia es la velocidad. En vez de estar cambiando de contexto entre varios agentes, cada uno haciendo su tarea, estaría bueno que un solo agente pudiera empujar cualquier prompt en cuestión de segundos y mantener el flujo de un mismo trabajo
    • No solo importa el precio por token. Si tienes que volver a preguntarle a la IA, puede salir más caro que un modelo que acierta desde el principio
      Por eso, aunque el precio por token sea más alto, un mejor modelo puede terminar siendo más barato en la práctica
  • Si Opus es 5 veces más caro que Kimi K2.6 u otros modelos chinos y apenas es un poco mejor, me preguntaba cómo empresas como Anthropic logran seguir siendo competitivas
    Mi hipótesis es que las empresas estadounidenses no pueden enviar sus datos al lado chino, y eso se entiende. Pero ¿eso realmente será un “foso” defensivo?

    • El foso actual es el rendimiento del modelo y, por eso mismo, la cantidad extra de tokens y tiempo que terminas usando
      Lo digo como alguien que usa bastante seguido los modelos de Kimi y en general le gustan
      En benchmarks como DeepSWE, que todavía no están gamificados, Kimi K2.6 queda bastante por detrás de Claude Sonnet 4.6($3/$15), y también un poco por detrás de GPT 5.4 Mini($0.75/$4.50)
      No hay duda de que los modelos de Kimi son muy buenos en muchas tareas de programación, y tienen la mejor calidad entre los modelos de pesos abiertos
      Pero para obtener resultados generales similares a Sonnet/Opus, en promedio hay que usar muchos más tokens y gestionar más el modelo
      No hay que mirar cuánto cuesta por token, sino cuánto pagas por todo el proceso
    • Creo que existe la percepción de que no es “apenas un poco mejor”. Esa brecha de calidad percibida permite diferenciar precios
      Además, cuando se gasta bastante dinero, hay suficientes actores racionales que corren evaluaciones, así que es posible que “un poco mejor” no sea solo una sensación
      Igual, las suites de evaluación que yo mismo puedo ver son solo una parte. También podría ser que todos sean irracionales y Anthropic se aproveche de eso
    • Creo que la mayoría de quienes han usado ambos dirían que los modelos de Anthropic son más que un poco mejores que Kimi
      Kimi y otros modelos open source pueden sacar buenos puntajes en cosas como SWE-bench, pero cuando los usas de verdad se siente la diferencia
    • El precio de los tokens de API es solo un factor, y la suscripción de Claude tiene buena relación costo-beneficio
      Curiosamente, todos dicen que la suscripción de Claude está subsidiada basándose en el precio del API, pero nadie conoce el costo real de inferencia de Claude, y los proveedores chinos también pueden ofrecer inferencia barata. Entonces me pregunto por qué piensan que Claude no podría hacerlo
      También puede haber otros acuerdos de precios de API no públicos para clientes empresariales. Tal vez lo único que vemos son precios de lista altos
    • Solo en áreas comparables se acerca a “apenas un poco mejor”; en muchas otras, los modelos de A\ son muchísimo mejores. Por ejemplo, tareas de un tipo que Kimi y otros no han destilado
      En esas tareas, la diferencia es abismal
  • Después de probarlo bien, sí parece una mejora bastante decente. Solo con usar menos tokens para la misma tarea ya es razón suficiente para usarlo en vez de K2.6 cuando se necesita un modelo abierto

  • Si un modelo nuevo no es claramente 20~30% mejor que DeepSeek v4, pero cuesta más por token que DeepSeek, creo que casi automáticamente termina relegado a un modelo de poco uso. Quizás sirva para planificación

    • DeepSeek v4 Pro en realidad no es un modelo tan bueno comparado con GLM 5.1 o Kimi K2.6. Es más bien un coder/razonador aceptable para su precio
    • Me pregunto si DeepSeek está absorbiendo el costo, o si la gente realmente puede hospedar modelos abiertos por un costo parecido
  • Aún no estoy muy familiarizado con los modelos open-weight/open-source. Si alguien los usa de tiempo completo, me gustaría escuchar sobre la configuración y el rendimiento. Estoy considerando mover a la organización fuera de los productos de Anthropic

    • Hablando desde mi experiencia personal, para trabajo individual uso forgecode y openrouter. Primero, considero que forgecode es un arnés mucho mejor que Claude Code.
      En calidad de modelo no hay una gran diferencia, pero la diferencia de costo es ridícula. Al menos así es en la forma en que yo uso agentes.
      Ayer, por ejemplo, estaba desarrollando un pequeño DSL para buscar documentación técnica compleja y quise probar Fable para agregar un operador pequeño.
      Fable quemó $13 y sí produjo una solución, pero objetivamente no fue mejor que lo que DeepSeek v4 hizo por $1.7 en la misma tarea.
      Eso sí, yo les asigno trabajo fragmentado a los agentes. En el caso del DSL, yo diseñé los operadores y le hice implementar cada uno por separado al agente.
      Si hubiera empezado con un documento complejo y le hubiera pedido diseñar todo de punta a punta, tal vez Fable habría brillado.
      Pero cada vez que le doy tareas de mayor alcance a un agente, termina quemando millones de tokens y generando código dudoso, así que al final yo igual tuve que invertir tiempo en entenderlo
    • Hice https://github.com/gitsense/gsc-cli y diría que alrededor del 80% del código es de glm-4.7.
      Por ejemplo, si miras un archivo como https://github.com/gitsense/gsc-cli/blob/main/internal/cli/r..., dejé indicado qué modelo usé.
      4.7 no era particularmente bueno con código go, y por eso empezó a aparecer Gemini 3 Flash en la atribución.
      4.7 es un modelo ofrecido por Cerebras, y para mí la velocidad de iteración importa muchísimo más.
      Después de probar MiMo v2.5.0-Pro, estoy convencido de que habría podido hacer el 100% de lo que hizo Gemini 3 Flash.
      Unas cuantas veces tuve que pedirle explicaciones a Sonnet cuando me atoré, pero el sucio secreto que Anthropic y OpenAI no te van a decir es que, si sabes programar, honestamente los modelos ya son lo suficientemente buenos.
      Por mi experiencia con MiMo y lo que otras personas dicen de GLM 5.1, creo que ya entramos en una competencia de hardware.
      Para alguien que sabe programar y quiere amplificar con IA lo que ya sabe, los modelos chinos son un reemplazo del 100% para Claude.
      Ahora la cuestión será qué proveedor ofrece la inferencia más rápida.
      MiMo-v2.5.0-Pro-Ultraspeed genera buenos resultados rápido y también quema dinero rápido
    • Estos modelos son open-weight, pero actualmente a la mayoría de los modelos flagship en la práctica solo se puede acceder por medio de proveedores de modelos de terceros.
      La principal excepción son los modelos de alrededor de 30B parámetros, que todavía se pueden correr en GPUs de consumo.
      Aun así, las GPUs de consumo también se han ido encareciendo cada vez más en los últimos años, así que ya cuesta justificarlo
    • Sigo intentando cambiarme a modelos chinos, pero al final termino pidiéndole a Claude que me corrija la salida. Tanto en funcionalidad como en estilo, y siempre termino regresando.
      También sigo probando GPT y es bastante sólido. Es muy rápido y muy bueno depurando. Pero el código a menudo es demasiado listo y me da dolor de cabeza.
      Tal vez se pueda corregir con prompts. Ayudó un poco con los modelos chinos. Como en la vieja época de la IA de imágenes, basta con decirle que lo haga elegante, tipo “+good -bad”.
      Por ahora sigue siendo necesario que una persona pueda entender el código, y el único que satisface ese requisito de forma consistente es Claude.
      Aun así, ojalá algún día uno de los laboratorios chinos descubra una receta especial.
      Para cambios pequeños, DeepSeek Flash es buenísimo. Se siente como tener IA prácticamente ilimitada pegada al instante, y eso está genial
    • Desde que salió dwarf star, he estado usando DeepSeek v4 flash como modelo principal para casi todo.
      Lo corro en una MacBook Pro M4 Max con 128GB de memoria.
      Normalmente lo ejecuto como servidor, y desde mi máquina de trabajo me conecto por Tailscale para usar el agente de programación Pi.
      Es un salto enorme frente a cuando usaba modelos Qwen, pero no tiene capacidades de visión, así que cuando necesito visión sigo corriendo esos modelos.
      Antes usaba GLM 4.7 flash como mi caballo de batalla para programación, pero para todo lo que no sea visión ya me cambié por completo a DeepSeek
  • Me da curiosidad si alguien ha intentado eliminar los elementos del PCCh de los modelos open-weight chinos. No lo digo con sarcasmo; me refiero a si alguien los ha auditado a fondo con técnicas como inspección de robustez de pesos o activación de conceptos.
    Por ejemplo, si el PCCh realmente hubiera intentado sembrar comportamientos dependientes del contexto, ver cómo responde ante entradas que podrían detonar conductas engañosas o maliciosas.
    No sé si cosas como la sospecha de que generan código vulnerable cuando se usan en aplicaciones del gobierno de EE. UU. realmente se hayan demostrado.
    En una época de competencia geopolítica fuerte, esta clase de preguntas no es irracional. Aplica sin importar en qué país vivas

    • Valdría la pena revisar TNG de Hugging Face.
      Es una consultora alemana, y una vez vi una presentación suya sobre ajustar modelos DeepSeek y quitarles sesgos. Estuvo bastante interesante.
      https://www.tngtech.com/en/about-us/news/release-of-deepseek...
      Lo que habría que preocupar no es solo el código, sino también otras cosas como posible mensajería implícita
    • Suena como una tarea para la que una herramienta como heretic podría ser útil.
      https://github.com/p-e-w/heretic
    • Los LLM hechos por empresas también pueden tener sesgos corporativos sospechosos. No hay nada seguro