5 puntos por GN⁺ 9 일 전 | 3 comentarios | Compartir por WhatsApp
  • Modelo que elevó el rendimiento en coding de largo recorrido y tareas de tipo agente, reforzando el rendimiento de generalización en varios lenguajes y en frontend, devops y optimización de rendimiento en general
  • Procesa tareas de ingeniería complejas con coding de ejecución sostenida y, tras miles de llamadas a herramientas y más de 12 horas de ejecución continua, registró grandes mejoras de throughput en la optimización de inferencia en Zig y en una renovación completa de exchange-core
  • Convierte prompts simples en una interfaz frontend completa y aprovecha incluso herramientas de generación de imágenes y video, dando soporte a workflows full-stack simples que incluyen autenticación y trabajo con bases de datos
  • Escaló la arquitectura Agent Swarm a 300 subagentes y 4,000 etapas de coordinación para ejecutar en paralelo tareas de búsqueda, research, redacción de documentos y creación de archivos, y convertir el formato y estilo de documentos PDF, diapositivas, hojas de cálculo y Word en skills reutilizables
  • Amplió el alcance a agentes proactivos y Claw Groups para realizar operación autónoma de larga duración, colaboración multiagente y reasignación de tareas, con mejoras confirmadas en coding, llamadas a herramientas y confiabilidad de ejecución prolongada en benchmarks y pruebas beta empresariales

Coding de largo recorrido

  • Se confirmaron mejoras de rendimiento en tareas de coding de largo recorrido, reforzando el rendimiento de generalización en varios lenguajes como Rust, Go y Python, y en diversas tareas como frontend, devops y optimización de rendimiento
    • En el benchmark interno de coding Kimi Code Bench, registró una mejora importante frente a Kimi K2.5 en tareas complejas end-to-end
  • Realiza coding de ejecución sostenida en tareas de ingeniería complejas
    • Descargó y desplegó con éxito el modelo Qwen3.5-0.8B en un entorno local de Mac
    • Implementó y optimizó inferencia del modelo en Zig, un lenguaje relativamente especializado, demostrando capacidad de generalización fuera de distribución
    • Tras más de 4,000 llamadas a herramientas, más de 12 horas de ejecución continua y 14 iteraciones, elevó el throughput de aproximadamente 15 tokens/sec a aprox. 193 tokens/sec
    • La velocidad final fue aprox. 20% más rápida que LM Studio
  • Llevó a cabo una renovación completa del motor open source de matching financiero de 8 años exchange-core
    • Durante 13 horas de ejecución, repitió 12 estrategias de optimización y, con más de 1,000 llamadas a herramientas, ajustó con precisión más de 4,000 líneas de código
    • Identificó cuellos de botella ocultos mediante análisis de flame graph de asignación de CPU y memoria
    • Reconfiguró la topología de hilos del core de 4ME+2RE a 2ME+1RE
    • En un motor que ya estaba cerca de su límite de rendimiento, logró 185% de aumento en throughput medio (0.43→1.24 MT/s) y 133% de aumento en throughput de rendimiento (1.23→2.86 MT/s)
  • En evaluaciones empresariales de la beta también se confirmaron múltiples valoraciones positivas relacionadas con la confiabilidad del coding de largo plazo y la calidad de las llamadas a herramientas
    • Baseten mencionó un rendimiento en tareas de coding comparable al de modelos cerrados líderes, fuerte calidad en llamadas a herramientas basada en comprensión de frameworks de terceros y adecuación para tareas de ingeniería complejas y de larga duración
    • Blackbox destacó un nuevo estándar para modelos open source en workflows de coding de largo plazo y de tipo agente, manejo de tareas complejas de múltiples etapas, alta calidad de código, estabilidad en sesiones prolongadas y capacidad de detectar bugs no evidentes
    • CodeBuddy registró 12% de aumento en precisión de generación de código frente a K2.5, 18% de mejora en estabilidad de contexto largo y 96.60% de tasa de éxito en llamadas a herramientas
    • Factory reportó una mejora de 15% en evaluaciones comparadas con sus propios benchmarks
    • Fireworks señaló que los mayores avances estuvieron en confiabilidad de largo recorrido y capacidad de seguir instrucciones
    • Hermes Agent mencionó la estrecha integración entre llamadas a herramientas y loops de agentes, mejoras en coding y expansión del alcance creativo
    • Kilo destacó rendimiento de nivel SOTA a bajo costo y fortalezas en tareas de contexto largo a través de toda la base de código
    • Ollama mencionó adecuación para coding y herramientas de agentes, estabilidad en sesiones largas de múltiples etapas e integración inmediata con integraciones existentes
    • OpenCode destacó la estabilidad en descomposición de tareas y llamadas a herramientas, reducción del overhead iterativo y confiabilidad de la experiencia end-to-end
    • Qoder mencionó incremento en la frecuencia de llamadas a herramientas y al modelo, mayor proactividad durante la ejecución de tareas y reducción de interrupciones del usuario y latencia
    • Vercel mencionó más de 50% de mejora en benchmarks de Next.js, rendimiento de primer nivel en la plataforma y adecuación para coding de tipo agente y generación frontend basada en eficiencia costo-rendimiento

Diseño centrado en coding

  • Con una fuerte capacidad de coding, puede convertir prompts simples en una interfaz frontend completa
    • Genera layouts estructurados, incluyendo una hero section estética, elementos interactivos y animaciones ricas con efectos activados por scroll
  • Con base en su capacidad para usar herramientas de generación de imágenes y video, ofrece soporte para crear assets visualmente consistentes
    • Contribuye a producir hero sections de mayor calidad y más llamativas
  • Va más allá del frontend estático y se extiende a workflows full-stack simples
    • Incluye autenticación, interacción de usuarios y trabajo con bases de datos
    • Soporta casos de uso ligeros como registros de transacciones o gestión de sesiones
  • Se construyó el benchmark interno Kimi Design Bench
    • Está compuesto por cuatro categorías: Visual Input Tasks, Landing Page Construction, Full-Stack Application Development y General Creative Programming
    • Frente a Google AI Studio, registró resultados prometedores y buen rendimiento en varias categorías
  • Se presentaron ejemplos creados por K2.6 Agent
    • Los resultados se generaron usando un solo prompt y herramientas y harness preconfigurados
    • En el aspecto estético, incluyen diseños frontend atractivos con interacciones ricas
    • En el aspecto funcional, incluyen base de datos y autenticación integradas
    • En el uso de herramientas, incluyen sitios web refinados creados con herramientas de generación de imágenes y video

Agent Swarm mejorado

  • Adoptó una estructura centrada en escalar horizontalmente, no solo verticalmente
    • Agent Swarm descompone dinámicamente el trabajo en subtareas heterogéneas, y agentes especializados por dominio generados por el propio sistema las ejecutan en paralelo
  • Basado en el research preview de K2.5 Agent Swarm, Kimi K2.6 Agent Swarm presenta un salto cualitativo en la experiencia
    • Combina búsqueda amplia con research profundo
    • Combina análisis documental a gran escala con redacción extensa
    • Ejecuta en paralelo la creación de contenido en múltiples formatos
    • Ofrece entregables end-to-end que abarcan documentos, sitios web, diapositivas y hojas de cálculo dentro de una sola ejecución autónoma
  • Se amplió la escala de escalado horizontal de la arquitectura
    • 300 subagentes ejecutan 4,000 etapas de coordinación al mismo tiempo
    • Es una gran expansión frente a los 100 subagentes y 1,500 etapas de K2.5
    • La paralelización a gran escala reduce la latencia end-to-end, mejora la calidad de salida y amplía los límites operativos de Agent Swarm
  • Es posible convertir archivos de alta calidad como PDF, hojas de cálculo, diapositivas y documentos Word en Skills
    • Captura y mantiene la estructura y las características de estilo de los documentos
    • Permite reproducir después la misma calidad y formato en otros trabajos
  • Se presentaron múltiples tareas de ejemplo
    • Diseñó y ejecutó 5 estrategias cuantitativas sobre 100 activos globales de semiconductores, extrajo un PPT estilo McKinsey como skill reutilizable y entregó una hoja de cálculo de modelado detallado junto con materiales completos para presentación ejecutiva
    • Convirtió un artículo de astrofísica de alta calidad con abundantes datos visuales en un skill académico reutilizable, extrajo el flujo de razonamiento y el método de visualización, y generó un paper de investigación de 40 páginas y 7,000 palabras, un dataset estructurado de más de 20,000 ítems y 14 gráficos de nivel astronómico
    • A partir de un currículum subido, generó 100 subagentes para hacer matching con 100 puestos relevantes en California y entregó un dataset estructurado de oportunidades y 100 currículums personalizados
    • Identificó 30 tiendas minoristas en Los Angeles sin sitio web oficial en Google Maps y creó para cada una una landing page centrada en conversión

Agentes proactivos

  • Registró un fuerte rendimiento en agentes autónomos y proactivos como OpenClaw y Hermes
    • Soporta tipos de operación que corren 24 horas al día, 7 días a la semana a través de múltiples aplicaciones
  • Atiende workflows distintos de la interacción simple basada en chat
    • Requiere realizar como agentes persistentes en segundo plano tareas como gestión de agenda, ejecución de código y orquestación de trabajo entre plataformas
  • El equipo de infraestructura de RL llevó a cabo una operación autónoma de 5 días usando agentes basados en K2.6
    • Encargados de monitoreo, respuesta a incidentes y operación del sistema
    • Demostraron mantenimiento de contexto persistente, manejo de tareas multihilo y ejecución de ciclo completo desde la alerta hasta la resolución
    • Se menciona la existencia de logs de trabajo con información sensible eliminada
  • Se midieron mejoras de confiabilidad en entornos reales
    • Interpretación más precisa de APIs
    • Rendimiento más estable en ejecuciones prolongadas
    • Mayor conciencia de seguridad durante tareas de research de largo plazo
  • Se cuantificaron mejoras de rendimiento con la suite interna de evaluación Claw Bench
    • Incluye cinco áreas: Coding Tasks, IM Ecosystem Integration, Information Research & Analysis, Scheduled Task Management y Memory Utilization
    • En todas las métricas, mostró grandes mejoras frente a Kimi K2.5 en tasa de finalización de tareas y precisión de llamadas a herramientas
    • En particular, registró mejoras sólidas en workflows que requieren operación autónoma sostenida sin supervisión humana

Bring Your Own Agents

  • Con una fuerte capacidad de orquestación, extiende los agentes proactivos a Claw Groups
    • Se presenta como un research preview de una nueva forma de implementación de la arquitectura Agent Swarm
  • Acepta un ecosistema abierto y heterogéneo
    • Varios agentes y personas actúan juntos como colaboradores reales
    • Los usuarios pueden incorporar agentes desde cualquier dispositivo y sin importar con qué modelo corran
    • Cada agente cuenta con su propio conjunto de herramientas, skill y contexto de memoria persistente
    • Agentes en entornos diversos como laptops locales, dispositivos móviles e instancias en la nube se integran naturalmente en un espacio operativo compartido
  • En el centro, Kimi K2.6 cumple el papel de coordinador adaptativo
    • Distribuye dinámicamente tareas según el perfil de skills y las herramientas disponibles de cada agente
    • Optimiza las tareas según las capacidades más adecuadas
    • Cuando detecta fallas o bloqueos de agentes, reasigna tareas o regenera subtareas
    • Gestiona activamente todo el ciclo de vida de los entregables, desde el inicio hasta la validación y finalización
  • Incluye casos de uso internos de Claw Groups
    • Se usó internamente un equipo de marketing de agentes para refinar de forma real workflows humano-agente
    • Trabajan juntos agentes especializados como Demo Makers, Benchmark Makers, Social Media Agents y Video Makers
    • Operan la producción de contenido y campañas de lanzamiento end-to-end
    • K2.6 coordina el intercambio de resultados intermedios y la conversión de ideas en entregables consistentes y terminados
  • Amplía la relación entre humanos e IA más allá de preguntas y respuestas o asignación simple de tareas, hacia una alianza de colaboración real
    • Plantea una visión futura en la que los límites entre "mi agente", "tu agente" y "nuestro equipo" desaparecen de forma natural dentro de un sistema colaborativo

Tabla de benchmarks

  • Principales cifras del área Agentic
    • HLE-Full w/ tools 54.0, GPT-5.4 52.1, Claude Opus 4.6 53.0, Gemini 3.1 Pro 51.4, Kimi K2.5 50.2
    • BrowseComp 83.2, BrowseComp(agent swarm) 86.3, Kimi K2.5 respectivamente 74.9 y 78.4
    • DeepSearchQA f1-score 92.5, accuracy 83.0
    • WideSearch item-f1 80.8
    • Toolathlon 50.0, Kimi K2.5 27.8
    • MCPMark 55.9
    • Claw Eval pass^3 62.3, pass@3 80.9
    • APEX-Agents 27.9
    • OSWorld-Verified 73.1
  • Principales cifras del área Coding
    • Terminal-Bench 2.0 (Terminus-2) 66.7
    • SWE-Bench Pro 58.6
    • SWE-Bench Multilingual 76.7
    • SWE-Bench Verified 80.2
    • SciCode 52.2
    • OJBench (python) 60.6
    • LiveCodeBench (v6) 89.6
  • Principales cifras del área Reasoning & Knowledge
    • HLE-Full 34.7
    • AIME 2026 96.4
    • HMMT 2026 (Feb) 92.7
    • IMO-AnswerBench 86.0
    • GPQA-Diamond 90.5
  • Principales cifras del área Vision
    • MMMU-Pro 79.4, MMMU-Pro w/ python 80.1
    • CharXiv (RQ) 80.4, CharXiv (RQ) w/ python 86.7
    • MathVision 87.4, MathVision w/ python 93.2
    • BabyVision 39.8, BabyVision w/ python 68.5
    • V* w/ python 96.9
  • Para reproducir oficialmente los resultados de benchmark de Kimi-K2.6, se recomienda usar la API oficial
    • Incluye una guía para consultar Kimi Vendor Verifier (KVV) al elegir proveedores de terceros

Notas

  • Detalles generales de prueba

    • Kimi K2.6 y Kimi K2.5 reportaron resultados con thinking mode enabled, Claude Opus 4.6 con max effort, GPT-5.4 con xhigh reasoning effort y Gemini 3.1 Pro con high thinking level
    • Salvo indicación contraria, los experimentos de Kimi K2.6 se realizaron con temperature 1.0, top-p 1.0 y longitud de contexto de 262,144 tokens
    • Los benchmarks sin puntajes públicos fueron reevaluados bajo las mismas condiciones que Kimi K2.6 y se marcaron con asterisco(*)
    • Los resultados sin asterisco citan reportes oficiales
  • Benchmarks de razonamiento

    • Los puntajes de IMO-AnswerBench de GPT-5.4 y Claude 4.6 se obtuvieron del blog de z.ai
    • Humanity's Last Exam (HLE) y otras tareas de razonamiento se evaluaron con una longitud máxima de generación de 98,304 tokens
    • El valor reportado por defecto es el conjunto completo de HLE
    • En el subconjunto de solo texto, Kimi K2.6 registró 36.4% accuracy sin herramientas y 55.5% accuracy con herramientas
  • Tareas agentic y con refuerzo de herramientas

    • En HLE with tools, BrowseComp, DeepSearchQA y WideSearch se equiparon herramientas de search, code-interpreter y web-browsing
    • HLE-Full with tools se ejecutó con longitud máxima de generación de 262,144 tokens y límite por paso de 49,152 tokens
    • Cuando la ventana de contexto supera el umbral, se usa una estrategia simple de gestión de contexto que conserva solo la ronda más reciente de mensajes relacionados con herramientas
    • Los puntajes de BrowseComp se obtuvieron con gestión de contexto de estrategia discard-all, igual que en Kimi K2.5 y DeepSeek-V3.2
    • En DeepSearchQA no se aplicó gestión de contexto a las pruebas de Kimi K2.6, y las tareas que superaron la longitud de contexto soportada se contabilizaron directamente como fallas
    • Los puntajes de DeepSearchQA de Claude Opus 4.6, GPT-5.4 y Gemini 3.1 Pro citan la Claude Opus 4.7 System Card
    • WideSearch reportó resultados con configuración de gestión de contexto hide tool result
    • El system prompt de prueba fue el mismo que en el Kimi K2.5 technical report
    • Claw Eval se ejecutó en version 1.1, con max-tokens-per-step 16384
    • En APEX-Agents se evaluaron 452 tareas de un total público de 480
      • Igual que Artificial Analysis, se excluyeron Investment Banking Worlds 244, 246
      • El motivo de exclusión fue dependencia de runtime externo
  • Tareas de coding

    • El puntaje de Terminal-Bench 2.0 se obtuvo usando el framework de agentes base Terminus-2 y el JSON parser provisto, con preserve thinking mode
    • Las evaluaciones de la familia SWE-Bench (incluyendo Verified, Multilingual y Pro) usaron un framework interno de evaluación modificado a partir de SWE-agent
    • La configuración de herramientas de ese framework consiste en el conjunto mínimo de bash tool, createfile tool, insert tool, view tool, strreplace tool y submit tool
    • Todos los puntajes reportados para tareas de coding son promedios de 10 ejecuciones independientes
  • Benchmarks de visión

    • Se aplicaron max-tokens 98,304 y promedio de 3 ejecuciones (avg@3)
    • La configuración con herramienta Python realizó razonamiento multietapa con max-tokens-per-step 65,536 y max-steps 50
    • MMMU-Pro sigue el protocolo oficial, mantiene el orden de entrada y coloca las imágenes al frente

3 comentarios

 
GN⁺ 9 일 전
Opiniones en Hacker News
  • Lo probé a través de OpenRouter y me impresionó que este modelo no solo dibujara un pelícano en SVG, sino que además lo envolviera en HTML con control de velocidad de animación al exportarlo. El historial de la conversación y el HTML están en este gist, y el ejemplo en ejecución puede verse en este enlace

    • Ahora me da la impresión de que este tipo de pelícano en SVG ya debe haber entrado al dataset de entrenamiento
    • Se sintió totalmente como del tipo excesivamente aplicado, y hasta el nombre Kimi suena un poco a alumno ejemplar
    • Lamentablemente, no parece que hayan puesto el mismo cuidado en las piernas y patas del pelícano. La pierna izquierda no se mueve, como si estuviera paralizada, y el tobillo derecho gira de una forma inquietante
    • Lo usé en beta y era un modelo bastante decente; por momentos casi olvidaba que estaba usando algo distinto de Opus o GPT. Aun así, Opus sigue siendo mejor, y desde mi punto de vista GPT se veía más forzado. En trabajo de backend había un pequeño nicho donde servía, pero con suficiente habilidad Opus también resolvía algo parecido, y en general le faltaban más cosas de las que aportaba
    • Lo pregunto en serio: no entiendo cuál es el propósito de publicar esto en casi todos los hilos sobre modelos nuevos. Capaz ya estoy viejo y gruñón, pero esto ya se volvió trillado hace bastante y me suena a comentario de Reddit de bajo esfuerzo
  • Viendo los benchmarks iniciales, Kimi K2.6 mejoró muchísimo frente a Kimi K2 Thinking. El modelo anterior había rendido mal en nuestros benchmarks, incluso usando la mejor configuración de cuantización. Ahora Kimi K2.6 está entre los mejores modelos open-weight en razonamiento de programación one-shot, un poco por encima de GLM 5.1, y parece competir con los SOTA de hace unos 3 meses, más o menos al nivel de Gemini 3.1 Pro Preview. Las pruebas tipo agente todavía están en curso, y los modelos open-weight suelen flojear en flujos de trabajo de agente con contexto largo, aunque GLM 5.1 aguantó bastante bien, así que tengo curiosidad por ver cómo sale Kimi. Eso sí, tanto la versión vieja como la nueva son lentas, así que puede haber límites de usabilidad para agentic coding en la práctica. El Kimi K2 anterior estaba muy optimizado para benchmarks y parecía más interesado en variación y temperatura que en resolver problemas difíciles, pero este modelo sí se ve mucho más sólido como modelo generalista. En conjunto, el lado open-weight se ve realmente muy bien, y casi da la impresión de que sale un modelo nuevo de nivel frontier cada semana. Los benchmarks detallados están en gertlabs

    • Me da curiosidad cómo queda K2.6 en precio y rendimiento comparado con Sonnet 4.6
    • Me sorprendió bastante que la variación de rendimiento entre idiomas fuera tan grande
  • Hay una ironía graciosa en que China tal vez esté impulsando con open source la tecnología más importante del mundo, mientras EE. UU. va en la dirección contraria

    • Creo que una de las motivaciones es contener a las empresas estadounidenses. OpenAI y Anthropic son los jugadores más grandes, y ambas son empresas de EE. UU., así que cuantos más modelos open-weight haya, más se debilita el dominio industrial de esas dos. Si las empresas chinas adoptaran la estrategia estadounidense de modelos cerrados, lo más probable es que la mayoría igual terminara usando ChatGPT o Claude; así que, si de todos modos es difícil sacar grandes ganancias, parece más realista liberar open-weight y reducir las rentas extraordinarias de las empresas estadounidenses
    • Creo que los grandes avances tecnológicos al final se aceleran mediante la apertura. Basta ver el iPhone: GPS, internet, asistentes de voz, pantalla táctil, microprocesadores, baterías de ion-litio... muchas tecnologías clave salieron de investigación gubernamental o de investigación abierta al público. Las empresas privadas no suelen abrirle un avance así nomás a la competencia, así que si uno quiere empujar todo un campo hacia adelante, al final hay que abrir la tecnología
    • Con esta actualización, yo diría que Kimi K2.6 pasó a ser el modelo de IA multimodal abierto más fuerte. Obviamente no tengo relación con ellos. Si uno junta benchmarks públicos de IA, comparado con Opus 4.6 max effort, en agentes estaba 5 a 5, en coding Kimi 5 a Opus 1, en razonamiento y conocimiento Kimi 1 a Opus 4, y en visión Kimi 9 a Opus 0. Igual hay que considerar el sesgo, porque los benchmarks los eligen los creadores del modelo, aunque muchos de los de coding y razonamiento eran bastante estándar
    • No necesariamente lo vería solo así. Google también publicó hace poco Gemma 4 y Allen AI está sacando la línea open Olmo. Aun así, sí parece cierto que los modelos abiertos chinos se ven más fuertes, y sobre todo la línea Qwen 3 viene rindiendo por encima de su categoría
    • Han salido muchas teorías sobre por qué los laboratorios chinos publican sus modelos como open source, pero para mí la razón es simple y clara: en la práctica, esa es su única estrategia de comercialización viable. Lo resumí en este texto
  • Siempre me sorprendió que Kimi recibiera menos atención de la que esperaría. En creatividad y calidad venía destacándose de forma constante, y durante bastante tiempo fue mi modelo favorito. Claro, no soy ninguna autoridad

    • Está bien, pero todavía no se siente al nivel de Claude. Además, la API suele tener problemas de capacidad. Aun así, la relación precio-calidad es absurda; cargué 40 dólares hace unas semanas o meses y todavía no gasté ni la mitad
    • También me pareció curioso que sea uno de los pocos modelos que puede dibujar un reloj SVG. Se pueden ver ejemplos en este sitio
    • También me gustaba que en OpenRouter fuera muy barato. Ojalá 2.6 mantenga esa tradición
    • Lo probé como opción dentro de Kagi Assistant y me gustaron los resultados en un entorno con mucha búsqueda y resumen. Sobre todo cuando le pedía prosa natural en vez del estilo típico de LLM lleno de listas o Markdown por todos lados. No me animo a compararlo con certeza, pero parecía reordenar el texto original con bastante decisión para mejorar el flujo de salida, y a veces esa edición hacía falta para conectar ideas relacionadas tratadas por separado o para responder bien a lo que se pedía
    • Me acuerdo de cuando salió el primer K2: por un tiempo estuvo claramente por delante de otros modelos en escritura creativa
  • Me pregunto si alguien aquí ha usado Kimi en trabajo real. Yo lo probé una vez y, aunque los benchmarks se veían impresionantes, la impresión en uso real fue bastante normalita. En cambio, Qwen 3.6 sí me pareció bastante bueno; no llega a Opus, pero sentí que le puede pelear sin problemas a Sonnet

    • Cuando se me acababa la cuota de Codex, usaba Kimi K2.5 como reemplazo y para tareas chicas o medianas cumplía bien. Pero si lo usaba en tareas complejas, después me tocaba pasar dos días arreglando cosas con Codex, así que ojalá 2.6 haya mejorado
    • Antes de GLM-5.1 alternaba entre Opus 4.5 y Kimi 4.5, y con Kimi también obtenía resultados bastante buenos
    • Es muy probable que ya lo estén usando sin saberlo. Si usas el modelo composer-2 de Cursor, eso es porque pertenece a la familia Kimi. Para planificación está entre los mejores, y la ejecución también me funciona bien en composer-2
  • Si la intuición de benchmark y la sensación en uso real realmente coinciden, esto podría ser un momento tipo DeepSeek en el que la IA china queda casi hombro a hombro con los modelos de los mejores laboratorios de EE. UU.

    • Comparado con la generación anterior de modelos, sí podría verse así, pero frente a los llamados modelos míticos de escala 10T todavía no me parece ni remotamente cerca
  • Según mis pruebas y la comparación de aibenchy, Kimi K2.6 fue solo un poco mejor que Kimi K2.5. Sobre todo en acertijos, problemas específicos de dominio y tareas de precisión con trampa, vi con frecuencia incumplimiento de instrucciones y respuestas incorrectas. Puede ser excelente como modelo de coding, pero la sensación general de inteligencia todavía me parece un poco por debajo del SOTA más alto

    • Lo probé en OpenRouter con max tokens en 8192 y, aun en modo non-thinking, todas las respuestas salían cortadas. Puede ser un problema de despliegue, pero en tu enlace también parecía generar una cantidad enorme de tokens de salida
  • A veces me pregunto si en el futuro, así como las computadoras antiguas ocupaban una habitación y ahora caben en el bolsillo, llegará un día en que una carga de cómputo equivalente a un datacenter pueda entrar en un solo dispositivo tipo teléfono. Como parece que el ritmo de avance tecnológico se acelera cada año, me da la impresión de que un cambio así también podría llegar más rápido

    • Ya hay trabajo temprano en esa dirección. Por ejemplo, empresas como Taalas están haciendo LLM ASIC, y dicen que HC1 da 17k tokens por segundo con llama 8b. Todavía está más cerca de un solo servidor que de un teléfono, porque anda por los 2.5 kW, pero igual tiene valor por ser un primer chip. Alternativas como la computación fotónica también podrían reducir mucho el consumo, aunque todavía parecen estar en fase de investigación. Como se está yendo muchísimo dinero a la IA y la inferencia con GPU consume tanta energía, esperaría avances bastante rápidos en esta área
    • Yo no creo que vaya a pasar tan rápido. Históricamente lo que hubo fue sobre todo una miniaturización exponencial, y si esa tendencia se mantiene, el tiempo para pasar de una habitación a un bolsillo debería ser parecido. Además, últimamente ni siquiera estamos igualando bien esa tendencia exponencial, y de por sí el crecimiento exponencial no suele durar tanto. Sí coincido en que el progreso tecnológico va a seguir acelerándose y que los dispositivos de cómputo van a seguir achicándose, pero no creo que solo por eso la siguiente etapa de miniaturización vaya a llegar en menos tiempo
  • Estuve probándolo toda la mañana integrado en una app y, por sensaciones, el resultado me pareció similar a Sonnet 4.6. Es una impresión puramente de vibra, sin validación formal, pero me alegra ver competencia real entre modelos frontier

    • Gracias a K2.6 y GLM 5.1, ahora se siente que ya se puede tener inteligencia de nivel Sonnet a precio de Haiku. Eso está buenísimo. Ojalá Anthropic saque pronto un nuevo Haiku, porque para competir con estos modelos más baratos parece que necesitaría algo en un rango de un tercio a un quinto del precio actual de Haiku. Gemma-4 viene funcionando bastante bien en ese tramo de precio
  • Me preguntaba si este modelo tiene alguna suscripción plana para coding; o sea, algo con límite por llamadas de API en vez de límite por tokens. Últimamente además se me cayó la suscripción en z.ai porque falló el cobro de GLM, y encima el precio subió demasiado en unos pocos meses

    • Kimi también tiene su propia suscripción, más o menos en la misma línea que otros servicios, y se puede ver en Kimi Code
 
ingwannu 9 일 전

Personalmente, he estado usando muy bien kimi2.5 de forma ilimitada por 30 dólares al mes con firepass de Fireworks.ai, así que tengo muchísimas expectativas por la mejora de rendimiento de esta versión 2.6, que pronto también llegará a firepass.

Lo probé un rato vía API y sentí que hubo un avance muy grande frente a 2.5

 
chlrhdmltkfkd 8 일 전

Vaya, parece que bloquearon los nuevos registros.