El modelo Kimi K2 1T se ejecuta en dos M3 Ultra de 512 GB

(twitter.com/awnihannun)

1 puntos por GN⁺ 2025-12-15 | 1 comentarios | Compartir por WhatsApp

Se reportó un caso en el que el modelo Kimi K2 1T fue ejecutado en dos chips M3 Ultra con 512 GB de memoria cada uno
En una publicación de Twitter se menciona el entorno de ejecución y la configuración de hardware del modelo
Llama la atención que un modelo de escala 1T se haya ejecutado en hardware Mac comercial
Es un ejemplo que muestra el potencial del cómputo de IA de alto rendimiento basado en Apple Silicon
Se trata de un intento técnico que sugiere una expansión de los límites de la ejecución local de modelos de lenguaje grandes

Contenido de la publicación en Twitter

La publicación indica explícitamente que el modelo Kimi K2 1T fue ejecutado en dos M3 Ultra (cada uno con 512 GB de memoria)
No se mencionan métricas de rendimiento adicionales ni explicaciones sobre los resultados
Fuera de ese tuit, no se proporciona contexto adicional ni detalles técnicos más específicos

1 comentarios

GN⁺ 2025-12-15

Comentarios en Hacker News

Kimi K2 es realmente un modelo extraño
No es más inteligente que Opus 4.5 o 5.2-Pro, pero tiene un estilo de escritura muy particular y un tono directo como si hablara con una persona
Para escribir textos cortos como correos, está entre lo mejor que existe hoy, y no duda en señalar errores o corregir tonterías durante una conversación
Da la impresión de haber sido entrenado de una forma totalmente distinta a otros modelos, así que es mucho más útil para edición que para análisis de datos
Por eso de hecho pago la suscripción de Kimi y lo uso
- Pienso lo mismo. Para comunicación breve, Kimi K2 está en otra liga
  Tiene una inteligencia emocional (emotional intelligence) sobresaliente, capta bien los matices o la intención de un mensaje, y hasta pule frases teniendo en cuenta el contexto social
  No sé cómo lo entrenó Moonshot, pero esta parte sí llama mucho la atención
  Quedó en primer lugar en evaluación de inteligencia emocional en EQ-bench, y coincide exactamente con mi experiencia
- Es el único modelo que pasa consistentemente mi benchmark favorito de IA, la prueba de relojes
- Es el único modelo que me corrige con honestidad cuando estoy equivocado
  Ver un chatbot decir algo como “proporciona un ejemplo reproducible” es una experiencia curiosa
  Por cierto, también se puede usar Kimi K2 en Kagi
- Sonnet 4.5 también suele llevarle la contraria al usuario, pero la mayoría de las veces es un malentendido por falta de contexto
  Me da curiosidad qué tan preciso es Kimi K2 en ese aspecto
  Al final, da la impresión de que lo esencial en un modelo es el seguimiento de instrucciones (instruction following)
- Por estas características, es natural que tenga una puntuación alta en EQ-bench
Kimi K2 es realmente un modelo impresionante
Su actitud de no adular en exceso lo vuelve útil para verificar lógica
Los modelos antiguos de ChatGPT elogiaban todo, pero Kimi, si se lo pides, critica sin piedad hasta tu inteligencia o tu linaje
- Si se lo pides, de verdad entra en modo roast. Ayuda a mantener la concentración
- Una vez activé Grok dentro de un Tesla y el reconocimiento de voz falló, lo que me puso en una situación incómoda
  Ese modelo también tenía una personalidad nada aduladora, como Kimi
El modelo M3 Ultra de 512 GB cuesta $9,499
Enlace oficial de Apple
- Los productos reacondicionados se pueden comprar por $8,070 en este enlace
  Además, se puede conseguir un 10% de descuento adicional con gift card
Me pregunto si existe una versión Linux de esta configuración
Escuché hablar del soporte para RDNA, pero no sé si depende de hardware específico (si requiere ConnectX o Apple Thunderbolt) o si también funciona con una NIC 10G común
- Para obtener rendimiento a nivel de producción sí se necesita hardware compatible con RDNA
  Aun así, vLLM también soporta clústeres multinodo basados en Ethernet común
Como siempre, las afirmaciones de rendimiento causan confusión porque no especifican la longitud del contexto ni las condiciones de prefill
Si usas contexto largo, podrías terminar esperando varios minutos por una respuesta
Sí me gustaría comprar varias máquinas así, pero pensando en la depreciación, todavía me parece demasiado pronto
Creo que en unos años serán mucho más baratas
- Antes de comprar, hay que revisar sí o sí benchmarks reales de velocidad
  No basta con creer en un simple “funciona”; el rendimiento en contextos largos es completamente distinto
- Personalmente, no creo que comprar hardware así tenga sentido económico
  Con la misma cantidad de dinero puedes conseguir muchísimo más uso en la nube
  Además, como no lo vas a tener corriendo 24/7, la eficiencia baja
  Para modelos open source, es mucho más cómodo usar servicios de ultrabaja latencia como Groq o Cerebras
- La razón para correr modelos locales es la privacidad, no el costo ni la latencia
- Espero que en la próxima actualización venga con una variante del chip M5
- Probablemente convenga esperar hasta que se estabilicen los precios de la RAM
Me pregunto qué benchmarks siguen siendo válidos hoy
Pruebo varios modelos en Cursor, pero Deepseek v3.2 o Kimi K2 no funcionan bien por problemas de formato, y también faltan otros modelos
En especial me interesan benchmarks de áreas no web, como C++ o Rust
Habría que mencionar que este modelo es una versión con cuantización de 4 bits (4bit quant). Aun así, es impresionante
- Kimi K2 fue diseñado desde el principio con el objetivo de estar optimizado para 4 bits
- Si el número de parámetros está en el orden del billón, creo que la cuantización ya se da por sentada
También me pregunto si la aceleración de token pre-fill de Exo Labs puede correr en DGX Spark
Me queda la duda de si combinar 2 Spark y 2 Mac Studio podría dar una velocidad de inferencia parecida a la de 2 M5 Ultra
Tengo la impresión de que este es justo el modelo que ganó recientemente la competencia de dibujo de relojes en tiempo real

El modelo Kimi K2 1T se ejecuta en dos M3 Ultra de 512 GB

Contenido de la publicación en Twitter

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News