- Se reportó un caso en el que el modelo Kimi K2 1T fue ejecutado en dos chips M3 Ultra con 512 GB de memoria cada uno
- En una publicación de Twitter se menciona el entorno de ejecución y la configuración de hardware del modelo
- Llama la atención que un modelo de escala 1T se haya ejecutado en hardware Mac comercial
- Es un ejemplo que muestra el potencial del cómputo de IA de alto rendimiento basado en Apple Silicon
- Se trata de un intento técnico que sugiere una expansión de los límites de la ejecución local de modelos de lenguaje grandes
Contenido de la publicación en Twitter
- La publicación indica explícitamente que el modelo Kimi K2 1T fue ejecutado en dos M3 Ultra (cada uno con 512 GB de memoria)
- No se mencionan métricas de rendimiento adicionales ni explicaciones sobre los resultados
- Fuera de ese tuit, no se proporciona contexto adicional ni detalles técnicos más específicos
1 comentarios
Comentarios en Hacker News
No es más inteligente que Opus 4.5 o 5.2-Pro, pero tiene un estilo de escritura muy particular y un tono directo como si hablara con una persona
Para escribir textos cortos como correos, está entre lo mejor que existe hoy, y no duda en señalar errores o corregir tonterías durante una conversación
Da la impresión de haber sido entrenado de una forma totalmente distinta a otros modelos, así que es mucho más útil para edición que para análisis de datos
Por eso de hecho pago la suscripción de Kimi y lo uso
Tiene una inteligencia emocional (emotional intelligence) sobresaliente, capta bien los matices o la intención de un mensaje, y hasta pule frases teniendo en cuenta el contexto social
No sé cómo lo entrenó Moonshot, pero esta parte sí llama mucho la atención
Quedó en primer lugar en evaluación de inteligencia emocional en EQ-bench, y coincide exactamente con mi experiencia
Ver un chatbot decir algo como “proporciona un ejemplo reproducible” es una experiencia curiosa
Por cierto, también se puede usar Kimi K2 en Kagi
Me da curiosidad qué tan preciso es Kimi K2 en ese aspecto
Al final, da la impresión de que lo esencial en un modelo es el seguimiento de instrucciones (instruction following)
Su actitud de no adular en exceso lo vuelve útil para verificar lógica
Los modelos antiguos de ChatGPT elogiaban todo, pero Kimi, si se lo pides, critica sin piedad hasta tu inteligencia o tu linaje
Ese modelo también tenía una personalidad nada aduladora, como Kimi
Enlace oficial de Apple
Además, se puede conseguir un 10% de descuento adicional con gift card
Escuché hablar del soporte para RDNA, pero no sé si depende de hardware específico (si requiere ConnectX o Apple Thunderbolt) o si también funciona con una NIC 10G común
Aun así, vLLM también soporta clústeres multinodo basados en Ethernet común
Si usas contexto largo, podrías terminar esperando varios minutos por una respuesta
Creo que en unos años serán mucho más baratas
No basta con creer en un simple “funciona”; el rendimiento en contextos largos es completamente distinto
Con la misma cantidad de dinero puedes conseguir muchísimo más uso en la nube
Además, como no lo vas a tener corriendo 24/7, la eficiencia baja
Para modelos open source, es mucho más cómodo usar servicios de ultrabaja latencia como Groq o Cerebras
Pruebo varios modelos en Cursor, pero Deepseek v3.2 o Kimi K2 no funcionan bien por problemas de formato, y también faltan otros modelos
En especial me interesan benchmarks de áreas no web, como C++ o Rust
Me queda la duda de si combinar 2 Spark y 2 Mac Studio podría dar una velocidad de inferencia parecida a la de 2 M5 Ultra