1 puntos por GN⁺ 2025-12-15 | 1 comentarios | Compartir por WhatsApp
  • Se reportó un caso en el que el modelo Kimi K2 1T fue ejecutado en dos chips M3 Ultra con 512 GB de memoria cada uno
  • En una publicación de Twitter se menciona el entorno de ejecución y la configuración de hardware del modelo
  • Llama la atención que un modelo de escala 1T se haya ejecutado en hardware Mac comercial
  • Es un ejemplo que muestra el potencial del cómputo de IA de alto rendimiento basado en Apple Silicon
  • Se trata de un intento técnico que sugiere una expansión de los límites de la ejecución local de modelos de lenguaje grandes

Contenido de la publicación en Twitter

  • La publicación indica explícitamente que el modelo Kimi K2 1T fue ejecutado en dos M3 Ultra (cada uno con 512 GB de memoria)
  • No se mencionan métricas de rendimiento adicionales ni explicaciones sobre los resultados
  • Fuera de ese tuit, no se proporciona contexto adicional ni detalles técnicos más específicos

1 comentarios

 
GN⁺ 2025-12-15
Comentarios en Hacker News
  • Kimi K2 es realmente un modelo extraño
    No es más inteligente que Opus 4.5 o 5.2-Pro, pero tiene un estilo de escritura muy particular y un tono directo como si hablara con una persona
    Para escribir textos cortos como correos, está entre lo mejor que existe hoy, y no duda en señalar errores o corregir tonterías durante una conversación
    Da la impresión de haber sido entrenado de una forma totalmente distinta a otros modelos, así que es mucho más útil para edición que para análisis de datos
    Por eso de hecho pago la suscripción de Kimi y lo uso
    • Pienso lo mismo. Para comunicación breve, Kimi K2 está en otra liga
      Tiene una inteligencia emocional (emotional intelligence) sobresaliente, capta bien los matices o la intención de un mensaje, y hasta pule frases teniendo en cuenta el contexto social
      No sé cómo lo entrenó Moonshot, pero esta parte sí llama mucho la atención
      Quedó en primer lugar en evaluación de inteligencia emocional en EQ-bench, y coincide exactamente con mi experiencia
    • Es el único modelo que pasa consistentemente mi benchmark favorito de IA, la prueba de relojes
    • Es el único modelo que me corrige con honestidad cuando estoy equivocado
      Ver un chatbot decir algo como “proporciona un ejemplo reproducible” es una experiencia curiosa
      Por cierto, también se puede usar Kimi K2 en Kagi
    • Sonnet 4.5 también suele llevarle la contraria al usuario, pero la mayoría de las veces es un malentendido por falta de contexto
      Me da curiosidad qué tan preciso es Kimi K2 en ese aspecto
      Al final, da la impresión de que lo esencial en un modelo es el seguimiento de instrucciones (instruction following)
    • Por estas características, es natural que tenga una puntuación alta en EQ-bench
  • Kimi K2 es realmente un modelo impresionante
    Su actitud de no adular en exceso lo vuelve útil para verificar lógica
    Los modelos antiguos de ChatGPT elogiaban todo, pero Kimi, si se lo pides, critica sin piedad hasta tu inteligencia o tu linaje
    • Si se lo pides, de verdad entra en modo roast. Ayuda a mantener la concentración
    • Una vez activé Grok dentro de un Tesla y el reconocimiento de voz falló, lo que me puso en una situación incómoda
      Ese modelo también tenía una personalidad nada aduladora, como Kimi
  • El modelo M3 Ultra de 512 GB cuesta $9,499
    Enlace oficial de Apple
    • Los productos reacondicionados se pueden comprar por $8,070 en este enlace
      Además, se puede conseguir un 10% de descuento adicional con gift card
  • Me pregunto si existe una versión Linux de esta configuración
    Escuché hablar del soporte para RDNA, pero no sé si depende de hardware específico (si requiere ConnectX o Apple Thunderbolt) o si también funciona con una NIC 10G común
    • Para obtener rendimiento a nivel de producción sí se necesita hardware compatible con RDNA
      Aun así, vLLM también soporta clústeres multinodo basados en Ethernet común
  • Como siempre, las afirmaciones de rendimiento causan confusión porque no especifican la longitud del contexto ni las condiciones de prefill
    Si usas contexto largo, podrías terminar esperando varios minutos por una respuesta
  • Sí me gustaría comprar varias máquinas así, pero pensando en la depreciación, todavía me parece demasiado pronto
    Creo que en unos años serán mucho más baratas
    • Antes de comprar, hay que revisar sí o sí benchmarks reales de velocidad
      No basta con creer en un simple “funciona”; el rendimiento en contextos largos es completamente distinto
    • Personalmente, no creo que comprar hardware así tenga sentido económico
      Con la misma cantidad de dinero puedes conseguir muchísimo más uso en la nube
      Además, como no lo vas a tener corriendo 24/7, la eficiencia baja
      Para modelos open source, es mucho más cómodo usar servicios de ultrabaja latencia como Groq o Cerebras
    • La razón para correr modelos locales es la privacidad, no el costo ni la latencia
    • Espero que en la próxima actualización venga con una variante del chip M5
    • Probablemente convenga esperar hasta que se estabilicen los precios de la RAM
  • Me pregunto qué benchmarks siguen siendo válidos hoy
    Pruebo varios modelos en Cursor, pero Deepseek v3.2 o Kimi K2 no funcionan bien por problemas de formato, y también faltan otros modelos
    En especial me interesan benchmarks de áreas no web, como C++ o Rust
  • Habría que mencionar que este modelo es una versión con cuantización de 4 bits (4bit quant). Aun así, es impresionante
    • Kimi K2 fue diseñado desde el principio con el objetivo de estar optimizado para 4 bits
    • Si el número de parámetros está en el orden del billón, creo que la cuantización ya se da por sentada
  • También me pregunto si la aceleración de token pre-fill de Exo Labs puede correr en DGX Spark
    Me queda la duda de si combinar 2 Spark y 2 Mac Studio podría dar una velocidad de inferencia parecida a la de 2 M5 Ultra
  • Tengo la impresión de que este es justo el modelo que ganó recientemente la competencia de dibujo de relojes en tiempo real