6 puntos por GN⁺ 2026-03-24 | 1 comentarios | Compartir por WhatsApp
  • En el iPhone 17 Pro se ejecutó un LLM de 400 mil millones de parámetros, con una velocidad de alrededor de 0.6 tokens por segundo
  • El modelo usa una arquitectura Mixture of Experts (MoE), y los pesos que realmente se activan son de unos 5 mil millones de parámetros
  • Se reconstruyó en una versión con cuantización de 4 bits, pero sigue siendo muy lento
  • Utiliza un esquema de uso dual de RAM de GPU y CPU y carga por streaming desde SSD
  • Se hizo un fork de Flash-Moe y fue publicado en Anemll/flash-moe (rama iOS-App)

1 comentarios

 
GN⁺ 2026-03-24
Opiniones en Hacker News
  • Me pregunto si la técnica de streaming directo del SSD al GPU está basada en el paper de Apple de 2023 LLM in a Flash

    • Sí. Resumí los detalles relacionados en una entrada de mi blog
    • Un enfoque parecido también se presentó recientemente en este hilo de HN. Pero el iPhone Pro está limitado a 12 GB de RAM, así que no alcanza para contener la parte activa del modelo. También se podría usar almacenamiento más resistente, como Intel Optane, pero consume demasiada energía y no es adecuado para móviles
    • Este método no es muy distinto de la estructura de Cerebus que hace streaming de los weights
  • Soñé que todo el mundo llevaba una IA superinteligente en el bolsillo, pero al final solo hacían doomscrolling y catfishing hasta que el mundo se acababa

    • Me hace pensar en un Nostradamus moderno
  • Mi iPad Air (M2) corre LLM locales bastante bien, pero en pocos segundos se sobrecalienta y enseguida entra en throttling

    • Me pregunto si alguien habrá hecho un sistema de refrigeración líquida para iPad o teléfonos. Algo como un dispositivo sellado pegado a la parte trasera que haga circular refrigerante
  • Qwen3.5-397B-A17B en realidad se comporta como un modelo de 17B. Omitir la parte de MoE en el título no es más que publicidad exagerada.
    La cuantización (quantization) también es una especie de cheat code, así que algún día alguien podría decir que un modelo cuantizado a 1-bit es un “modelo grande”

    • En la práctica se comporta más o menos como un modelo de 80B, y su nivel de conocimiento del mundo se acerca al de uno de 400B. Se ha publicado todo, desde la arquitectura del modelo hasta la cuantización y el tiempo hasta el primer token, así que no hay mucho margen para malentendidos. Este tipo de intentos se parece más a un experimento técnico tipo code golf que a algo dirigido al usuario común
  • Existe la duda de: “Si es un modelo de 400B, pero con arquitectura MoE, ¿cuántos parámetros están realmente activos?”

    • En Qwen3.5-397B-A17B hay 17B parámetros activos. El código relacionado puede verse en el repositorio de la app flash-moe para iOS
    • Hoy en día la mayoría de las empresas está adoptando arquitecturas MoE
  • Esta noticia me recuerda a cuando salió por primera vez llama.c y todo el mundo se emocionaba porque ya se podían ejecutar modelos en local

  • Instalé Termux en un viejo teléfono Android (LineageOS) y ahí corrí Ollama con un modelo pequeño. El rendimiento era terrible, pero sí funciona

    • Todavía recuerdo haber compilado y corrido yo mismo un minero de Bitcoin en un Galaxy Note usando Linux Deploy. El rendimiento era pésimo, pero se sentía como llevar una computadora completa en el bolsillo. En la época de Nokia no se podía ejecutar nada aparte del JS del navegador, pero Android sí era una plataforma hackeable de verdad
    • Como referencia, mi Pixel 8 corre el modelo Qwen3.5 4B a 2 tokens por segundo. En la app PocketPal funciona bien, pero la app Cactus no me funcionó
  • Los modelos MoE de Qwen sufren una caída brusca de rendimiento cuando la parte activa baja al nivel de 2B. En la inferencia real usan decenas de veces menos parámetros, así que llamarlo un modelo de 400B no tiene mucho sentido

  • Existe la pregunta de: “¿Cuánto falta para que un modelo de este nivel corra a 100 tokens por segundo?”

    • La única forma sería integrar el modelo directamente en el hardware. De hecho, esta entrada de blog presenta un chip así, pero es demasiado grande para caber en un smartphone
    • En smartphones no vale la pena correr modelos tan grandes. Es más rápido y más preciso afinar modelos pequeños para casos de uso específicos
    • El modelo Apollo (LFM2) de Liquid AI funciona bastante rápido incluso en teléfonos, y es útil para tareas como resumir resultados de búsqueda o resolver problemas de matemáticas
    • Realistamente, lo veo imposible. No hay una solución de ingeniería
    • Yo diría que faltan unos 15 a 20 años. Que hoy este modelo “corra” en un teléfono es cierto solo en un sentido técnico. En la práctica, la capacidad de RAM y el ancho de banda de memoria están muy por debajo de lo necesario. Se puede hacer una demo usando SSD, pero no es práctico. Al final harán falta nuevos algoritmos y diseño de chips a medida. Con la arquitectura Transformer actual, el límite está bastante claro
  • Si no sigues a anemll, vale la pena saber que también publicó una versión capaz de ejecutar OpenClaw en iPhone.
    A medida que evolucionan el hardware y los modelos, el futuro de la IA móvil se ve bastante prometedor