- En el iPhone 17 Pro se ejecutó un LLM de 400 mil millones de parámetros, con una velocidad de alrededor de 0.6 tokens por segundo
- El modelo usa una arquitectura Mixture of Experts (MoE), y los pesos que realmente se activan son de unos 5 mil millones de parámetros
- Se reconstruyó en una versión con cuantización de 4 bits, pero sigue siendo muy lento
- Utiliza un esquema de uso dual de RAM de GPU y CPU y carga por streaming desde SSD
- Se hizo un fork de Flash-Moe y fue publicado en Anemll/flash-moe (rama iOS-App)
1 comentarios
Opiniones en Hacker News
Me pregunto si la técnica de streaming directo del SSD al GPU está basada en el paper de Apple de 2023 LLM in a Flash
Soñé que todo el mundo llevaba una IA superinteligente en el bolsillo, pero al final solo hacían doomscrolling y catfishing hasta que el mundo se acababa
Mi iPad Air (M2) corre LLM locales bastante bien, pero en pocos segundos se sobrecalienta y enseguida entra en throttling
Qwen3.5-397B-A17B en realidad se comporta como un modelo de 17B. Omitir la parte de MoE en el título no es más que publicidad exagerada.
La cuantización (quantization) también es una especie de cheat code, así que algún día alguien podría decir que un modelo cuantizado a 1-bit es un “modelo grande”
Existe la duda de: “Si es un modelo de 400B, pero con arquitectura MoE, ¿cuántos parámetros están realmente activos?”
Esta noticia me recuerda a cuando salió por primera vez llama.c y todo el mundo se emocionaba porque ya se podían ejecutar modelos en local
Instalé Termux en un viejo teléfono Android (LineageOS) y ahí corrí Ollama con un modelo pequeño. El rendimiento era terrible, pero sí funciona
Los modelos MoE de Qwen sufren una caída brusca de rendimiento cuando la parte activa baja al nivel de 2B. En la inferencia real usan decenas de veces menos parámetros, así que llamarlo un modelo de 400B no tiene mucho sentido
Existe la pregunta de: “¿Cuánto falta para que un modelo de este nivel corra a 100 tokens por segundo?”
Si no sigues a anemll, vale la pena saber que también publicó una versión capaz de ejecutar OpenClaw en iPhone.
A medida que evolucionan el hardware y los modelos, el futuro de la IA móvil se ve bastante prometedor