- El modelo de código abierto Gemma 4 de Google ahora puede ejecutarse de forma nativa en iPhone sin conexión a internet, realizando inferencia totalmente offline
- El modelo 31B de Gemma 4 muestra un rendimiento similar al modelo 27B de Qwen 3.5, aunque tiene aproximadamente 4 mil millones de parámetros más
- Las variantes E2B y E4B son modelos móviles optimizados para velocidad y control térmico, y la app de Google recomienda usar E2B por defecto
- Los usuarios pueden elegir el modelo desde la app Google AI Edge Gallery y ejecutar inferencia en el dispositivo sin API ni nube
- Esto muestra que la transición hacia la IA on-device ya es una realidad y se considera un hito importante para la expansión del ecosistema de edge AI
Ejecución on-device de Google Gemma 4 en iPhone
- El modelo de código abierto Gemma 4 de Google admite inferencia completamente offline en iPhone y funciona de forma nativa
- Permite realizar inferencia local sin conexión a internet
- El despliegue de edge AI deja de ser un reto del futuro para convertirse en una realidad tecnológica actual
- En la comparación de rendimiento, la variante 31B de Gemma 4 fue evaluada en un nivel similar al modelo 27B de Qwen 3.5
- Gemma tiene aproximadamente 4 mil millones más de parámetros
- Ambos modelos tienen fortalezas distintas según la tarea, por lo que no hay una superioridad absoluta
- Las variantes E2B y E4B, optimizadas para móvil, son las que más llaman la atención
- Priorizan la eficiencia, por lo que ofrecen ventajas en velocidad, ligereza y control térmico
- La app de Google recomienda usar E2B por defecto
- La app Google AI Edge Gallery puede descargarse desde la App Store y ejecutarse de inmediato
- El usuario puede elegir una variante del modelo y realizar inferencia directamente en el dispositivo
- No requiere llamadas a API ni dependencia de la nube
- Más allá de una simple interfaz de texto, la app incluye reconocimiento de imágenes, interacción por voz y un framework de Skills extensible
- Está diseñada como una plataforma de experimentación de IA on-device para desarrolladores y usuarios avanzados
Arquitectura técnica y rendimiento
- Gemma 4 utiliza una ruta de inferencia a través del GPU del iPhone
- La latencia de respuesta es muy baja, lo que demuestra que incluso en hardware de consumo es posible manejar cargas de trabajo de IA de alto rendimiento
- Se considera un caso clave que muestra la viabilidad comercial del despliegue local de IA
- La capacidad offline amplía de forma importante su utilidad en entornos empresariales
- Puede usarse sin depender de la nube en trabajo de campo, entornos médicos y áreas donde la privacidad de los datos es crítica
Significado y perspectiva
- La ejecución de Gemma 4 en iPhone no es solo una demostración técnica, sino que simboliza la llegada de la era de la IA on-device
- Google está acelerando seriamente la expansión del ecosistema de edge AI a través de Gemma
- Como sugiere la expresión “Gemma salió de la botella”, la transición hacia la localización de la IA ya comenzó
1 comentarios
Opiniones de Hacker News
El estilo del artículo se sintió como si lo hubiera escrito un LLM
Se repite varias veces un patrón como “It’s not mere X — it’s Y”
Descubrieron que la inferencia se realiza a través de la GPU y no del Apple Neural Engine
Parece que los ingenieros de Google abandonaron la compilación de kernels personalizados para los bloques tensoriales propietarios de Apple. Metal es fácil de portar, pero consume mucha batería. Hasta que reescriban el backend para ANE, esto se queda en una simple demo técnica
Crearon una app de programación offline (pucky) con Gemma 4 y la ejecutaron en iPhone
Recomiendan ver el enlace de GitHub. El modelo 4B también funciona, pero por limitaciones de memoria el predeterminado es 2B. Genera un solo archivo TypeScript y lo compila con oxc. Es difícil que pase la revisión de la App Store, así que hay que compilarla directamente con Xcode
Parece que Apple está limitando los LLM locales en la App Store. Dicen que al intentar distribuir su app directamente, los bloquearon por la cláusula 2.5.2
Comparten como hilo relacionado Gemma 4 on iPhone
En un iPhone 16 Plus, la velocidad es muy alta, pero con mensajes largos se vuelve mucho más lenta. No parece ser por thermal throttling. Dicen que les gustaría ver los datos de diagnóstico
Esperaban una app iOS de Edge Gallery con Gemma 4, pero resulta incómoda por las restricciones de acceso a intents y la necesidad de plugins personalizados para búsquedas web. ChatMCP, al estar basado en API, resulta al menos algo utilizable
Instalaron Google AI Edge Gallery en un iPhone 16 Pro e hicieron benchmarks
Compartieron resultados en GPU de 231t/s en prefill, 16t/s en decode, 1.16 segundos hasta el primer token y 20 segundos de inicialización
Hay que tener cuidado al usar modelos pequeños
Ante la pregunta “¿un perro puede comer aguacate?”, respondió con seguridad “Yes”. Hay que reconocer las limitaciones del modelo
Aunque sea offline, sospechan que Google recogerá datos de entrada o información del dispositivo