Google Gemma 4 admite inferencia de IA completamente offline en iPhone

(gizmoweek.com)

3 puntos por GN⁺ 13 일 전 | 1 comentarios | Compartir por WhatsApp

El modelo de código abierto Gemma 4 de Google ahora puede ejecutarse de forma nativa en iPhone sin conexión a internet, realizando inferencia totalmente offline
El modelo 31B de Gemma 4 muestra un rendimiento similar al modelo 27B de Qwen 3.5, aunque tiene aproximadamente 4 mil millones de parámetros más
Las variantes E2B y E4B son modelos móviles optimizados para velocidad y control térmico, y la app de Google recomienda usar E2B por defecto
Los usuarios pueden elegir el modelo desde la app Google AI Edge Gallery y ejecutar inferencia en el dispositivo sin API ni nube
Esto muestra que la transición hacia la IA on-device ya es una realidad y se considera un hito importante para la expansión del ecosistema de edge AI

Ejecución on-device de Google Gemma 4 en iPhone

El modelo de código abierto Gemma 4 de Google admite inferencia completamente offline en iPhone y funciona de forma nativa
- Permite realizar inferencia local sin conexión a internet
- El despliegue de edge AI deja de ser un reto del futuro para convertirse en una realidad tecnológica actual
En la comparación de rendimiento, la variante 31B de Gemma 4 fue evaluada en un nivel similar al modelo 27B de Qwen 3.5
- Gemma tiene aproximadamente 4 mil millones más de parámetros
- Ambos modelos tienen fortalezas distintas según la tarea, por lo que no hay una superioridad absoluta
Las variantes E2B y E4B, optimizadas para móvil, son las que más llaman la atención
- Priorizan la eficiencia, por lo que ofrecen ventajas en velocidad, ligereza y control térmico
- La app de Google recomienda usar E2B por defecto
La app Google AI Edge Gallery puede descargarse desde la App Store y ejecutarse de inmediato
- El usuario puede elegir una variante del modelo y realizar inferencia directamente en el dispositivo
- No requiere llamadas a API ni dependencia de la nube
Más allá de una simple interfaz de texto, la app incluye reconocimiento de imágenes, interacción por voz y un framework de Skills extensible
- Está diseñada como una plataforma de experimentación de IA on-device para desarrolladores y usuarios avanzados

Arquitectura técnica y rendimiento

Gemma 4 utiliza una ruta de inferencia a través del GPU del iPhone
- La latencia de respuesta es muy baja, lo que demuestra que incluso en hardware de consumo es posible manejar cargas de trabajo de IA de alto rendimiento
- Se considera un caso clave que muestra la viabilidad comercial del despliegue local de IA
La capacidad offline amplía de forma importante su utilidad en entornos empresariales
- Puede usarse sin depender de la nube en trabajo de campo, entornos médicos y áreas donde la privacidad de los datos es crítica

Significado y perspectiva

La ejecución de Gemma 4 en iPhone no es solo una demostración técnica, sino que simboliza la llegada de la era de la IA on-device
- Google está acelerando seriamente la expansión del ecosistema de edge AI a través de Gemma
- Como sugiere la expresión “Gemma salió de la botella”, la transición hacia la localización de la IA ya comenzó

1 comentarios

GN⁺ 13 일 전

Opiniones de Hacker News

El estilo del artículo se sintió como si lo hubiera escrito un LLM
Se repite varias veces un patrón como “It’s not mere X — it’s Y”
- Hicieron la broma de que no podían creer que alguien cuestionara los estándares morales de “gizmoweek dot com”
- Da igual si quien escribió el texto fue una persona o un LLM. El problema es la falta de detalles: no hay benchmarks por modelo de iPhone y el contenido está casi vacío
- Lo probaron con varios modelos como Claude y Grok, y todos señalaron los problemas típicos de una granja de contenido, como la falta de fuentes y las frases repetitivas. Ni siquiera pueden demostrar que el autor exista de verdad
- Al ver el emoticono “:v”, se alegraron como si hubieran encontrado a un millennial después de mucho tiempo
- Les da la impresión de que la IA nos está entrenando para evitar ciertos patrones de lenguaje. Dicen que no quieren convertirse en rehenes de un lenguaje débil
Descubrieron que la inferencia se realiza a través de la GPU y no del Apple Neural Engine
Parece que los ingenieros de Google abandonaron la compilación de kernels personalizados para los bloques tensoriales propietarios de Apple. Metal es fácil de portar, pero consume mucha batería. Hasta que reescriban el backend para ANE, esto se queda en una simple demo técnica
- El ANE no es realmente adecuado para ejecutar LLMs. El ecosistema de LLM está estandarizado alrededor de CPU/GPU, e incluso MLX de Apple no tiene soporte para ANE
- Mencionan un artículo de 9to5mac que dice que en unos meses, en la WWDC, se anunciará un framework Core AI para reemplazar CoreML, y expresan expectativa por eso
- El ANE solo es eficiente si se agrupa en unidades vectoriales de al menos 128. Es ineficiente para generar tokens, pero son más optimistas que antes gracias a técnicas recientes como Flash-MoE o DFlash
- El consumo energético está bien, pero no les entusiasman funciones como la escucha en segundo plano 24/7 por cuestiones de control de privacidad
- La app AI Edge Gallery de Android también usa solo GPU. Parece que no es tanto un problema de los bloques tensoriales de Apple, sino que Google simplemente no le ha puesto mucha atención al tema en general
Crearon una app de programación offline (pucky) con Gemma 4 y la ejecutaron en iPhone
Recomiendan ver el enlace de GitHub. El modelo 4B también funciona, pero por limitaciones de memoria el predeterminado es 2B. Genera un solo archivo TypeScript y lo compila con oxc. Es difícil que pase la revisión de la App Store, así que hay que compilarla directamente con Xcode
- Remiten a un hilo anterior de HN y sugieren que podría rehacerse en Swift en vez de React Native
Parece que Apple está limitando los LLM locales en la App Store. Dicen que al intentar distribuir su app directamente, los bloquearon por la cláusula 2.5.2
- Predicen que Apple endurecerá cada vez más la regulación relacionada con LLM. Si los usuarios pudieran crear apps por sí mismos, eso amenazaría el modelo de negocio de Apple
- Pero las reglas no son consistentes. En su teléfono ya funcionan sin problema Google Edge Gallery y Locally AI
- Citan el texto completo de la guía 2.5.2 de la App Store y cuestionan por qué un LLM local caería bajo esa regla
- Dicen que su propia app incluía un LLM optimizado para ANE, funcionaba completamente offline y además fue aprobada en solo un día. Analizan que quizá Apple busca filtrar apps de spam con IA. También mencionan un artículo de MacRumors
- Preguntan si las apps relacionadas con Cactus Compute están enfrentando el mismo problema
Comparten como hilo relacionado Gemma 4 on iPhone
- También mencionan un caso de hace 22 días donde el iPhone 17 Pro ejecutó un LLM de 400B
En un iPhone 16 Plus, la velocidad es muy alta, pero con mensajes largos se vuelve mucho más lenta. No parece ser por thermal throttling. Dicen que les gustaría ver los datos de diagnóstico
- La inferencia de LLM tiene complejidad O(tokens²), así que es normal que se vuelva más lenta a medida que aumenta la longitud
Esperaban una app iOS de Edge Gallery con Gemma 4, pero resulta incómoda por las restricciones de acceso a intents y la necesidad de plugins personalizados para búsquedas web. ChatMCP, al estar basado en API, resulta al menos algo utilizable
Instalaron Google AI Edge Gallery en un iPhone 16 Pro e hicieron benchmarks
Compartieron resultados en GPU de 231t/s en prefill, 16t/s en decode, 1.16 segundos hasta el primer token y 20 segundos de inicialización
Hay que tener cuidado al usar modelos pequeños
Ante la pregunta “¿un perro puede comer aguacate?”, respondió con seguridad “Yes”. Hay que reconocer las limitaciones del modelo
- Respondieron en tono de broma: “Técnicamente sí puede comerlo…”
Aunque sea offline, sospechan que Google recogerá datos de entrada o información del dispositivo
- Al ver el código fuente en GitHub, notaron que no recopila el contenido de los mensajes, pero sí registra estadísticas de uso del modelo
- Comparten una anécdota curiosa sobre materiales internos de capacitación de Google, donde usan un producto ficticio llamado “gShoe” para tratar los problemas de privacidad en la recolección de datos
- Mencionan que Apple está impulsando su estrategia de IA on-device pagando mil millones de dólares a Google, y que esto podría ser un adelanto de ello

Google Gemma 4 admite inferencia de IA completamente offline en iPhone

Ejecución on-device de Google Gemma 4 en iPhone

Arquitectura técnica y rendimiento

Significado y perspectiva

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News