3 puntos por GN⁺ 14 일 전 | 1 comentarios | Compartir por WhatsApp
  • El modelo de código abierto Gemma 4 de Google ahora puede ejecutarse de forma nativa en iPhone sin conexión a internet, realizando inferencia totalmente offline
  • El modelo 31B de Gemma 4 muestra un rendimiento similar al modelo 27B de Qwen 3.5, aunque tiene aproximadamente 4 mil millones de parámetros más
  • Las variantes E2B y E4B son modelos móviles optimizados para velocidad y control térmico, y la app de Google recomienda usar E2B por defecto
  • Los usuarios pueden elegir el modelo desde la app Google AI Edge Gallery y ejecutar inferencia en el dispositivo sin API ni nube
  • Esto muestra que la transición hacia la IA on-device ya es una realidad y se considera un hito importante para la expansión del ecosistema de edge AI

Ejecución on-device de Google Gemma 4 en iPhone

  • El modelo de código abierto Gemma 4 de Google admite inferencia completamente offline en iPhone y funciona de forma nativa
    • Permite realizar inferencia local sin conexión a internet
    • El despliegue de edge AI deja de ser un reto del futuro para convertirse en una realidad tecnológica actual
  • En la comparación de rendimiento, la variante 31B de Gemma 4 fue evaluada en un nivel similar al modelo 27B de Qwen 3.5
    • Gemma tiene aproximadamente 4 mil millones más de parámetros
    • Ambos modelos tienen fortalezas distintas según la tarea, por lo que no hay una superioridad absoluta
  • Las variantes E2B y E4B, optimizadas para móvil, son las que más llaman la atención
    • Priorizan la eficiencia, por lo que ofrecen ventajas en velocidad, ligereza y control térmico
    • La app de Google recomienda usar E2B por defecto
  • La app Google AI Edge Gallery puede descargarse desde la App Store y ejecutarse de inmediato
    • El usuario puede elegir una variante del modelo y realizar inferencia directamente en el dispositivo
    • No requiere llamadas a API ni dependencia de la nube
  • Más allá de una simple interfaz de texto, la app incluye reconocimiento de imágenes, interacción por voz y un framework de Skills extensible
    • Está diseñada como una plataforma de experimentación de IA on-device para desarrolladores y usuarios avanzados

Arquitectura técnica y rendimiento

  • Gemma 4 utiliza una ruta de inferencia a través del GPU del iPhone
    • La latencia de respuesta es muy baja, lo que demuestra que incluso en hardware de consumo es posible manejar cargas de trabajo de IA de alto rendimiento
    • Se considera un caso clave que muestra la viabilidad comercial del despliegue local de IA
  • La capacidad offline amplía de forma importante su utilidad en entornos empresariales
    • Puede usarse sin depender de la nube en trabajo de campo, entornos médicos y áreas donde la privacidad de los datos es crítica

Significado y perspectiva

  • La ejecución de Gemma 4 en iPhone no es solo una demostración técnica, sino que simboliza la llegada de la era de la IA on-device
    • Google está acelerando seriamente la expansión del ecosistema de edge AI a través de Gemma
    • Como sugiere la expresión “Gemma salió de la botella”, la transición hacia la localización de la IA ya comenzó

1 comentarios

 
GN⁺ 14 일 전
Opiniones de Hacker News
  • El estilo del artículo se sintió como si lo hubiera escrito un LLM
    Se repite varias veces un patrón como “It’s not mere X — it’s Y”

    • Hicieron la broma de que no podían creer que alguien cuestionara los estándares morales de “gizmoweek dot com”
    • Da igual si quien escribió el texto fue una persona o un LLM. El problema es la falta de detalles: no hay benchmarks por modelo de iPhone y el contenido está casi vacío
    • Lo probaron con varios modelos como Claude y Grok, y todos señalaron los problemas típicos de una granja de contenido, como la falta de fuentes y las frases repetitivas. Ni siquiera pueden demostrar que el autor exista de verdad
    • Al ver el emoticono “:v”, se alegraron como si hubieran encontrado a un millennial después de mucho tiempo
    • Les da la impresión de que la IA nos está entrenando para evitar ciertos patrones de lenguaje. Dicen que no quieren convertirse en rehenes de un lenguaje débil
  • Descubrieron que la inferencia se realiza a través de la GPU y no del Apple Neural Engine
    Parece que los ingenieros de Google abandonaron la compilación de kernels personalizados para los bloques tensoriales propietarios de Apple. Metal es fácil de portar, pero consume mucha batería. Hasta que reescriban el backend para ANE, esto se queda en una simple demo técnica

    • El ANE no es realmente adecuado para ejecutar LLMs. El ecosistema de LLM está estandarizado alrededor de CPU/GPU, e incluso MLX de Apple no tiene soporte para ANE
    • Mencionan un artículo de 9to5mac que dice que en unos meses, en la WWDC, se anunciará un framework Core AI para reemplazar CoreML, y expresan expectativa por eso
    • El ANE solo es eficiente si se agrupa en unidades vectoriales de al menos 128. Es ineficiente para generar tokens, pero son más optimistas que antes gracias a técnicas recientes como Flash-MoE o DFlash
    • El consumo energético está bien, pero no les entusiasman funciones como la escucha en segundo plano 24/7 por cuestiones de control de privacidad
    • La app AI Edge Gallery de Android también usa solo GPU. Parece que no es tanto un problema de los bloques tensoriales de Apple, sino que Google simplemente no le ha puesto mucha atención al tema en general
  • Crearon una app de programación offline (pucky) con Gemma 4 y la ejecutaron en iPhone
    Recomiendan ver el enlace de GitHub. El modelo 4B también funciona, pero por limitaciones de memoria el predeterminado es 2B. Genera un solo archivo TypeScript y lo compila con oxc. Es difícil que pase la revisión de la App Store, así que hay que compilarla directamente con Xcode

    • Remiten a un hilo anterior de HN y sugieren que podría rehacerse en Swift en vez de React Native
  • Parece que Apple está limitando los LLM locales en la App Store. Dicen que al intentar distribuir su app directamente, los bloquearon por la cláusula 2.5.2

    • Predicen que Apple endurecerá cada vez más la regulación relacionada con LLM. Si los usuarios pudieran crear apps por sí mismos, eso amenazaría el modelo de negocio de Apple
    • Pero las reglas no son consistentes. En su teléfono ya funcionan sin problema Google Edge Gallery y Locally AI
    • Citan el texto completo de la guía 2.5.2 de la App Store y cuestionan por qué un LLM local caería bajo esa regla
    • Dicen que su propia app incluía un LLM optimizado para ANE, funcionaba completamente offline y además fue aprobada en solo un día. Analizan que quizá Apple busca filtrar apps de spam con IA. También mencionan un artículo de MacRumors
    • Preguntan si las apps relacionadas con Cactus Compute están enfrentando el mismo problema
  • Comparten como hilo relacionado Gemma 4 on iPhone

  • En un iPhone 16 Plus, la velocidad es muy alta, pero con mensajes largos se vuelve mucho más lenta. No parece ser por thermal throttling. Dicen que les gustaría ver los datos de diagnóstico

    • La inferencia de LLM tiene complejidad O(tokens²), así que es normal que se vuelva más lenta a medida que aumenta la longitud
  • Esperaban una app iOS de Edge Gallery con Gemma 4, pero resulta incómoda por las restricciones de acceso a intents y la necesidad de plugins personalizados para búsquedas web. ChatMCP, al estar basado en API, resulta al menos algo utilizable

  • Instalaron Google AI Edge Gallery en un iPhone 16 Pro e hicieron benchmarks
    Compartieron resultados en GPU de 231t/s en prefill, 16t/s en decode, 1.16 segundos hasta el primer token y 20 segundos de inicialización

  • Hay que tener cuidado al usar modelos pequeños
    Ante la pregunta “¿un perro puede comer aguacate?”, respondió con seguridad “Yes”. Hay que reconocer las limitaciones del modelo

    • Respondieron en tono de broma: “Técnicamente sí puede comerlo…”
  • Aunque sea offline, sospechan que Google recogerá datos de entrada o información del dispositivo

    • Al ver el código fuente en GitHub, notaron que no recopila el contenido de los mensajes, pero sí registra estadísticas de uso del modelo
    • Comparten una anécdota curiosa sobre materiales internos de capacitación de Google, donde usan un producto ficticio llamado “gShoe” para tratar los problemas de privacidad en la recolección de datos
    • Mencionan que Apple está impulsando su estrategia de IA on-device pagando mil millones de dólares a Google, y que esto podría ser un adelanto de ello