1 puntos por GN⁺ 2026-02-02 | 1 comentarios | Compartir por WhatsApp
  • En el iPhone 16 Pro Max, al ejecutar un LLM con MLX se producen salidas numéricas incorrectas, mientras que el mismo código funciona con normalidad en un iPhone 15 Pro y una MacBook Pro
  • Los valores de los tensores difieren por más de una cifra, y se confirmó un fenómeno en el que el resultado se distorsiona incluso con la misma entrada
  • Se estima que la causa del problema es un defecto de hardware en el Neural Engine o en la pila de operaciones de ML basada en Metal
  • Las funciones de Apple Intelligence también mostraron inestabilidad similar, como fallas al descargar, lo que plantea una posible relación
  • El desarrollador enfatiza, a partir de este caso, que al depurar también hay que considerar problemas de hardware físico

Se detecta un error al ejecutar MLX LLM

  • En el iPhone 16 Pro Max, al ejecutar un LLM basado en MLX se genera una salida sin sentido (gibberish)
    • El mismo código funciona normalmente en un iPhone 15 Pro y una MacBook Pro
    • El uso de CPU sube al 100% y, como no se genera el token “stop”, el estado de salida infinita continúa
  • Aun usando el mismo modelo y prompt, los valores de salida de los tensores se vuelven anormalmente grandes
    • En el iPhone 15 Pro: [53.875, 62.5625, -187.75, ...]
    • En el iPhone 16 Pro Max: [191.5, 23.625, 173.75, ..., 1298, -147.25, -162.5]
    • Los valores de entrada eran los mismos, pero en la etapa de cálculo intermedio los números se distorsionaban bruscamente

Problemas con las funciones de Apple Intelligence

  • Se intentó implementar una función de clasificación de gastos usando la API de Apple Intelligence, pero no se descargó el soporte del modelo
    • Aunque se cambiaron varias veces los ajustes, la función no se activó
    • En los foros de la comunidad de Apple también se reportó que muchos usuarios sufrían el mismo problema (12 páginas de reportes)
  • Debido a esto, se abandonó el acceso a Apple Intelligence y se cambió a un enfoque basado en MLX

Proceso de depuración y rastreo de la causa

  • Se colocó un breakpoint en la implementación del modelo Gemma de MLX para rastrear los valores de los tensores en cada capa
    • Los valores de entrada eran idénticos en ambos dispositivos, pero en el iPhone 16 Pro Max los números empezaban a crecer de forma anormal desde una etapa intermedia
    • En la Mac también se confirmó el mismo resultado correcto que en el iPhone 15 Pro
  • Con esto, se concluyó que se trataba de un problema de hardware y no del código ni del modelo

Posible defecto de hardware

  • Existe la posibilidad de que haya errores de cálculo en el Neural Engine del chip A18 del iPhone 16 Pro Max o en la ruta de operaciones de ML basada en Metal
    • MLX compila las operaciones de tensores mediante Metal, por lo que un defecto en esa pila podría provocar la distorsión de los resultados
  • También se menciona la posibilidad de que tenga la misma causa que el problema de Apple Intelligence, aunque no hay pruebas claras

Conclusión y lecciones

  • Se confirmó que el iPhone 16 Pro Max con el problema era una unidad con defecto de hardware
    • Después de cambiarlo por un iPhone 17 Pro Max, todas las funciones operaron normalmente
  • A partir de esta experiencia, el desarrollador enfatiza que al depurar se deben considerar no solo los problemas de software, sino también los de hardware físico
  • Tres lecciones:
    • Un error al ejecutar un LLM no siempre es un problema de código
    • La importancia de las pruebas comparativas en el mismo entorno
    • Incluso hardware costoso puede no garantizar la precisión de los cálculos de ML

1 comentarios

 
GN⁺ 2026-02-02
Opiniones de Hacker News
  • Incluso dejando de lado la metodología, hacer sumas con un LLM no es una muy buena idea
    Es casi tan gracioso como preguntar algo como “¿qué da luna más sol?”
    Pero este fenómeno en sí es distinto. La API de operaciones numéricas de Apple está dando resultados inconsistentes en algunos dispositivos. Eso es algo a lo que Apple debería prestar atención
    • Esto ya es totalmente aparte, pero en mi cabeza de inmediato pensé en “brillo”.
      Porque si sumas sol(日) y luna(月), obtienes 明 (enlace a Wiktionary)
      También podría salir una respuesta como “luna llena”, pero no parece haber una respuesta clara y determinista
    • “¿Luna más sol?” Eso obviamente es un eclipse
  • Me habría gustado que también lo probaran en otro iPhone 16 Pro Max. Habría servido para confirmar si era un problema exclusivo de esa unidad
    • Sí. Siguiendo lo que normalmente recomienda Apple Support, deberían haber restablecido e instalado de nuevo el OS
      Haciendo respaldo, por supuesto, y si se puede usando un plan de iCloud+. Para este tipo de problemas, suele ser la solución más simple
    • Según la actualización más reciente al final de la página, en un iPhone 17 Pro Max todo funcionó normalmente
      O sea, parece que ese iPhone 16 Pro Max tenía un defecto de hardware
  • Las optimizaciones numéricas de bajo nivel a menudo son difíciles de reproducir
    Por ejemplo, eso también se menciona en la documentación de Intel
    Aun así, sorprende que el LLM no funcione en absoluto en el iPhone 16. Los LLM normalmente suelen tolerar bastante bien la cuantización (quantization)
    • Que “la acumulación en punto flotante no cumple la propiedad conmutativa” es conocimiento básico
      Al principio quise descartar el problema por esa razón,
      pero me pareció raro que todos los demás dispositivos de Apple dieran el mismo resultado, y que solo el LLM de Apple fallara en este equipo
      Más que un problema fundamental, esto parece una falla inesperada. No está bien que Apple haya enviado un dispositivo en ese estado
  • Sinceramente, cuando hice clic en este artículo, pensé que iba a tratarse de cómo una vieja calculadora gráfica era mejor que un smartphone
    Cuando hago matemáticas en mi teléfono, uso el emulador de HP Prime
    • A mí me gusta PCalc. Funciona en todas las plataformas de Apple desde la época de Mac Classic (enlace)
      Otras calculadoras que uso mucho son free42 y plus42 (enlace)
      Como herramienta CAS, MathStudio es excelente (mathstud.io)
      También corre en el navegador, pero además tiene app móvil. Se siente como una especie de Wolfram Alpha autoalojado
    • En lo personal uso iHP48. Es una versión con metakernal del HP 48GX que usaba en la universidad
      Sigue siendo intuitiva y rápida
    • Me dio gusto enterarme de que puedes borrar la app de calculadora predeterminada del iPhone y reemplazarla por NumWorks
      La dejé configurada para abrirse directo desde el botón del Control Center
      Mi queja es que, aunque la pantalla es así de grande, no puedes desplazarte para ver el historial de cálculos anteriores
      Ya no quiero seguir viendo una UI que parece una copia de una calculadora de 4 funciones de los años 90
    • En Android uso un emulador de TI 83+. Sirve cuando no puedo cargar la calculadora real
    • Cuando necesito hacer cálculos en serio, al final saco la calculadora TI-84 física. Es por costumbre y memoria muscular
  • El artículo fue interesante, pero la lógica del final de que “MLX usa el Neural Engine” no cuadra
    MLX también puede correr en CPU, Apple GPU(Metal) y NVIDIA GPU(CUDA) (enlace)
  • Creo que publicar código que permita reproducir el bug ayudaría no solo a Apple, sino también a otras personas
  • Entonces, ¿será por eso que el texto predictivo de mi iPhone anda tan mal?
    • Entonces no era solo yo. En los últimos 6 meses escribir ha sido realmente horrible
      He cambiado la configuración de todas las formas posibles, pero el texto predictivo se detiene al azar o falla
    • Está tan mal que ya hasta parece intencional
      O quizá sea una optimización para empujarte a usar dictado por voz
  • Buen artículo. Solo me habría gustado ver al menos un caso de prueba mínimo que dejara claro si el resultado de la operación matemática realmente era incorrecto
  • Le pregunté “¿cuánto es 2+2?” y el iPhone respondió algo raro como “Applied.....*_dAK[...]”
    Pero bueno, al menos no dijo “7”
    • Capaz que Trurl y Klapaucius eran los encargados del sistema de preguntas y respuestas
  • Es posible que otras apps que usan el Neural Engine también hayan mostrado anomalías parecidas
    Habría sido interesante probar algunas apps del App Store para ver qué resultados daban