Presentación de los nuevos modelos fundacionales on-device y basados en servidor de Apple

(machinelearning.apple.com)

4 puntos por GN⁺ 2024-06-11 | 1 comentarios | Compartir por WhatsApp

En la WWDC 2024, Apple presentó Apple Intelligence, un sistema de inteligencia personal profundamente integrado en iOS 18, iPadOS 18 y macOS Sequoia
Apple Intelligence está compuesto por múltiples modelos generativos especializados en las tareas cotidianas del usuario y puede adaptarse de inmediato a la actividad actual
Los modelos fundacionales integrados fueron ajustados finamente para experiencias de usuario como redactar/mejorar documentos, resumir/priorizar notificaciones, generar imágenes divertidas para conversaciones y simplificar la interacción entre apps
Dos modelos —un modelo de lenguaje on-device de aproximadamente 3 mil millones de parámetros y un modelo de lenguaje más grande basado en servidor, ofrecido mediante Private Cloud Compute— fueron construidos y aplicados para realizar tareas especializadas de forma eficiente, precisa y responsable
Forman parte de una familia más amplia de modelos generativos creados por Apple, que incluye modelos de código para incorporar inteligencia en Xcode y modelos de difusión para ayudar con la expresión visual en la app Messages, entre otros

Enfoque en el desarrollo responsable de IA

Apple Intelligence fue diseñado para alinearse con valores fundamentales en cada etapa y construido sobre innovaciones revolucionarias de privacidad
Apple estableció principios de IA responsable para guiar el desarrollo de sus herramientas de IA y de los modelos que las sustentan:
1. Empoderar a los usuarios con herramientas inteligentes
2. Representar a los usuarios
3. Diseñar con cuidado
4. Proteger la privacidad
Estos principios están reflejados en toda la arquitectura que hace posible Apple Intelligence

Pre-Training

Los modelos fundacionales se entrenaron con AXLearn, el framework de Apple publicado como open source en 2023
Está construido sobre JAX y XLA, lo que permite un entrenamiento eficiente y escalable en distintos hardwares y plataformas en la nube
Usa una combinación de técnicas de paralelización que permiten escalar el entrenamiento en múltiples dimensiones, como datos, modelo y longitud de secuencia
Los modelos se entrenan con datos licenciados y datos públicos. Los web publishers pueden excluir el uso de su contenido web del entrenamiento de Apple Intelligence mediante controles sobre el uso de datos
Nunca se usan datos personales ni interacciones de los usuarios. Se aplican filtros para eliminar PII, filtrar contenido de baja calidad y clasificadores basados en modelos para identificar documentos de alta calidad

Post-Training

Al confirmar que la calidad de los datos es esencial para el éxito del modelo, Apple utiliza una estrategia de datos híbrida
Desarrolló un algoritmo de fine-tuning por rechazo de muestras mediante un comité de profesores, así como un algoritmo de RLHF que usa mirror descent policy optimization y un estimador de ventaja leave-one-out
Con estos dos algoritmos, la calidad del seguimiento de instrucciones del modelo mejoró de forma significativa

Optimization

Además de desarrollar modelos generativos de alto rendimiento, Apple aplicó varias técnicas innovadoras para optimizar velocidad y eficiencia tanto on-device como en la nube privada
Tanto el modelo on-device como el modelo de servidor usan grouped query attention
Para reducir requisitos de memoria y costo de inferencia, usan tablas compartidas de embeddings de vocabulario de entrada y salida
El modelo on-device usa un vocabulario de 49K, mientras que el modelo de servidor usa uno de 100K, incluyendo idiomas adicionales y tokens técnicos
Para la inferencia on-device se usa paletización de baja precisión: Apple desarrolló un nuevo framework de adaptadores LoRA que integra una estrategia mixta de configuración de 2 bits y 4 bits (promedio de 3.5 bits por peso) para obtener la misma precisión que el modelo sin comprimir
La herramienta Talaria se usa para orientar mejor la selección de bitrate para cada tarea
También se aprovechan la cuantización de activaciones y embeddings, y se desarrolló un método eficiente para actualizar la caché KV
Con este conjunto de optimizaciones, Apple logró una latencia time-to-first-token de aproximadamente 0.6 ms por token de prompt y una velocidad de generación de 30 tokens por segundo en iPhone 15 Pro

Model Adaptation

Los modelos fundacionales se ajustan finamente para las actividades cotidianas del usuario y pueden especializarse dinámicamente según la tarea en ejecución
Para afinar modelos para tareas específicas, se usan adaptadores, pequeños módulos de red neuronal que pueden conectarse a distintas capas del modelo preentrenado
Al afinar solo las capas de adaptadores, los parámetros originales del modelo base preentrenado no se modifican, se preserva el conocimiento general y las capas adaptadoras se personalizan para soportar tareas específicas

Performance and Evaluation

El enfoque está en ofrecer modelos generativos que permitan a los usuarios comunicarse, trabajar, expresarse y resolver tareas en todo el ecosistema de productos de Apple
Al hacer benchmarking de los modelos, Apple se enfoca en evaluaciones humanas, que mostraron una alta correlación con la experiencia del usuario
Se realizaron evaluaciones de rendimiento tanto para los modelos fundacionales como para los adaptadores por función

Ejemplo de evaluación de adaptadores de resumen:

Como los requisitos del producto para resumir correos electrónicos y notificaciones difieren de formas sutiles pero importantes, se afinó un adaptador LoRA sobre el modelo paletizado para cumplir con esos requisitos específicos
Los datos de entrenamiento se basan en resúmenes sintéticos generados por un modelo de servidor más grande, filtrados con una estrategia de rechazo de muestras para conservar solo resúmenes de alta calidad
La evaluación de resumen por producto se realizó usando un conjunto de 750 respuestas cuidadosamente muestreadas por caso de uso
El conjunto de datos de evaluación destaca una variedad de entradas que probablemente la funcionalidad del producto enfrente en producción, e incluye una mezcla estratificada de documentos únicos y apilados con diversos tipos y longitudes de contenido
Es importante evaluar el rendimiento sobre conjuntos de datos que representen casos de uso reales como funcionalidad de producto
Se encontró que el modelo con adaptadores genera mejores resúmenes que modelos comparables

Human Satisfaction Score on Summarization Feature Benchmark

Según la tabla de datos, el modelo on-device+adaptador de Apple muestra una mayor tasa de satisfacción positiva y una menor tasa de satisfacción negativa que el modelo Phi-3-mini en resúmenes de correos electrónicos y notificaciones. El modelo con adaptadores genera mejores resúmenes.
Apple evaluó capacidades generales de sus modelos on-device y de servidor usando un conjunto integral de evaluación compuesto por prompts del mundo real con distintos niveles de dificultad. Al compararlos con modelos open source y comerciales de tamaño similar:
- El modelo on-device (~3 mil millones de parámetros) muestra mejor rendimiento que modelos más grandes como Phi-3-mini, Mistral-7B y Gemma-7B
- El modelo de servidor es comparable a DBRX-Instruct, Mixtral-8x22B y GPT-3.5-Turbo, y aun así es muy eficiente
Para probar el rendimiento en contenido dañino, temas sensibles y factualidad, Apple usó varios conjuntos de prompts adversariales. Tanto el modelo on-device como el de servidor fueron robustos frente a prompts adversariales y lograron tasas de violación más bajas que modelos open source y comerciales
Usando el benchmark IFEval para comparar capacidad de seguimiento de instrucciones con modelos de tamaño similar, Apple encontró que sus modelos on-device y de servidor siguen mejor instrucciones detalladas que modelos open source y comerciales comparables
También se evaluó la capacidad de escritura de los modelos en benchmarks internos de resumen y redacción compuestos por diversas instrucciones de escritura

Writing Benchmarks

Según la tabla de datos, los modelos on-device y de servidor de Apple muestran un buen rendimiento comparable al de los modelos evaluados tanto en resumen como en redacción

Conclusión

Los modelos fundacionales y adaptadores de Apple presentados en la WWDC24 forman la base de Apple Intelligence, un nuevo sistema de inteligencia personal profundamente integrado en iPhone, iPad y Mac, que ofrece capacidades potentes en lenguaje, imagen, acciones y contexto personal
Fueron creados con el objetivo de ayudar a los usuarios a realizar actividades cotidianas en todo el ecosistema de productos de Apple, desarrollados responsablemente en cada etapa y guiados por los valores fundamentales de Apple
Apple compartirá pronto información sobre una familia más amplia de modelos generativos, incluyendo modelos de lenguaje, difusión y código

1 comentarios

GN⁺ 2024-06-11

Opiniones de Hacker News

Uso de adapters: Se ajusta finamente el modelo para tareas específicas usando adapters, pequeños módulos de redes neuronales que pueden conectarse en varias capas de un modelo preentrenado. Esto permite que los desarrolladores de apps usen modelos optimizados para cada hardware.
Expectativa: Aún no se ha anunciado soporte para entrenamiento de terceros, pero se espera que esté en planes. La dificultad del ML local + privado es evitar que cada app necesite grandes pesos.
Oportunidad para Apple: Apple tiene la oportunidad de ofrecer modelos optimizados para cada chip y adapters que solo requieran unos pocos MB de pesos para nuevos casos de uso. Esto es similar al adelgazamiento de apps del modelo.
Experiencia para desarrolladores: Incluso si el modelo base no está totalmente actualizado, la experiencia para desarrolladores es excelente y reproducible. El lado del servidor es mucho más sencillo, y se espera que lo local + privado cubra muchos casos de uso.
Rol de los adapters: Los adapters se usan para ajustar finamente el modelo a tareas específicas, administrar la memoria de forma eficiente y garantizar la capacidad de respuesta del sistema operativo. Los parámetros del adapter se representan en 16 bits y, para un modelo con unos 300 millones de parámetros, se requieren alrededor de 10 MB de memoria.
Similar a LoRAs: Este enfoque suena similar a LoRAs.
Gráfico comparativo: A mitad del artículo se incluye un gráfico comparativo con otros modelos relacionados. El modelo del lado del servidor es mejor que GPT-3.5, pero peor que GPT-4. Sin embargo, el gráfico de "evaluación humana de la nocividad de la salida" es especialmente interesante.
Cautela del modelo: Hacen que el modelo sea más cauteloso convirtiendo a GPT en "nivel 3" y dejando claro, usando el modelo de OpenAI, que "esto es lo que dijo ChatGPT".
Interés en usar el modelo de servidor: El contenido de estas dos páginas es muy bueno, y dan ganas de probar el modelo de servidor para construir una nube optimizada para el stack de Apple.
Expectativa de más memoria: Se espera que Apple eleve la memoria base de todos los Mac por encima de 8 GB. Ojalá 16 GB en el M4 sea la base, pero Apple podría ofrecer 12 GB y cobrar extra por la opción de 16 GB.
Privacidad de datos: Apple debería dejar claro qué envía a servicios de terceros y ofrecer una opción de opt-out si el usuario lo desea. No es lo mismo ejecutar inferencia en el dispositivo que enviar datos por la API de OpenAI.
Preferencia por el nombre de dominio: Me gusta que usen machinelearning.apple.com.
Resultado de optimización: Usar 3.5B pesos sin pérdida de calidad es un resultado de optimización de vanguardia.
Evaluación de nocividad de salida: Se confirma que Mistral-7B es el mejor entre los modelos pequeños para minimizar rechazos por falsos positivos.
Impacto en la batería: Da curiosidad cómo afectarán estos modelos a la duración de la batería. Probé la app PrivateLLM en un iPhone 15 Pro y, tras unos minutos de uso, la carga de la batería cayó rápidamente.

Presentación de los nuevos modelos fundacionales on-device y basados en servidor de Apple

Enfoque en el desarrollo responsable de IA

Pre-Training

Post-Training

Optimization

Model Adaptation

Performance and Evaluation

Human Satisfaction Score on Summarization Feature Benchmark

Writing Benchmarks

Conclusión

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News