- Incluye el código de entrenamiento de MobileLLM, presentado en el artículo "MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases" en ICML 2024
- Este estudio considera de forma integral varios elementos de diseño para obtener LLMs de alta calidad con menos de mil millones de parámetros
- MobileLLM se construye integrando (1) la función de activación SwiGLU, (2) una arquitectura profunda y angosta, (3) compartición de embeddings y (4) grouped-query attention
- MobileLLM-125M/350M logra mejoras de precisión de 2.7%/4.3%, respectivamente, en tareas de razonamiento de sentido común zero-shot frente a los modelos SoTA previos de 125M/350M
- En la versión actualizada, los modelos MobileLLM-600M/1B/1.5B se escalan a tamaños mayores y muestran resultados SoTA
Resumen de GN⁺
- MobileLLM presenta una filosofía de diseño optimizada para modelos de lenguaje de alta calidad con menos de mil millones de parámetros
- Mejora el rendimiento al integrar elementos como la función de activación SwiGLU, una arquitectura profunda y angosta, compartición de embeddings y grouped-query attention
- Alcanza una mayor precisión en tareas de razonamiento de sentido común zero-shot en comparación con modelos existentes
- Este estudio hace una contribución importante a los casos de uso de modelos de lenguaje en dispositivos móviles y embebidos
- Proyectos con capacidades similares incluyen GPT-neo, OPT y BLOOM
1 comentarios
Comentarios de Hacker News
El modelo MobileLLM-125M/350M muestra una mejora de precisión de 2.7%/4.3% frente a los modelos SoTA previos de 125M/350M
Se menciona que el modelo de 1.5B parámetros logró un avance bastante grande
Se preguntan si el Apple Watch tiene la capacidad de hardware para ejecutar inferencia con modelos pequeños
Preguntan si esto tiene que limitarse solo a dispositivos móviles
Se menciona que actualmente se necesita STT en el dispositivo para cosas como la palabra de activación
Están buscando una app que pueda ejecutarse en iPhone
Se preguntan hasta qué punto puede empujarse la parte de "más profundo y delgado"
Preguntan si métodos como la destilación podrían ayudar
Se menciona que los modelos pequeños parecen obtener la mayor reducción de tamaño mediante compartición/atado de pesos entre la cabeza lineal y las incrustaciones de tokens
Preguntan si también se puede entrenar el modelo en una PC con Windows usando esto
Parece interesante, pero se preguntan qué casos de uso hay además de un autocompletado mejor