3 puntos por GN⁺ 2024-07-11 | 1 comentarios | Compartir por WhatsApp
  • Incluye el código de entrenamiento de MobileLLM, presentado en el artículo "MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases" en ICML 2024
  • Este estudio considera de forma integral varios elementos de diseño para obtener LLMs de alta calidad con menos de mil millones de parámetros
  • MobileLLM se construye integrando (1) la función de activación SwiGLU, (2) una arquitectura profunda y angosta, (3) compartición de embeddings y (4) grouped-query attention
  • MobileLLM-125M/350M logra mejoras de precisión de 2.7%/4.3%, respectivamente, en tareas de razonamiento de sentido común zero-shot frente a los modelos SoTA previos de 125M/350M
  • En la versión actualizada, los modelos MobileLLM-600M/1B/1.5B se escalan a tamaños mayores y muestran resultados SoTA

Resumen de GN⁺

  • MobileLLM presenta una filosofía de diseño optimizada para modelos de lenguaje de alta calidad con menos de mil millones de parámetros
  • Mejora el rendimiento al integrar elementos como la función de activación SwiGLU, una arquitectura profunda y angosta, compartición de embeddings y grouped-query attention
  • Alcanza una mayor precisión en tareas de razonamiento de sentido común zero-shot en comparación con modelos existentes
  • Este estudio hace una contribución importante a los casos de uso de modelos de lenguaje en dispositivos móviles y embebidos
  • Proyectos con capacidades similares incluyen GPT-neo, OPT y BLOOM

1 comentarios

 
GN⁺ 2024-07-11
Comentarios de Hacker News
  • El modelo MobileLLM-125M/350M muestra una mejora de precisión de 2.7%/4.3% frente a los modelos SoTA previos de 125M/350M

    • Los modelos pequeños mejoraron un poco, pero todavía no son suficientes para el mismo tipo de uso que los modelos en línea
    • Se menciona que no hay problema con el progreso gradual
  • Se menciona que el modelo de 1.5B parámetros logró un avance bastante grande

    • Se preguntan por qué no usaron modelos más grandes
    • Se menciona que un modelo eficiente que encaje en hardware del tamaño de una RPi podría ser un cambio de juego
    • Se menciona que el modelo TinyLlama 7B apenas logra ejecutarse
  • Se preguntan si el Apple Watch tiene la capacidad de hardware para ejecutar inferencia con modelos pequeños

    • Preguntan si se necesita una cuenta de desarrollador
  • Preguntan si esto tiene que limitarse solo a dispositivos móviles

    • Si no consume muchos recursos, podría hacer más interesantes los diálogos de los NPC en juegos
    • Sería aún mejor si pudiera ajustarse para influir en el comportamiento o las acciones de los NPC
  • Se menciona que actualmente se necesita STT en el dispositivo para cosas como la palabra de activación

    • Están buscando el modelo con la WER más baja que pueda ejecutarse en una RPi 4B
    • Están revisando openWakeWord
    • Se menciona que lo necesitan para un sistema de inventario DIY
  • Están buscando una app que pueda ejecutarse en iPhone

    • Por ahora solo conocen la app MLC, y tiene solo 3 modelos antiguos
  • Se preguntan hasta qué punto puede empujarse la parte de "más profundo y delgado"

    • Se menciona que si el FFN cabe en la caché L2, el rendimiento mejoraría
  • Preguntan si métodos como la destilación podrían ayudar

  • Se menciona que los modelos pequeños parecen obtener la mayor reducción de tamaño mediante compartición/atado de pesos entre la cabeza lineal y las incrustaciones de tokens

    • Se preguntan si hay investigación sobre cómo reducir aún más el tamaño después de eso
  • Preguntan si también se puede entrenar el modelo en una PC con Windows usando esto

    • Se menciona que no tienen mucha RAM
  • Parece interesante, pero se preguntan qué casos de uso hay además de un autocompletado mejor