Llama 3-V: lograr un rendimiento a la par de GPT4-V con un modelo 100 veces más pequeño y por 500 dólares

(aksh-garg.medium.com)

10 puntos por GN⁺ 2024-05-29 | Aún no hay comentarios. | Compartir por WhatsApp

Llama3-V es el primer modelo multimodal basado en Llama3
Llama3-V fue entrenado con un costo inferior a 500 dólares
En benchmarks mostró una mejora de rendimiento de 10-20% frente a Llava, y también un rendimiento similar en la mayoría de las métricas al compararlo con modelos cerrados 100 veces más grandes

SigLIP: modelo de embeddings de imágenes, similar a CLIP pero que usa pérdida sigmoide.
Alineación de embeddings de texto: se congela SigLIP y se usa un módulo de proyección para alinear los embeddings de imagen con los embeddings de texto.
Adición de tokens de imagen: los embeddings de imagen se agregan antes de los tokens de texto para ingresarlos en Llama3.

Caché: los embeddings de imagen del modelo SigLIP se calculan por adelantado para aumentar la utilización de la GPU y ahorrar tiempo de entrenamiento/inferencia.
Optimización MPS/MLX: el modelo SigLIP se optimizó para MPS y procesa 32 imágenes por segundo.

Precálculo de embeddings: los embeddings de imagen se precalculan usando SigLIP.
Entrenamiento de la capa de proyección: mediante la capa de proyección, los embeddings de imagen y texto se alinean en un espacio de embeddings multimodal.
Aprendizaje supervisado: después del preentrenamiento, se mejora el rendimiento del modelo mediante aprendizaje supervisado.

Se añade un codificador de visión a Llama3 8B.
Mejora de 10-20% en rendimiento frente a Llava.
Rendimiento similar al de modelos 100 veces más grandes como GPT4v, Gemini Ultra y Claude Opus.
Ofrece un pipeline eficiente de entrenamiento y aprendizaje supervisado con un costo inferior a 500 dólares.

Opinión de GN⁺

Punto interesante: resulta llamativo que Llama3-V logre un modelo multimodal de alto rendimiento con bajo costo.
Visión crítica: queda la duda de qué tan sostenible es mantener el rendimiento mientras se reducen el tamaño del modelo y el costo.
Tecnologías relacionadas: entre los modelos con funciones similares están CLIP y DALL-E.
Consideraciones para adopción: al incorporar una nueva tecnología, hay que considerar la precisión del modelo y su eficiencia en costos.
Ventajas y desventajas de la elección tecnológica: se puede obtener alto rendimiento a bajo costo, pero también hay que considerar la escalabilidad del modelo y los costos de mantenimiento.