- Llama3-V es el primer modelo multimodal basado en Llama3
- Llama3-V fue entrenado con un costo inferior a 500 dólares
- En benchmarks mostró una mejora de rendimiento de 10-20% frente a Llava, y también un rendimiento similar en la mayoría de las métricas al compararlo con modelos cerrados 100 veces más grandes
Arquitectura del modelo
- SigLIP: modelo de embeddings de imágenes, similar a CLIP pero que usa pérdida sigmoide.
- Alineación de embeddings de texto: se congela SigLIP y se usa un módulo de proyección para alinear los embeddings de imagen con los embeddings de texto.
- Adición de tokens de imagen: los embeddings de imagen se agregan antes de los tokens de texto para ingresarlos en Llama3.
Optimización de inferencia
- Caché: los embeddings de imagen del modelo SigLIP se calculan por adelantado para aumentar la utilización de la GPU y ahorrar tiempo de entrenamiento/inferencia.
- Optimización MPS/MLX: el modelo SigLIP se optimizó para MPS y procesa 32 imágenes por segundo.
Proceso de entrenamiento
- Precálculo de embeddings: los embeddings de imagen se precalculan usando SigLIP.
- Entrenamiento de la capa de proyección: mediante la capa de proyección, los embeddings de imagen y texto se alinean en un espacio de embeddings multimodal.
- Aprendizaje supervisado: después del preentrenamiento, se mejora el rendimiento del modelo mediante aprendizaje supervisado.
Resumen
- Se añade un codificador de visión a Llama3 8B.
- Mejora de 10-20% en rendimiento frente a Llava.
- Rendimiento similar al de modelos 100 veces más grandes como GPT4v, Gemini Ultra y Claude Opus.
- Ofrece un pipeline eficiente de entrenamiento y aprendizaje supervisado con un costo inferior a 500 dólares.
Opinión de GN⁺
- Punto interesante: resulta llamativo que Llama3-V logre un modelo multimodal de alto rendimiento con bajo costo.
- Visión crítica: queda la duda de qué tan sostenible es mantener el rendimiento mientras se reducen el tamaño del modelo y el costo.
- Tecnologías relacionadas: entre los modelos con funciones similares están CLIP y DALL-E.
- Consideraciones para adopción: al incorporar una nueva tecnología, hay que considerar la precisión del modelo y su eficiencia en costos.
- Ventajas y desventajas de la elección tecnológica: se puede obtener alto rendimiento a bajo costo, pero también hay que considerar la escalabilidad del modelo y los costos de mantenimiento.
Aún no hay comentarios.