10 puntos por GN⁺ 2024-05-29 | Aún no hay comentarios. | Compartir por WhatsApp
  • Llama3-V es el primer modelo multimodal basado en Llama3
  • Llama3-V fue entrenado con un costo inferior a 500 dólares
  • En benchmarks mostró una mejora de rendimiento de 10-20% frente a Llava, y también un rendimiento similar en la mayoría de las métricas al compararlo con modelos cerrados 100 veces más grandes

Arquitectura del modelo

  • SigLIP: modelo de embeddings de imágenes, similar a CLIP pero que usa pérdida sigmoide.
  • Alineación de embeddings de texto: se congela SigLIP y se usa un módulo de proyección para alinear los embeddings de imagen con los embeddings de texto.
  • Adición de tokens de imagen: los embeddings de imagen se agregan antes de los tokens de texto para ingresarlos en Llama3.

Optimización de inferencia

  • Caché: los embeddings de imagen del modelo SigLIP se calculan por adelantado para aumentar la utilización de la GPU y ahorrar tiempo de entrenamiento/inferencia.
  • Optimización MPS/MLX: el modelo SigLIP se optimizó para MPS y procesa 32 imágenes por segundo.

Proceso de entrenamiento

  • Precálculo de embeddings: los embeddings de imagen se precalculan usando SigLIP.
  • Entrenamiento de la capa de proyección: mediante la capa de proyección, los embeddings de imagen y texto se alinean en un espacio de embeddings multimodal.
  • Aprendizaje supervisado: después del preentrenamiento, se mejora el rendimiento del modelo mediante aprendizaje supervisado.

Resumen

  • Se añade un codificador de visión a Llama3 8B.
  • Mejora de 10-20% en rendimiento frente a Llava.
  • Rendimiento similar al de modelos 100 veces más grandes como GPT4v, Gemini Ultra y Claude Opus.
  • Ofrece un pipeline eficiente de entrenamiento y aprendizaje supervisado con un costo inferior a 500 dólares.

Opinión de GN⁺

  • Punto interesante: resulta llamativo que Llama3-V logre un modelo multimodal de alto rendimiento con bajo costo.
  • Visión crítica: queda la duda de qué tan sostenible es mantener el rendimiento mientras se reducen el tamaño del modelo y el costo.
  • Tecnologías relacionadas: entre los modelos con funciones similares están CLIP y DALL-E.
  • Consideraciones para adopción: al incorporar una nueva tecnología, hay que considerar la precisión del modelo y su eficiencia en costos.
  • Ventajas y desventajas de la elección tecnológica: se puede obtener alto rendimiento a bajo costo, pero también hay que considerar la escalabilidad del modelo y los costos de mantenimiento.

Aún no hay comentarios.

Aún no hay comentarios.