He preparado un resumen del artículo que Apple publicó sobre MM1, su LLM multimodal.
(discuss.pytorch.kr)Apple publicó los resultados de su investigación sobre un LLM multimodal llamado MM1. (No publicaron el código del modelo ni los pesos, y parece que tampoco lo harán en el futuro)
Como incluye aspectos como el Image Encoder, el VL-Connector, además del dataset y los métodos de entrenamiento, comparto este resumen que preparé junto con ChatGPT y que puede ser útil para quienes entrenan o ajustan modelos directamente.
El original puede consultarse en arXiv con el título 'MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training'.
Lección sobre el encoder: la resolución de imagen tiene el mayor impacto, seguida por el tamaño del modelo y la composición de los datos de entrenamiento.
Encoder lesson: Image resolution has the highest impact, followed by model size and training data composition.
Lección sobre el conector VL: la cantidad de tokens visuales y la resolución de imagen son lo más importante, mientras que el tipo de conector VL casi no tiene efecto.
VL Connector Lesson: Number of visual tokens and image resolution matters most, while the type of VL connector has little effect.
Lección de datos 1: los datos intercalados son clave para el rendimiento few-shot y de solo texto, mientras que los datos de captioning mejoran el rendimiento zero-shot.
Data lesson 1: interleaved data is instrumental for few-shot and textonly performance, while captioning data lifts zero-shot performance.
Lección de datos 2: los datos de solo texto ayudan al rendimiento few-shot y de solo texto.
Data lesson 2: text-only data helps with few-shot and text-only performance.
Lección de datos 3: una mezcla cuidadosa de datos de imagen y texto puede ofrecer un rendimiento multimodal óptimo y mantener un sólido rendimiento en texto.
Data lesson 3: Careful mixture of image and text data can yield optimal multimodal performance and retain strong text performance.
Lección de datos 4: los datos sintéticos ayudan en el aprendizaje few-shot.
Data lesson 4: Synthetic data helps with few-shot learning.
Aún no hay comentarios.