- Para que el rendimiento zero-shot de los LLM sea bueno, es indispensable contar con un conjunto de instrucciones de alta calidad, y lo mismo aplica para los VLM (modelos visión-lenguaje)
- Sin embargo, los conjuntos actuales de instrucciones visión-lenguaje son muy limitados en cantidad, diversidad y creatividad
- Se presenta MIMIC-IT (MultI-Modal In-Context Instruction Tuning)
- Un dataset compuesto por 2.2 millones de instrucciones únicas extraídas de imágenes y video, y 2.8 millones de pares multimodales de instrucción-respuesta
- Otter es un VLM de gran escala entrenado con el dataset MIMIC-IT
- Soporta 8 idiomas: inglés, chino, coreano, japonés, alemán, francés, español y árabe
Aún no hay comentarios.