6 puntos por xguru 2023-06-14 | Aún no hay comentarios. | Compartir por WhatsApp
  • Para que el rendimiento zero-shot de los LLM sea bueno, es indispensable contar con un conjunto de instrucciones de alta calidad, y lo mismo aplica para los VLM (modelos visión-lenguaje)
  • Sin embargo, los conjuntos actuales de instrucciones visión-lenguaje son muy limitados en cantidad, diversidad y creatividad
  • Se presenta MIMIC-IT (MultI-Modal In-Context Instruction Tuning)
  • Un dataset compuesto por 2.2 millones de instrucciones únicas extraídas de imágenes y video, y 2.8 millones de pares multimodales de instrucción-respuesta
  • Otter es un VLM de gran escala entrenado con el dataset MIMIC-IT
  • Soporta 8 idiomas: inglés, chino, coreano, japonés, alemán, francés, español y árabe

Aún no hay comentarios.

Aún no hay comentarios.