Otter: modelo multimodal con ajuste de instrucciones dentro del contexto

xguru · 2023-06-14T10:16:01+09:00

Para que el rendimiento zero-shot de los LLM sea bueno, es indispensable contar con un conjunto de instrucciones de alta calidad, y lo mismo aplica para los VLM (modelos visión-lenguaje) Sin embargo, los conjuntos actuales de instrucciones visión-lenguaje son muy limitados en cantidad, diversidad y creatividad Se presenta MIMIC-IT (MultI-Modal In-Context Instruction Tuning) Un dataset compuesto por 2.2 millones de instrucciones únicas extraídas de imágenes y video, y 2.8 millones de pares multimodales de instrucción-respuesta Otter es un VLM de gran escala entrenado con el dataset MIMIC-IT Soporta 8 idiomas: inglés, chino, coreano, japonés, alemán, francés, español y árabe

(github.com/Luodian)

6 puntos por xguru 2023-06-14 | Aún no hay comentarios. | Compartir por WhatsApp

Para que el rendimiento zero-shot de los LLM sea bueno, es indispensable contar con un conjunto de instrucciones de alta calidad, y lo mismo aplica para los VLM (modelos visión-lenguaje)
Sin embargo, los conjuntos actuales de instrucciones visión-lenguaje son muy limitados en cantidad, diversidad y creatividad
Se presenta MIMIC-IT (MultI-Modal In-Context Instruction Tuning)
Un dataset compuesto por 2.2 millones de instrucciones únicas extraídas de imágenes y video, y 2.8 millones de pares multimodales de instrucción-respuesta
Otter es un VLM de gran escala entrenado con el dataset MIMIC-IT
Soporta 8 idiomas: inglés, chino, coreano, japonés, alemán, francés, español y árabe

Otter: modelo multimodal con ajuste de instrucciones dentro del contexto

Lecturas relacionadas

Aún no hay comentarios.