- Un modelo de arquitectura vision-language que divide imágenes de alta resolución en múltiples regiones pequeñas para analizarlas, permitiendo una comprensión y razonamiento detallados
- Se publicaron dos modelos open source: Llama-3-8b-Dragonfly-v1 (dominio general) y Llama-3-8b-Dragonfly-Med-v1 (dominio médico)
- Llama-3-8b-Dragonfly-v1 fue entrenado con 5.5 millones de pares imagen-instrucción, y Llama-3-8b-Dragonfly-Med-v1 fue afinado adicionalmente con 1.4 millones de imágenes médicas con instrucciones
- Dragonfly muestra un rendimiento sobresaliente en benchmarks como razonamiento visual de sentido común y image captioning
- Dragonfly-Med supera a modelos existentes como Med-Gemini en el campo de la comprensión de imágenes médicas
Arquitectura de Dragonfly
-
Codificación visual multirresolución (Multi-resolution Visual Encoding):
- Procesa imágenes en resoluciones baja, media y alta
- Divide cada imagen en múltiples subimágenes según la resolución y las codifica como tokens visuales
- Proyecta los tokens codificados al language space y alimenta al LLM con la secuencia concatenada como entrada
- Esto permite procesar imágenes grandes de forma eficiente y aumentar la granularidad del procesamiento de datos visuales
-
Zoom-in Patch Selection:
- Un enfoque selectivo para concentrarse en detalles visuales importantes dentro de imágenes de alta resolución
- Usa una novedosa estrategia de zoom-in patch selection que selecciona solo las subimágenes de alta resolución más relevantes
- Compara los summary embeddings de subimágenes de resolución media y alta para elegir únicamente los parches más relacionados
- Con esto elimina redundancias y se enfoca en las áreas de contenido clave, mejorando tanto la eficiencia general del modelo como la comprensión de regiones detalladas
-
Estas dos estrategias permiten enfocarse más en los detalles finos de las regiones de imagen y mejorar la capacidad de razonamiento de sentido común.
-
A pesar de estar optimizado para capturar detalles, muestra buen rendimiento zero-shot en benchmarks generales de comprensión de imágenes como VQA e image captioning.
Evaluación del rendimiento del modelo Dragonfly
- Fue evaluado en 5 benchmarks de vision-language: AI2D, ScienceQA, MMMU, MMVet y POPE
- AI2D, ScienceQA: evaluación del razonamiento visual de sentido común en el dominio científico
- MMMU, MMVet: evaluación integral de capacidades vision-language
- POPE: evaluación de hallucinations a nivel de objetos
- Muestra un rendimiento sobresaliente comparable al de otros modelos vision-language reconocidos
Rendimiento de Dragonfly-Med
- Versión de Dragonfly entrenada adicionalmente con 1.4 millones de imágenes médicas con instrucciones en colaboración con Stanford Medicine
- Supera el rendimiento de modelos existentes como Med-Gemini en benchmarks de preguntas y respuestas visuales como VQA-RAD, SLAKE y Path-VQA
- También muestra un rendimiento cercano al SOTA en benchmarks de image captioning médico como IU X-Ray, Peir Gross, ROCO y MIMIC CXR
Planes a futuro
- Planean explorar una nueva arquitectura y estrategias de codificación visual usando LLaMA3-8B-Instruct como backbone
- Buscan ampliar el alcance a campos científicos más diversos para contribuir a la investigación multimodal open source
Aún no hay comentarios.