Dragonfly - modelo vision-language a gran escala con zoom multirresolución

xguru · 2024-06-10T10:10:02+09:00

Un modelo de arquitectura vision-language que divide imágenes de alta resolución en múltiples regiones pequeñas para analizarlas, permitiendo una comprensión y razonamiento detallados Se publicaron dos modelos open source: Llama-3-8b-Dragonfly-v1 (dominio general) y Llama-3-8b-Dragonfly-Med-v1 (dominio médico) Llama-3-8b-Dragonfly-v1 fue entrenado con 5.5 millones de pares imagen-instrucción, y Llama-3-8b-Dragonfly-Med-v1 fue afinado adicionalmente con 1.4 millones de imágenes médicas con instrucciones Dragonfly muestra un rendimiento sobresaliente en benchmarks como razonamiento visual de sentido común y image captioning Dragonfly-Med supera a modelos existentes como Med-Gemini en el campo de la comprensión de imágenes médicas Arquitectura de Dragonfly Codificación visual multirresolución (Multi-resolution Visual Encoding): Procesa imágenes en resoluciones baja, media y alta Divide cada imagen en múltiples subimágenes según la resolución y las codifica como tokens visuales Proyecta los tokens codificados al language space y alimenta al LLM con la secuencia concatenada como entrada Esto permite procesar imágenes grandes de forma eficiente y aumentar la granularidad del procesamiento de datos visuales Zoom-in Patch Selection: Un enfoque selectivo para concentrarse en detalles visuales importantes dentro de imágenes de alta resolución Usa una novedosa estrategia de zoom-in patch selection que selecciona solo las subimágenes de alta resolución más relevantes Compara los summary embeddings de subimágenes de resolución media y alta para elegir únicamente los parches más relacionados Con esto elimina redundancias y se enfoca en las áreas de contenido clave, mejorando tanto la eficiencia general del modelo como la comprensión de regiones detalladas Estas dos estrategias permiten enfocarse más en los detalles finos de las regiones de imagen y mejorar la capacidad de razonamiento de sentido común. A pesar de estar optimizado para capturar detalles, muestra buen rendimiento zero-shot en benchmarks generales de comprensión de imágenes como VQA e image captioning. Evaluación del rendimiento del modelo Dragonfly Fue evaluado en 5 benchmarks de vision-language: AI2D, ScienceQA, MMMU, MMVet y POPE AI2D, ScienceQA: evaluación del razonamiento visual de sentido común en el dominio científico MMMU, MMVet: evaluación integral de capacidades vision-language POPE: evaluación de hallucinations a nivel de objetos Muestra un rendimiento sobresaliente comparable al de otros modelos vision-language reconocidos Rendimiento de Dragonfly-Med Versión de Dragonfly entrenada adicionalmente con 1.4 millones de imágenes médicas con instrucciones en colaboración con Stanford Medicine Supera el rendimiento de modelos existentes como Med-Gemini en benchmarks de preguntas y respuestas visuales como VQA-RAD, SLAKE y Path-VQA También muestra un rendimiento cercano al SOTA en benchmarks de image captioning médico como IU X-Ray, Peir Gross, ROCO y MIMIC CXR Planes a futuro Planean explorar una nueva arquitectura y estrategias de codificación visual usando LLaMA3-8B-Instruct como backbone Buscan ampliar el alcance a campos científicos más diversos para contribuir a la investigación multimodal open source

(together.ai)

4 puntos por xguru 2024-06-10 | Aún no hay comentarios. | Compartir por WhatsApp

Un modelo de arquitectura vision-language que divide imágenes de alta resolución en múltiples regiones pequeñas para analizarlas, permitiendo una comprensión y razonamiento detallados
Se publicaron dos modelos open source: Llama-3-8b-Dragonfly-v1 (dominio general) y Llama-3-8b-Dragonfly-Med-v1 (dominio médico)
Llama-3-8b-Dragonfly-v1 fue entrenado con 5.5 millones de pares imagen-instrucción, y Llama-3-8b-Dragonfly-Med-v1 fue afinado adicionalmente con 1.4 millones de imágenes médicas con instrucciones
Dragonfly muestra un rendimiento sobresaliente en benchmarks como razonamiento visual de sentido común y image captioning
Dragonfly-Med supera a modelos existentes como Med-Gemini en el campo de la comprensión de imágenes médicas

Arquitectura de Dragonfly

Codificación visual multirresolución (Multi-resolution Visual Encoding):
- Procesa imágenes en resoluciones baja, media y alta
- Divide cada imagen en múltiples subimágenes según la resolución y las codifica como tokens visuales
- Proyecta los tokens codificados al language space y alimenta al LLM con la secuencia concatenada como entrada
- Esto permite procesar imágenes grandes de forma eficiente y aumentar la granularidad del procesamiento de datos visuales
Zoom-in Patch Selection:
- Un enfoque selectivo para concentrarse en detalles visuales importantes dentro de imágenes de alta resolución
- Usa una novedosa estrategia de zoom-in patch selection que selecciona solo las subimágenes de alta resolución más relevantes
- Compara los summary embeddings de subimágenes de resolución media y alta para elegir únicamente los parches más relacionados
- Con esto elimina redundancias y se enfoca en las áreas de contenido clave, mejorando tanto la eficiencia general del modelo como la comprensión de regiones detalladas
Estas dos estrategias permiten enfocarse más en los detalles finos de las regiones de imagen y mejorar la capacidad de razonamiento de sentido común.
A pesar de estar optimizado para capturar detalles, muestra buen rendimiento zero-shot en benchmarks generales de comprensión de imágenes como VQA e image captioning.

Evaluación del rendimiento del modelo Dragonfly

Fue evaluado en 5 benchmarks de vision-language: AI2D, ScienceQA, MMMU, MMVet y POPE
- AI2D, ScienceQA: evaluación del razonamiento visual de sentido común en el dominio científico
- MMMU, MMVet: evaluación integral de capacidades vision-language
- POPE: evaluación de hallucinations a nivel de objetos
Muestra un rendimiento sobresaliente comparable al de otros modelos vision-language reconocidos

Rendimiento de Dragonfly-Med

Versión de Dragonfly entrenada adicionalmente con 1.4 millones de imágenes médicas con instrucciones en colaboración con Stanford Medicine
Supera el rendimiento de modelos existentes como Med-Gemini en benchmarks de preguntas y respuestas visuales como VQA-RAD, SLAKE y Path-VQA
También muestra un rendimiento cercano al SOTA en benchmarks de image captioning médico como IU X-Ray, Peir Gross, ROCO y MIMIC CXR

Planes a futuro

Planean explorar una nueva arquitectura y estrategias de codificación visual usando LLaMA3-8B-Instruct como backbone
Buscan ampliar el alcance a campos científicos más diversos para contribuir a la investigación multimodal open source