4 puntos por xguru 2024-06-10 | Aún no hay comentarios. | Compartir por WhatsApp
  • Un modelo de arquitectura vision-language que divide imágenes de alta resolución en múltiples regiones pequeñas para analizarlas, permitiendo una comprensión y razonamiento detallados
  • Se publicaron dos modelos open source: Llama-3-8b-Dragonfly-v1 (dominio general) y Llama-3-8b-Dragonfly-Med-v1 (dominio médico)
  • Llama-3-8b-Dragonfly-v1 fue entrenado con 5.5 millones de pares imagen-instrucción, y Llama-3-8b-Dragonfly-Med-v1 fue afinado adicionalmente con 1.4 millones de imágenes médicas con instrucciones
  • Dragonfly muestra un rendimiento sobresaliente en benchmarks como razonamiento visual de sentido común y image captioning
  • Dragonfly-Med supera a modelos existentes como Med-Gemini en el campo de la comprensión de imágenes médicas

Arquitectura de Dragonfly

  • Codificación visual multirresolución (Multi-resolution Visual Encoding):

    • Procesa imágenes en resoluciones baja, media y alta
    • Divide cada imagen en múltiples subimágenes según la resolución y las codifica como tokens visuales
    • Proyecta los tokens codificados al language space y alimenta al LLM con la secuencia concatenada como entrada
    • Esto permite procesar imágenes grandes de forma eficiente y aumentar la granularidad del procesamiento de datos visuales
  • Zoom-in Patch Selection:

    • Un enfoque selectivo para concentrarse en detalles visuales importantes dentro de imágenes de alta resolución
    • Usa una novedosa estrategia de zoom-in patch selection que selecciona solo las subimágenes de alta resolución más relevantes
    • Compara los summary embeddings de subimágenes de resolución media y alta para elegir únicamente los parches más relacionados
    • Con esto elimina redundancias y se enfoca en las áreas de contenido clave, mejorando tanto la eficiencia general del modelo como la comprensión de regiones detalladas
  • Estas dos estrategias permiten enfocarse más en los detalles finos de las regiones de imagen y mejorar la capacidad de razonamiento de sentido común.

  • A pesar de estar optimizado para capturar detalles, muestra buen rendimiento zero-shot en benchmarks generales de comprensión de imágenes como VQA e image captioning.

Evaluación del rendimiento del modelo Dragonfly

  • Fue evaluado en 5 benchmarks de vision-language: AI2D, ScienceQA, MMMU, MMVet y POPE
    • AI2D, ScienceQA: evaluación del razonamiento visual de sentido común en el dominio científico
    • MMMU, MMVet: evaluación integral de capacidades vision-language
    • POPE: evaluación de hallucinations a nivel de objetos
  • Muestra un rendimiento sobresaliente comparable al de otros modelos vision-language reconocidos

Rendimiento de Dragonfly-Med

  • Versión de Dragonfly entrenada adicionalmente con 1.4 millones de imágenes médicas con instrucciones en colaboración con Stanford Medicine
  • Supera el rendimiento de modelos existentes como Med-Gemini en benchmarks de preguntas y respuestas visuales como VQA-RAD, SLAKE y Path-VQA
  • También muestra un rendimiento cercano al SOTA en benchmarks de image captioning médico como IU X-Ray, Peir Gross, ROCO y MIMIC CXR

Planes a futuro

  • Planean explorar una nueva arquitectura y estrategias de codificación visual usando LLaMA3-8B-Instruct como backbone
  • Buscan ampliar el alcance a campos científicos más diversos para contribuir a la investigación multimodal open source

Aún no hay comentarios.

Aún no hay comentarios.