LLaVA: Ajuste de instrucciones visuales

xguru · 2023-04-22T10:32:01+09:00

"LLaVA : Large Language and Vision Assistant" Modelo multimodal a gran escala que combina un codificador de visión y Vicuna para una comprensión visual y lingüística de propósito general Busca capacidades a nivel de GPT-4 multimodal y precisión SOTA en preguntas y respuestas científicas Publicaron el paper, el código y la demo

(llava-vl.github.io)

6 puntos por xguru 2023-04-22 | Aún no hay comentarios. | Compartir por WhatsApp

"LLaVA : Large Language and Vision Assistant"
Modelo multimodal a gran escala que combina un codificador de visión y Vicuna para una comprensión visual y lingüística de propósito general
Busca capacidades a nivel de GPT-4 multimodal y precisión SOTA en preguntas y respuestas científicas
Publicaron el paper, el código y la demo

LLaVA: Ajuste de instrucciones visuales

Lecturas relacionadas

Aún no hay comentarios.