LLaVA: Ajuste de instrucciones visuales
(llava-vl.github.io)- "LLaVA : Large Language and Vision Assistant"
- Modelo multimodal a gran escala que combina un codificador de visión y Vicuna para una comprensión visual y lingüística de propósito general
- Busca capacidades a nivel de GPT-4 multimodal y precisión SOTA en preguntas y respuestas científicas
- Publicaron el paper, el código y la demo
Aún no hay comentarios.