6 puntos por xguru 2023-04-22 | Aún no hay comentarios. | Compartir por WhatsApp
  • "LLaVA : Large Language and Vision Assistant"
  • Modelo multimodal a gran escala que combina un codificador de visión y Vicuna para una comprensión visual y lingüística de propósito general
  • Busca capacidades a nivel de GPT-4 multimodal y precisión SOTA en preguntas y respuestas científicas
  • Publicaron el paper, el código y la demo

Aún no hay comentarios.

Aún no hay comentarios.