13 puntos por xguru 2023-12-28 | Aún no hay comentarios. | Compartir por WhatsApp
  • MLLM (Modelo de Lenguaje Grande Multimodal)
    • Comprende todo tipo de formas y referencias espaciales detalladas dentro de las imágenes
  • Contribuciones clave
    • Modelo Ferret: representación híbrida de regiones + muestreador visual con conciencia espacial
    • Conjunto de datos GRIT: conjunto de datos de ajuste por instrucciones a gran escala, jerárquico y robusto. Incluye 1.1 millones de muestras y 950 mil datos hard negative
    • Ferret Bench: benchmark de evaluación multimodal (requiere de forma combinada Referring/Grounding + Semantics + Knowledge + Reasoning)

Aún no hay comentarios.

Aún no hay comentarios.