- MLLM (Modelo de Lenguaje Grande Multimodal)
- Comprende todo tipo de formas y referencias espaciales detalladas dentro de las imágenes
- Contribuciones clave
- Modelo Ferret: representación híbrida de regiones + muestreador visual con conciencia espacial
- Conjunto de datos GRIT: conjunto de datos de ajuste por instrucciones a gran escala, jerárquico y robusto. Incluye 1.1 millones de muestras y 950 mil datos hard negative
- Ferret Bench: benchmark de evaluación multimodal (requiere de forma combinada Referring/Grounding + Semantics + Knowledge + Reasoning)
Aún no hay comentarios.