Ferret - el LLM multimodal de Apple

xguru · 2023-12-28T11:21:02+09:00

MLLM (Modelo de Lenguaje Grande Multimodal) Comprende todo tipo de formas y referencias espaciales detalladas dentro de las imágenes Contribuciones clave Modelo Ferret: representación híbrida de regiones + muestreador visual con conciencia espacial Conjunto de datos GRIT: conjunto de datos de ajuste por instrucciones a gran escala, jerárquico y robusto. Incluye 1.1 millones de muestras y 950 mil datos hard negative Ferret Bench: benchmark de evaluación multimodal (requiere de forma combinada Referring/Grounding + Semantics + Knowledge + Reasoning)

(github.com/apple)

13 puntos por xguru 2023-12-28 | Aún no hay comentarios. | Compartir por WhatsApp

MLLM (Modelo de Lenguaje Grande Multimodal)
- Comprende todo tipo de formas y referencias espaciales detalladas dentro de las imágenes
Contribuciones clave
- Modelo Ferret: representación híbrida de regiones + muestreador visual con conciencia espacial
- Conjunto de datos GRIT: conjunto de datos de ajuste por instrucciones a gran escala, jerárquico y robusto. Incluye 1.1 millones de muestras y 950 mil datos hard negative
- Ferret Bench: benchmark de evaluación multimodal (requiere de forma combinada Referring/Grounding + Semantics + Knowledge + Reasoning)

Ferret - el LLM multimodal de Apple

Lecturas relacionadas

Aún no hay comentarios.