Resumen del modelo Ferret
- El modelo Ferret permite referencia y localización precisa con vocabulario fino y abierto mediante un muestreador visual híbrido de regiones y con reconocimiento espacial.
- El dataset GRIT (~1.1M) es un conjunto de datos de ajuste por instrucciones a gran escala, jerárquico y robusto.
- Ferret-Bench es un benchmark de evaluación multimodal que exige simultáneamente referencia/localización, semántica, conocimiento y razonamiento.
Lanzamiento del modelo Ferret
- [12/14] Lanzamiento de checkpoints 7B y 13B.
- [10/30] Lanzamiento del modelo FERRET y del código de Ferret-Bench.
- Los datos y el código son solo para uso de investigación y siguen los acuerdos de licencia de LLaMA, Vicuna y GPT-4.
- El dataset está bajo CC BY NC 4.0 (solo se permite uso no comercial), y los modelos entrenados con este dataset no pueden usarse fuera de fines de investigación.
Instalación y uso
- Clona el repositorio de FERRET, entra a esa carpeta e instala los paquetes necesarios.
- Se requieren paquetes adicionales para casos de entrenamiento específicos.
Entrenamiento
- FERRET fue entrenado en 8 GPU A100 (cada una con 80GB de memoria).
- Si se entrena con menos GPU, se debe reducir
per_device_train_batch_size y aumentar gradient_accumulation_steps.
- Es necesario preparar los checkpoints de Vicuna y el proyector de LLaVA.
- Se proporcionan scripts de entrenamiento.
Evaluación
- Consulta la documentación para más detalles.
Checkpoints
- Extrae el
delta entre el modelo preentrenado y Vicuna.
- Después de descargar los pesos de Vicuna, descarga y aplica el offset de pesos preparado.
Demo
- Después de entrenar FERRET, ejecuta localmente la demo usando los checkpoints.
- Usa la interfaz web de Gradio.
- Ejecuta secuencialmente el controlador, el servidor web de Gradio y el model worker.
Cita
- Si Ferret te resulta útil, cítalo con el siguiente BibTeX.
Agradecimientos
- LLaVA: base del código.
- Vicuna: base del código del LLM.
Opinión de GN⁺
- Tecnología innovadora: El modelo Ferret presenta una tecnología innovadora que permite referencia y localización detalladas usando un vocabulario diverso.
- Importancia para la investigación: Este modelo y dataset son recursos importantes que pueden impulsar la investigación sobre tareas de referencia y localización en el campo de la inteligencia artificial.
- Amplias posibilidades de aplicación: Esta tecnología puede aprovecharse en diversas aplicaciones que combinan imágenes y texto, lo que podría llevar la comprensión visual y la interacción de la IA a un nuevo nivel.
Aún no hay comentarios.