2 puntos por GN⁺ 2023-12-24 | Aún no hay comentarios. | Compartir por WhatsApp

Resumen del modelo Ferret

  • El modelo Ferret permite referencia y localización precisa con vocabulario fino y abierto mediante un muestreador visual híbrido de regiones y con reconocimiento espacial.
  • El dataset GRIT (~1.1M) es un conjunto de datos de ajuste por instrucciones a gran escala, jerárquico y robusto.
  • Ferret-Bench es un benchmark de evaluación multimodal que exige simultáneamente referencia/localización, semántica, conocimiento y razonamiento.

Lanzamiento del modelo Ferret

  • [12/14] Lanzamiento de checkpoints 7B y 13B.
  • [10/30] Lanzamiento del modelo FERRET y del código de Ferret-Bench.
  • Los datos y el código son solo para uso de investigación y siguen los acuerdos de licencia de LLaMA, Vicuna y GPT-4.
  • El dataset está bajo CC BY NC 4.0 (solo se permite uso no comercial), y los modelos entrenados con este dataset no pueden usarse fuera de fines de investigación.

Instalación y uso

  • Clona el repositorio de FERRET, entra a esa carpeta e instala los paquetes necesarios.
  • Se requieren paquetes adicionales para casos de entrenamiento específicos.

Entrenamiento

  • FERRET fue entrenado en 8 GPU A100 (cada una con 80GB de memoria).
  • Si se entrena con menos GPU, se debe reducir per_device_train_batch_size y aumentar gradient_accumulation_steps.
  • Es necesario preparar los checkpoints de Vicuna y el proyector de LLaVA.
  • Se proporcionan scripts de entrenamiento.

Evaluación

  • Consulta la documentación para más detalles.

Checkpoints

  • Extrae el delta entre el modelo preentrenado y Vicuna.
  • Después de descargar los pesos de Vicuna, descarga y aplica el offset de pesos preparado.

Demo

  • Después de entrenar FERRET, ejecuta localmente la demo usando los checkpoints.
  • Usa la interfaz web de Gradio.
  • Ejecuta secuencialmente el controlador, el servidor web de Gradio y el model worker.

Cita

  • Si Ferret te resulta útil, cítalo con el siguiente BibTeX.

Agradecimientos

  • LLaVA: base del código.
  • Vicuna: base del código del LLM.

Opinión de GN⁺

  • Tecnología innovadora: El modelo Ferret presenta una tecnología innovadora que permite referencia y localización detalladas usando un vocabulario diverso.
  • Importancia para la investigación: Este modelo y dataset son recursos importantes que pueden impulsar la investigación sobre tareas de referencia y localización en el campo de la inteligencia artificial.
  • Amplias posibilidades de aplicación: Esta tecnología puede aprovecharse en diversas aplicaciones que combinan imágenes y texto, lo que podría llevar la comprensión visual y la interacción de la IA a un nuevo nivel.

Aún no hay comentarios.

Aún no hay comentarios.