- Ofrece nuevas capacidades de visión-lenguaje similares a las demostradas en GPT-4
- Describe imágenes en detalle, explica cómo cocinar a partir de una foto de comida, encuentra problemas, crea textos publicitarios o escribe historias y poemas inspirados en una imagen
- Muestra un rendimiento sobresaliente con solo conectar BLIP-2 y Vicuna mediante una única capa de proyección
- Fue entrenado en 2 etapas
- Se entrenaron 5 millones de pares imagen-texto durante 10 horas con 4 A100. Solo con esta etapa, Vicuna ya entiende imágenes, pero su capacidad de generación se ve muy afectada
- Para resolver este problema y mejorar la usabilidad, se propone un nuevo método para generar pares imagen-texto de alta calidad utilizando conjuntamente el propio modelo y ChatGPT
- Con esta base, se generó un conjunto de datos pequeño de alta calidad (3,500 pares en total)
- En la segunda etapa de fine-tuning, este pequeño conjunto de datos se entrenó con plantillas conversacionales para mejorar la confiabilidad de la generación y la usabilidad general
- Sorprendentemente, esta etapa tiene una alta eficiencia computacional y solo toma 7 minutos con una sola A100
Aún no hay comentarios.