15 puntos por xguru 2023-04-18 | Aún no hay comentarios. | Compartir por WhatsApp
  • Ofrece nuevas capacidades de visión-lenguaje similares a las demostradas en GPT-4
    • Describe imágenes en detalle, explica cómo cocinar a partir de una foto de comida, encuentra problemas, crea textos publicitarios o escribe historias y poemas inspirados en una imagen
  • Muestra un rendimiento sobresaliente con solo conectar BLIP-2 y Vicuna mediante una única capa de proyección
  • Fue entrenado en 2 etapas
    • Se entrenaron 5 millones de pares imagen-texto durante 10 horas con 4 A100. Solo con esta etapa, Vicuna ya entiende imágenes, pero su capacidad de generación se ve muy afectada
    • Para resolver este problema y mejorar la usabilidad, se propone un nuevo método para generar pares imagen-texto de alta calidad utilizando conjuntamente el propio modelo y ChatGPT
    • Con esta base, se generó un conjunto de datos pequeño de alta calidad (3,500 pares en total)
    • En la segunda etapa de fine-tuning, este pequeño conjunto de datos se entrenó con plantillas conversacionales para mejorar la confiabilidad de la generación y la usabilidad general
    • Sorprendentemente, esta etapa tiene una alta eficiencia computacional y solo toma 7 minutos con una sola A100

Aún no hay comentarios.

Aún no hay comentarios.