11 puntos por xguru 2023-03-31 | 1 comentarios | Compartir por WhatsApp
  • Busca desarrollar un sistema multimodal capaz de procesar entradas de imagen/texto de forma conjunta, como GPT-4
  • Para ello, implementa en código abierto el modelo Flamingo de DeepMind, un LMM (Large Multimodal Model) que procesa y razona sobre imágenes/video/texto
  • Lo incluido en la primera versión
    • Framework en Python para entrenar un LMM al estilo Flamingo
    • Dataset multimodal a gran escala con imágenes/texto intercalados
    • Benchmark de evaluación de aprendizaje en contexto para tareas de visión-lenguaje
    • Modelo OpenFlamingo-9B basado en LLaMA
  • Como el dataset de entrenamiento de Flamingo no es público, se entrenó extrayendo 5 millones de muestras de un total de 10 millones del dataset Multimodal C4 de LAION-2B