- Busca desarrollar un sistema multimodal capaz de procesar entradas de imagen/texto de forma conjunta, como GPT-4
- Para ello, implementa en código abierto el modelo Flamingo de DeepMind, un LMM (Large Multimodal Model) que procesa y razona sobre imágenes/video/texto
- Lo incluido en la primera versión
- Framework en Python para entrenar un LMM al estilo Flamingo
- Dataset multimodal a gran escala con imágenes/texto intercalados
- Benchmark de evaluación de aprendizaje en contexto para tareas de visión-lenguaje
- Modelo OpenFlamingo-9B basado en LLaMA
- Como el dataset de entrenamiento de Flamingo no es público, se entrenó extrayendo 5 millones de muestras de un total de 10 millones del dataset Multimodal C4 de LAION-2B
1 comentarios
Flamingo: modelo de lenguaje visual para aprendizaje con pocos ejemplos