OpenFlamingo - framework de código abierto para entrenar/evaluar modelos multimodales a gran escala (LMM)

xguru · 2023-03-31T10:15:01+09:00

Busca desarrollar un sistema multimodal capaz de procesar entradas de imagen/texto de forma conjunta, como GPT-4 Para ello, implementa en código abierto el modelo Flamingo de DeepMind, un LMM (Large Multimodal Model) que procesa y razona sobre imágenes/video/texto Lo incluido en la primera versión Framework en Python para entrenar un LMM al estilo Flamingo Dataset multimodal a gran escala con imágenes/texto intercalados Benchmark de evaluación de aprendizaje en contexto para tareas de visión-lenguaje Modelo OpenFlamingo-9B basado en LLaMA Como el dataset de entrenamiento de Flamingo no es público, se entrenó extrayendo 5 millones de muestras de un total de 10 millones del dataset Multimodal C4 de LAION-2B

(laion.ai)

11 puntos por xguru 2023-03-31 | 1 comentarios | Compartir por WhatsApp

Busca desarrollar un sistema multimodal capaz de procesar entradas de imagen/texto de forma conjunta, como GPT-4
Para ello, implementa en código abierto el modelo Flamingo de DeepMind, un LMM (Large Multimodal Model) que procesa y razona sobre imágenes/video/texto
Lo incluido en la primera versión
- Framework en Python para entrenar un LMM al estilo Flamingo
- Dataset multimodal a gran escala con imágenes/texto intercalados
- Benchmark de evaluación de aprendizaje en contexto para tareas de visión-lenguaje
- Modelo OpenFlamingo-9B basado en LLaMA
Como el dataset de entrenamiento de Flamingo no es público, se entrenó extrayendo 5 millones de muestras de un total de 10 millones del dataset Multimodal C4 de LAION-2B

1 comentarios

xguru 2023-03-31

Flamingo: modelo de lenguaje visual para aprendizaje con pocos ejemplos

OpenFlamingo - framework de código abierto para entrenar/evaluar modelos multimodales a gran escala (LMM)

Lecturas relacionadas

1 comentarios