- Un modelo multimodal de lenguaje grande (MLLM) que reconoce formatos generales, aprende en contexto (
few-shot) y sigue instrucciones (zero-shot)
- Un modelo entrenado con texto, imágenes y pares de imagen-subtítulo, que muestra un rendimiento impresionante en las siguientes tareas
- comprensión y generación de lenguaje, y NLP sin necesidad de OCR (reconocimiento directo desde imágenes de documentos)
- diálogo multimodal, generación de subtítulos de imágenes y respuesta a preguntas visuales
- tareas de visión como reconocimiento de imágenes con descripciones (clasificación definida mediante instrucciones de texto)
- Los MLLM pueden beneficiarse de la transferencia entre modalidades (transferencia de conocimiento del lenguaje a lo multimodal y de lo multimodal al lenguaje)
1 comentarios
Repo: https://github.com/microsoft/unilm