Microsoft Kosmos-1: LLM multimodal (MLLM)

xguru · 2023-03-02T09:56:41+09:00

Un modelo multimodal de lenguaje grande (MLLM) que reconoce formatos generales, aprende en contexto (few-shot) y sigue instrucciones (zero-shot) Un modelo entrenado con texto, imágenes y pares de imagen-subtítulo, que muestra un rendimiento impresionante en las siguientes tareas comprensión y generación de lenguaje, y NLP sin necesidad de OCR (reconocimiento directo desde imágenes de documentos) diálogo multimodal, generación de subtítulos de imágenes y respuesta a preguntas visuales tareas de visión como reconocimiento de imágenes con descripciones (clasificación definida mediante instrucciones de texto) Los MLLM pueden beneficiarse de la transferencia entre modalidades (transferencia de conocimiento del lenguaje a lo multimodal y de lo multimodal al lenguaje)

(arxiv.org)

9 puntos por xguru 2023-03-02 | 1 comentarios | Compartir por WhatsApp

Un modelo multimodal de lenguaje grande (MLLM) que reconoce formatos generales, aprende en contexto (few-shot) y sigue instrucciones (zero-shot)
Un modelo entrenado con texto, imágenes y pares de imagen-subtítulo, que muestra un rendimiento impresionante en las siguientes tareas
1. comprensión y generación de lenguaje, y NLP sin necesidad de OCR (reconocimiento directo desde imágenes de documentos)
2. diálogo multimodal, generación de subtítulos de imágenes y respuesta a preguntas visuales
3. tareas de visión como reconocimiento de imágenes con descripciones (clasificación definida mediante instrucciones de texto)
Los MLLM pueden beneficiarse de la transferencia entre modalidades (transferencia de conocimiento del lenguaje a lo multimodal y de lo multimodal al lenguaje)

1 comentarios

xguru 2023-03-02

Repo: https://github.com/microsoft/unilm

Microsoft Kosmos-1: LLM multimodal (MLLM)

Lecturas relacionadas

1 comentarios