9 puntos por xguru 2023-03-02 | 1 comentarios | Compartir por WhatsApp
  • Un modelo multimodal de lenguaje grande (MLLM) que reconoce formatos generales, aprende en contexto (few-shot) y sigue instrucciones (zero-shot)
  • Un modelo entrenado con texto, imágenes y pares de imagen-subtítulo, que muestra un rendimiento impresionante en las siguientes tareas
    1. comprensión y generación de lenguaje, y NLP sin necesidad de OCR (reconocimiento directo desde imágenes de documentos)
    2. diálogo multimodal, generación de subtítulos de imágenes y respuesta a preguntas visuales
    3. tareas de visión como reconocimiento de imágenes con descripciones (clasificación definida mediante instrucciones de texto)
  • Los MLLM pueden beneficiarse de la transferencia entre modalidades (transferencia de conocimiento del lenguaje a lo multimodal y de lo multimodal al lenguaje)

1 comentarios