LANISTR: un nuevo framework para aprender a partir de datos estructurados y no estructurados
(research.google)• LANISTR es un nuevo framework que permite el aprendizaje multimodal al ingerir datos no estructurados (imágenes, texto) y estructurados (series temporales, tablas), realizar su alineación y fusión y, en última instancia, generar predicciones.
• En particular, aborda problemas como el sobreajuste y la generalización subóptima al entrenar con conjuntos de datos de tamaño limitado, así como el problema de modalidades faltantes en datos multimodales con dos o más modalidades.
• La arquitectura de LANISTR está compuesta por codificadores específicos para cada modalidad y un módulo codificador-decodificador multimodal que actúa como mecanismo de fusión y utiliza atención cruzada para capturar relaciones entre modalidades.
• El núcleo de la metodología de LANISTR se basa en el entrenamiento con enmascaramiento aplicado tanto a nivel unimodal como multimodal, y cuenta con dos tipos de objetivos de preentrenamiento: objetivos de enmascaramiento unimodal y una pérdida de enmascaramiento multimodal basada en similitud.
• LANISTR logra resultados de vanguardia en varias tareas desafiantes, superando líneas base competitivas tanto en el conjunto de datos médicos MIMIC-IV como en los datos de reseñas de Amazon.
• Demuestra la importancia de aprender de datos estructurados y no estructurados usando conjuntamente datos etiquetados y no etiquetados, así como la capacidad de ingerir activamente todas las modalidades tal como son, aprovechar grandes volúmenes de datos no etiquetados durante el preentrenamiento no supervisado y manejar sin fricciones las modalidades faltantes.
• LANISTR tiene aplicaciones potenciales en diversos ámbitos, incluidos el diagnóstico médico y la predicción de demanda en retail.
Aún no hay comentarios.