1 puntos por GN⁺ 2024-05-13 | Aún no hay comentarios. | Compartir por WhatsApp

Los Vision Transformers necesitan registros

  • Autores: Timothée Darcet, Maxime Oquab, Julien Mairal, Piotr Bojanowski
  • Presentación oral en ICLR 2024
  • Publicado el 16 de enero de 2024, revisión final el 12 de abril de 2024

Resumen

  • Se descubren y caracterizan artefactos en los mapas de características de modelos Vision Transformer (ViT) entrenados con aprendizaje supervisado y auto-supervisado
  • Durante la inferencia, aparecen tokens de norma alta principalmente en regiones de fondo con poca información, y estos corresponden a artefactos donde se reutilizan para cálculos internos
  • Se propone una solución simple pero efectiva: agregar tokens adicionales (llamados "registros") a la secuencia de entrada del ViT
  • Esto resuelve completamente el problema tanto en modelos supervisados como auto-supervisados, establece un nuevo SOTA en tareas densas de predicción visual para modelos visuales auto-supervisados, habilita métodos de detección de objetos con modelos más grandes y, sobre todo, produce mapas de características y de atención más suaves para el procesamiento visual downstream

Experimentos y análisis

  • La investigación sobre los artefactos es muy original y exhaustiva. Los gráficos y explicaciones son muy reveladores, y los experimentos son completos
  • Incluir los tokens de registro propuestos es una idea muy simple y elegante, y proporciona máscaras de atención más interpretables
  • Se valora mucho la declaración sobre las limitaciones
  • El artículo es fácil de seguir y las visualizaciones ayudan a aportar intuición

Mejoras

  • Faltan experimentos que muestren que al agregar tokens de registro se elimina el comportamiento de los tokens atípicos. Sería interesante verificar si esto se transfiere a los tokens de imagen/registro en el modelo propuesto
  • La discusión sobre el rendimiento del modelo en detección de objetos no supervisada es limitada y no coincide con los resultados
  • Aunque la mejora de DINOv2+reg es impresionante, hace falta más discusión o ejemplos cualitativos sobre por qué no coincide con DINO
  • Se afirma que los registros mejoran el rendimiento en detección de objetos no supervisada en todos los modelos, pero el rendimiento de OpenCLIP en realidad empeora

Opinión de GN⁺

  • Además de los registros, podría haber otros métodos para reducir la redundancia limitada a nivel de patch. Da curiosidad si se observa un efecto similar en otros modelos auto-supervisados donde la reconstrucción a nivel de patch, como en MAE, debería aliviar la redundancia en las representaciones

  • Parece necesaria una explicación adicional sobre la caída de rendimiento en OpenCLIP. También falta explicar por qué el rendimiento de LOST en DINO es mejor que en DINOv2

  • Resulta sorprendente que DINOv2 muestre este comportamiento usando una función objetivo densa de mask-image-modeling. Da curiosidad por qué el objetivo de imagen enmascarada no pudo evitar este comportamiento, pese a exigir preservación de información en las características de los patches

  • Parece necesario distinguir entre el sesgo del propio dataset y el sesgo de las etiquetas. SSL se ve menos afectado por el sesgo de etiquetas, pero los sesgos derivados de la fuente de datos, como Instagram vs iNaturalist, aún pueden existir

  • Se sugiere que los tokens atípicos aparecen en modelos más grandes, pero eso no ocurre en los modelos base de CLIP/DEIT. Sería bueno incluir un comentario al respecto al final de la sección 2.2

  • Da curiosidad cómo se compara el rendimiento en detección de objetos no supervisada del modelo DINO con registros frente a otros modelos con funciones similares, como CLIP de OpenAI o LiT de Google

  • Sería bueno analizar si el fenómeno de tokens atípicos observado en modelos basados en ViT también aparece en modelos basados en CNN, o si es algo propio de la arquitectura Transformer

  • En aplicaciones reales, sería útil contar con lineamientos sobre si el uso de tokens de registro puede degradar el rendimiento por el aumento en cómputo, y cómo determinar la cantidad óptima de registros

Aún no hay comentarios.

Aún no hay comentarios.