Vision Transformers: surge la necesidad de registros
(openreview.net)Los Vision Transformers necesitan registros
- Autores: Timothée Darcet, Maxime Oquab, Julien Mairal, Piotr Bojanowski
- Presentación oral en ICLR 2024
- Publicado el 16 de enero de 2024, revisión final el 12 de abril de 2024
Resumen
- Se descubren y caracterizan artefactos en los mapas de características de modelos Vision Transformer (ViT) entrenados con aprendizaje supervisado y auto-supervisado
- Durante la inferencia, aparecen tokens de norma alta principalmente en regiones de fondo con poca información, y estos corresponden a artefactos donde se reutilizan para cálculos internos
- Se propone una solución simple pero efectiva: agregar tokens adicionales (llamados "registros") a la secuencia de entrada del ViT
- Esto resuelve completamente el problema tanto en modelos supervisados como auto-supervisados, establece un nuevo SOTA en tareas densas de predicción visual para modelos visuales auto-supervisados, habilita métodos de detección de objetos con modelos más grandes y, sobre todo, produce mapas de características y de atención más suaves para el procesamiento visual downstream
Experimentos y análisis
- La investigación sobre los artefactos es muy original y exhaustiva. Los gráficos y explicaciones son muy reveladores, y los experimentos son completos
- Incluir los tokens de registro propuestos es una idea muy simple y elegante, y proporciona máscaras de atención más interpretables
- Se valora mucho la declaración sobre las limitaciones
- El artículo es fácil de seguir y las visualizaciones ayudan a aportar intuición
Mejoras
- Faltan experimentos que muestren que al agregar tokens de registro se elimina el comportamiento de los tokens atípicos. Sería interesante verificar si esto se transfiere a los tokens de imagen/registro en el modelo propuesto
- La discusión sobre el rendimiento del modelo en detección de objetos no supervisada es limitada y no coincide con los resultados
- Aunque la mejora de DINOv2+reg es impresionante, hace falta más discusión o ejemplos cualitativos sobre por qué no coincide con DINO
- Se afirma que los registros mejoran el rendimiento en detección de objetos no supervisada en todos los modelos, pero el rendimiento de OpenCLIP en realidad empeora
Opinión de GN⁺
-
Además de los registros, podría haber otros métodos para reducir la redundancia limitada a nivel de patch. Da curiosidad si se observa un efecto similar en otros modelos auto-supervisados donde la reconstrucción a nivel de patch, como en MAE, debería aliviar la redundancia en las representaciones
-
Parece necesaria una explicación adicional sobre la caída de rendimiento en OpenCLIP. También falta explicar por qué el rendimiento de LOST en DINO es mejor que en DINOv2
-
Resulta sorprendente que DINOv2 muestre este comportamiento usando una función objetivo densa de mask-image-modeling. Da curiosidad por qué el objetivo de imagen enmascarada no pudo evitar este comportamiento, pese a exigir preservación de información en las características de los patches
-
Parece necesario distinguir entre el sesgo del propio dataset y el sesgo de las etiquetas. SSL se ve menos afectado por el sesgo de etiquetas, pero los sesgos derivados de la fuente de datos, como Instagram vs iNaturalist, aún pueden existir
-
Se sugiere que los tokens atípicos aparecen en modelos más grandes, pero eso no ocurre en los modelos base de CLIP/DEIT. Sería bueno incluir un comentario al respecto al final de la sección 2.2
-
Da curiosidad cómo se compara el rendimiento en detección de objetos no supervisada del modelo DINO con registros frente a otros modelos con funciones similares, como CLIP de OpenAI o LiT de Google
-
Sería bueno analizar si el fenómeno de tokens atípicos observado en modelos basados en ViT también aparece en modelos basados en CNN, o si es algo propio de la arquitectura Transformer
-
En aplicaciones reales, sería útil contar con lineamientos sobre si el uso de tokens de registro puede degradar el rendimiento por el aumento en cómputo, y cómo determinar la cantidad óptima de registros
Aún no hay comentarios.