- "ConvNets Match Vision Transformers at Scale"
- Existe una percepción general de que las ConvNet tienen buen rendimiento en conjuntos de datos pequeños y medianos, pero que no alcanzan a los transformers, especialmente a los vision transformers (ViT), en conjuntos de datos ultra grandes
- La investigación más reciente de DeepMind desafía esta idea
- Se ha considerado que la escalabilidad de los transformers supera a la de las ConvNet, pero faltan pruebas que lo respalden
- Los autores usan la familia NFNet (Normalizer-Free ResNets) para aumentar gradualmente el ancho/la profundidad de la red
- Preentrenan en JFT-4B y hacen ajuste fino en ImageNet usando SAM (Sharpness-Aware Minimization)
- Como resultado, muestran un rendimiento equivalente al de los modelos ViT
- Todos los modelos siguieron mejorando de forma constante a medida que se añadió más capacidad de cómputo
Aún no hay comentarios.