El imperio de la convolución contraataca

xguru · 2023-10-31T10:03:01+09:00

"ConvNets Match Vision Transformers at Scale" Existe una percepción general de que las ConvNet tienen buen rendimiento en conjuntos de datos pequeños y medianos, pero que no alcanzan a los transformers, especialmente a los vision transformers (ViT), en conjuntos de datos ultra grandes La investigación más reciente de DeepMind desafía esta idea Se ha considerado que la escalabilidad de los transformers supera a la de las ConvNet, pero faltan pruebas que lo respalden Los autores usan la familia NFNet (Normalizer-Free ResNets) para aumentar gradualmente el ancho/la profundidad de la red Preentrenan en JFT-4B y hacen ajuste fino en ImageNet usando SAM (Sharpness-Aware Minimization) Como resultado, muestran un rendimiento equivalente al de los modelos ViT Todos los modelos siguieron mejorando de forma constante a medida que se añadió más capacidad de cómputo

(substack.com/gonzoml)

6 puntos por xguru 2023-10-31 | Aún no hay comentarios. | Compartir por WhatsApp

"ConvNets Match Vision Transformers at Scale"
Existe una percepción general de que las ConvNet tienen buen rendimiento en conjuntos de datos pequeños y medianos, pero que no alcanzan a los transformers, especialmente a los vision transformers (ViT), en conjuntos de datos ultra grandes
La investigación más reciente de DeepMind desafía esta idea
- Se ha considerado que la escalabilidad de los transformers supera a la de las ConvNet, pero faltan pruebas que lo respalden
- Los autores usan la familia NFNet (Normalizer-Free ResNets) para aumentar gradualmente el ancho/la profundidad de la red
- Preentrenan en JFT-4B y hacen ajuste fino en ImageNet usando SAM (Sharpness-Aware Minimization)
- Como resultado, muestran un rendimiento equivalente al de los modelos ViT
- Todos los modelos siguieron mejorando de forma constante a medida que se añadió más capacidad de cómputo

El imperio de la convolución contraataca

Lecturas relacionadas

Aún no hay comentarios.