6 puntos por xguru 2023-10-31 | Aún no hay comentarios. | Compartir por WhatsApp
  • "ConvNets Match Vision Transformers at Scale"
  • Existe una percepción general de que las ConvNet tienen buen rendimiento en conjuntos de datos pequeños y medianos, pero que no alcanzan a los transformers, especialmente a los vision transformers (ViT), en conjuntos de datos ultra grandes
  • La investigación más reciente de DeepMind desafía esta idea
    • Se ha considerado que la escalabilidad de los transformers supera a la de las ConvNet, pero faltan pruebas que lo respalden
    • Los autores usan la familia NFNet (Normalizer-Free ResNets) para aumentar gradualmente el ancho/la profundidad de la red
    • Preentrenan en JFT-4B y hacen ajuste fino en ImageNet usando SAM (Sharpness-Aware Minimization)
    • Como resultado, muestran un rendimiento equivalente al de los modelos ViT
    • Todos los modelos siguieron mejorando de forma constante a medida que se añadió más capacidad de cómputo

Aún no hay comentarios.

Aún no hay comentarios.