- Aprende creando un modelo interno que compara representaciones abstractas de imágenes, en lugar de comparar los píxeles directamente
- Ofrece un rendimiento sólido en tareas de visión por computadora y es mucho más eficiente. Puede aplicarse en diversos casos sin necesidad de un ajuste fino extensivo
- Puede entrenar un modelo visual transformer de 632M parámetros en 72 horas usando solo 16 GPU A100
- Muestra rendimiento SOTA en clasificación low-shot de ImageNet con solo 12 ejemplos etiquetados por clase
- El paper se presentará en CVPR 2023, y también se publicarán como open source el código de entrenamiento y los checkpoints del modelo
- Image Joint Embedding Predictive Architecture
1 comentarios
Parece que por un error tipográfico, "amplio" no quedó escrito correctamente.