5 puntos por xguru 2023-06-16 | 1 comentarios | Compartir por WhatsApp
  • Aprende creando un modelo interno que compara representaciones abstractas de imágenes, en lugar de comparar los píxeles directamente
  • Ofrece un rendimiento sólido en tareas de visión por computadora y es mucho más eficiente. Puede aplicarse en diversos casos sin necesidad de un ajuste fino extensivo
  • Puede entrenar un modelo visual transformer de 632M parámetros en 72 horas usando solo 16 GPU A100
    • Muestra rendimiento SOTA en clasificación low-shot de ImageNet con solo 12 ejemplos etiquetados por clase
  • El paper se presentará en CVPR 2023, y también se publicarán como open source el código de entrenamiento y los checkpoints del modelo
  • Image Joint Embedding Predictive Architecture

1 comentarios

 
libner 2023-06-16

Parece que por un error tipográfico, "amplio" no quedó escrito correctamente.