7 puntos por xguru 2023-07-03 | 1 comentarios | Compartir por WhatsApp
  • Una implementación open source del modelo Flamingo de DeepMind
  • Se publicaron los modelos 3B, 4B y 9B
    • Basados en MPT-1B/7B y RedPajama-3B
  • Alcanza más del 80% del rendimiento del modelo Flamingo original
  • Se mejoró el código de entrenamiento y evaluación
    • Soporte para Fully Sharded Data Parallel (FSDP)
    • Se agregaron nuevos datasets al suite de evaluación (TextVQA, VizWiz, HatefulMemes, Flickr30k)