[Traducción] Explicación de Megabyte de Meta AI

(discuss.pytorch.kr)

12 puntos por ninebow 2023-05-27 | Aún no hay comentarios. | Compartir por WhatsApp

Introducción a la arquitectura principal de MegaByte
- Patch Embedder: incrusta la entrada y la divide en parches
- Global Module: transformador autorregresivo que realiza self-attention
- Local Module: predice el siguiente parche con la entrada recibida del modelo global
Introducción al Multiscale Transformer
Introducción al Autoregressive Transformer
Problemas de los modelos actuales: tokenization, scalability, generation speed
Soluciones propuestas
- Self-attention con costo computacional reducido a O(N^(4/3))
- Aplicación de la capa feedforward por unidad de parche
- Procesamiento en paralelo durante la decodificación
(Adicional) Novedades recientes de Meta AI
- SAM: https://es.news.hada.io/topic?id=8893
- MTIA: https://es.news.hada.io/topic?id=9246
- DINOv2: https://es.news.hada.io/topic?id=9269
- ImageBIND: https://es.news.hada.io/topic?id=9156
- (Aunque no aparece en el artículo) MMS: https://es.news.hada.io/topic?id=9245
- (Tampoco aparece en el artículo) LIMA: https://es.news.hada.io/topic?id=9239

Lecturas relacionadas