14 puntos por xguru 2023-05-26 | 2 comentarios | Compartir por WhatsApp
  • Escalable para procesar de forma más eficiente y en paralelo, superando la arquitectura Transformer que usan modelos como GPT-4
  • Los Transformer son adecuados para secuencias cortas, pero es difícil expandirlos a secuencias largas de más de 1 millón de tokens, como imágenes de alta resolución, podcasts, código y libros
  • Megabyte es una arquitectura de decodificador multiescala capaz de modelar secuencias de más de 1 millón
    • Divide las secuencias de entrada y salida en "patches" en lugar de tokens individuales
    • Un modelo de IA local genera resultados para cada patch, y un modelo global administra y coordina estos patches
  • En las pruebas, un modelo Megabyte con 1.5B parámetros construyó secuencias 40% más rápido que un modelo Transformer que funciona con 350M parámetros
  • En las pruebas, superó ampliamente los 32,000 tokens de GPT-4 y los 100,000 tokens de Claude, alcanzando hasta 1.2M tokens

2 comentarios

 
ninebow 2023-05-27

A continuación se presenta, con autorización, una traducción del artículo introductorio sobre Megabyte escrito por ENCORD, una startup que desarrolla infraestructura y herramientas de IA. :)

https://discuss.pytorch.kr/t/…

 
cosine20 2023-05-27

También aparece en el cuerpo, pero aquí está el enlace al artículo: https://arxiv.org/abs/2305.07185