- Escalable para procesar de forma más eficiente y en paralelo, superando la arquitectura Transformer que usan modelos como GPT-4
- Los Transformer son adecuados para secuencias cortas, pero es difícil expandirlos a secuencias largas de más de 1 millón de tokens, como imágenes de alta resolución, podcasts, código y libros
- Megabyte es una arquitectura de decodificador multiescala capaz de modelar secuencias de más de 1 millón
- Divide las secuencias de entrada y salida en "patches" en lugar de tokens individuales
- Un modelo de IA local genera resultados para cada patch, y un modelo global administra y coordina estos patches
- En las pruebas, un modelo Megabyte con 1.5B parámetros construyó secuencias 40% más rápido que un modelo Transformer que funciona con 350M parámetros
- En las pruebas, superó ampliamente los 32,000 tokens de GPT-4 y los 100,000 tokens de Claude, alcanzando hasta 1.2M tokens
2 comentarios
A continuación se presenta, con autorización, una traducción del artículo introductorio sobre Megabyte escrito por ENCORD, una startup que desarrolla infraestructura y herramientas de IA. :)
https://discuss.pytorch.kr/t/…
También aparece en el cuerpo, pero aquí está el enlace al artículo: https://arxiv.org/abs/2305.07185