Meta presenta Megabyte, una arquitectura innovadora de modelos de IA

xguru · 2023-05-26T10:02:01+09:00

Escalable para procesar de forma más eficiente y en paralelo, superando la arquitectura Transformer que usan modelos como GPT-4 Los Transformer son adecuados para secuencias cortas, pero es difícil expandirlos a secuencias largas de más de 1 millón de tokens, como imágenes de alta resolución, podcasts, código y libros Megabyte es una arquitectura de decodificador multiescala capaz de modelar secuencias de más de 1 millón Divide las secuencias de entrada y salida en "patches" en lugar de tokens individuales Un modelo de IA local genera resultados para cada patch, y un modelo global administra y coordina estos patches En las pruebas, un modelo Megabyte con 1.5B parámetros construyó secuencias 40% más rápido que un modelo Transformer que funciona con 350M parámetros En las pruebas, superó ampliamente los 32,000 tokens de GPT-4 y los 100,000 tokens de Claude, alcanzando hasta 1.2M tokens

(artisana.ai)

14 puntos por xguru 2023-05-26 | 2 comentarios | Compartir por WhatsApp

Escalable para procesar de forma más eficiente y en paralelo, superando la arquitectura Transformer que usan modelos como GPT-4
Los Transformer son adecuados para secuencias cortas, pero es difícil expandirlos a secuencias largas de más de 1 millón de tokens, como imágenes de alta resolución, podcasts, código y libros
Megabyte es una arquitectura de decodificador multiescala capaz de modelar secuencias de más de 1 millón
- Divide las secuencias de entrada y salida en "patches" en lugar de tokens individuales
- Un modelo de IA local genera resultados para cada patch, y un modelo global administra y coordina estos patches
En las pruebas, un modelo Megabyte con 1.5B parámetros construyó secuencias 40% más rápido que un modelo Transformer que funciona con 350M parámetros
En las pruebas, superó ampliamente los 32,000 tokens de GPT-4 y los 100,000 tokens de Claude, alcanzando hasta 1.2M tokens

2 comentarios

ninebow 2023-05-27

A continuación se presenta, con autorización, una traducción del artículo introductorio sobre Megabyte escrito por ENCORD, una startup que desarrolla infraestructura y herramientas de IA. :)

https://discuss.pytorch.kr/t/…

cosine20 2023-05-27

También aparece en el cuerpo, pero aquí está el enlace al artículo: https://arxiv.org/abs/2305.07185

Meta presenta Megabyte, una arquitectura innovadora de modelos de IA

Lecturas relacionadas

2 comentarios