- AMD presentó su primer modelo pequeño de lenguaje, AMD-135M
- Este modelo fue entrenado con 670 mil millones de tokens usando aceleradores AMD Instinct™ MI250
- Se divide en dos modelos: AMD-Llama-135M y AMD-Llama-135M-code
- El modelo AMD-Llama-135M fue entrenado durante 6 días con 670 mil millones de tokens usando datos generales
- El modelo AMD-Llama-135M-code fue ajustado adicionalmente durante 4 días con 20 mil millones de tokens de datos de código
- El código de entrenamiento, los conjuntos de datos y los pesos de este modelo se ofrecen como código abierto
- Optimización del rendimiento de inferencia con Speculative Decoding
- Los modelos grandes de lenguaje normalmente realizan inferencia usando un enfoque autorregresivo
- La principal limitación de este enfoque es que solo puede generar un token por cada pasada hacia adelante
- La introducción de la decodificación especulativa resuelve este problema
- Un modelo borrador pequeño genera un conjunto de tokens candidatos, que luego es validado por un modelo objetivo más grande
- Este enfoque permite generar varios tokens por cada pasada hacia adelante, reduciendo de forma importante el consumo de acceso a memoria y mejorando mucho la velocidad
- Aceleración del rendimiento de inferencia
- Se probó el rendimiento de inferencia usando AMD-Llama-135M-code como modelo borrador para CodeLlama-7b
- Se comparó el uso y no uso de decodificación especulativa en aceleradores MI250 y procesadores Ryzen™ AI (incluido NPU)
- Se confirmó una mejora de velocidad al usar decodificación especulativa en ciertas configuraciones
- Próximos pasos
- AMD proporciona una implementación de referencia de código abierto para impulsar la innovación dentro de la comunidad de IA
- Se pueden consultar más detalles sobre AMD-135M en el blog técnico
- Se puede acceder al código en el repositorio de AMD en Github
- Los archivos del modelo pueden descargarse desde la Model Card en Hugging Face
- Se puede solicitar acceso a tarjetas aceleradoras Instinct en AMD Developer Cloud
Resumen de GN⁺
- El primer modelo pequeño de lenguaje de AMD, AMD-135M, representa un avance importante para la comunidad de IA
- Mejora significativamente el rendimiento de inferencia mediante decodificación especulativa
- Mediante una implementación de referencia de código abierto, ayuda a los desarrolladores a reproducir el modelo y entrenar otros SLM y LLM
- Busca impulsar la innovación en el campo de la IA y avanzar hacia un desarrollo tecnológico más inclusivo y ético
1 comentarios
Para evolucionar hacia una inteligencia artificial general, tiene que haber una oportunidad para dar un salto dimensional, y esa oportunidad es precisamente la educación.