6 puntos por GN⁺ 2024-09-29 | 1 comentarios | Compartir por WhatsApp
  • AMD presentó su primer modelo pequeño de lenguaje, AMD-135M
  • Este modelo fue entrenado con 670 mil millones de tokens usando aceleradores AMD Instinct™ MI250
  • Se divide en dos modelos: AMD-Llama-135M y AMD-Llama-135M-code
    • El modelo AMD-Llama-135M fue entrenado durante 6 días con 670 mil millones de tokens usando datos generales
    • El modelo AMD-Llama-135M-code fue ajustado adicionalmente durante 4 días con 20 mil millones de tokens de datos de código
    • El código de entrenamiento, los conjuntos de datos y los pesos de este modelo se ofrecen como código abierto
  • Optimización del rendimiento de inferencia con Speculative Decoding
    • Los modelos grandes de lenguaje normalmente realizan inferencia usando un enfoque autorregresivo
    • La principal limitación de este enfoque es que solo puede generar un token por cada pasada hacia adelante
    • La introducción de la decodificación especulativa resuelve este problema
    • Un modelo borrador pequeño genera un conjunto de tokens candidatos, que luego es validado por un modelo objetivo más grande
    • Este enfoque permite generar varios tokens por cada pasada hacia adelante, reduciendo de forma importante el consumo de acceso a memoria y mejorando mucho la velocidad
  • Aceleración del rendimiento de inferencia
    • Se probó el rendimiento de inferencia usando AMD-Llama-135M-code como modelo borrador para CodeLlama-7b
    • Se comparó el uso y no uso de decodificación especulativa en aceleradores MI250 y procesadores Ryzen™ AI (incluido NPU)
    • Se confirmó una mejora de velocidad al usar decodificación especulativa en ciertas configuraciones
  • Próximos pasos
    • AMD proporciona una implementación de referencia de código abierto para impulsar la innovación dentro de la comunidad de IA
    • Se pueden consultar más detalles sobre AMD-135M en el blog técnico
    • Se puede acceder al código en el repositorio de AMD en Github
    • Los archivos del modelo pueden descargarse desde la Model Card en Hugging Face
    • Se puede solicitar acceso a tarjetas aceleradoras Instinct en AMD Developer Cloud

Resumen de GN⁺

  • El primer modelo pequeño de lenguaje de AMD, AMD-135M, representa un avance importante para la comunidad de IA
  • Mejora significativamente el rendimiento de inferencia mediante decodificación especulativa
  • Mediante una implementación de referencia de código abierto, ayuda a los desarrolladores a reproducir el modelo y entrenar otros SLM y LLM
  • Busca impulsar la innovación en el campo de la IA y avanzar hacia un desarrollo tecnológico más inclusivo y ético

1 comentarios

 
comsect62 2024-09-30

Para evolucionar hacia una inteligencia artificial general, tiene que haber una oportunidad para dar un salto dimensional, y esa oportunidad es precisamente la educación.