OpenELM: familia eficiente de modelos de lenguaje con framework open source para entrenamiento e inferencia
(arxiv.org)• OpenELM se presenta como un modelo de lenguaje abierto de vanguardia que promueve la reproducibilidad y la transparencia en el campo de los modelos de lenguaje grandes. Al usar una estrategia de escalado por capa, OpenELM asigna parámetros de forma eficiente dentro de cada capa del modelo Transformer para mejorar la precisión. Por ejemplo, con un presupuesto de aproximadamente mil millones de parámetros, OpenELM supera a OLMo en 2.36% mientras requiere solo la mitad de los tokens de preentrenamiento.
• A diferencia de la práctica anterior, que solo ofrecía pesos del modelo y código de inferencia, OpenELM proporciona un framework integral para entrenar y evaluar modelos de lenguaje usando conjuntos de datos disponibles públicamente. Esto incluye registros de entrenamiento, múltiples checkpoints y configuraciones de preentrenamiento. Además, se ofrece código para convertir el modelo a la biblioteca MLX para inferencia y ajuste fino en dispositivos Apple.
• El lanzamiento de OpenELM busca empoderar a la comunidad de investigación abierta al brindar acceso a un framework completo de entrenamiento e inferencia, fomentando así futuros esfuerzos de investigación abierta. El código fuente, los pesos de modelos preentrenados y las recetas de entrenamiento están fácilmente disponibles, junto con el acceso al modelo en Hugging Face.
1 comentarios
Apple OpenELM 3B: 24.80 MMLU
Microsoft Phi-3-mini 3.8b: 68.8 MMLU
Viendo las reacciones por ahí, dicen que el MMLU es demasiado bajo y que los datasets usados para el entrenamiento son algo antiguos.
También comentan si no será que lo hicieron open source a propósito porque es un modelo viejo...