Apple presume su capacidad de IA abierta: sus nuevos modelos rinden mejor que Mistral

xguru · 2024-07-23T10:51:01+09:00

El equipo de investigación del proyecto DataComp for Language Models de Apple publicó en Hugging Face la familia de modelos abiertos DCLM El paquete incluye dos modelos principales de 7B y 1.4B parámetros El modelo de 7 mil millones (7B) de parámetros muestra un buen rendimiento en benchmarks, superando a Mistral-7B y acercándose a otros grandes modelos abiertos como Llama 3 y Gemma El proyecto se convierte en un verdadero open source al publicar los pesos del modelo, el código de entrenamiento y el dataset de preentrenamiento DCLM(DataComp for Language Models) El proyecto DataComp puede describirse como un esfuerzo colaborativo para diseñar datasets de alta calidad para entrenar modelos de IA, especialmente en el dominio multimodal A través de experimentos, descubrieron que el filtrado basado en modelos, donde los modelos de machine learning (ML) filtran y seleccionan automáticamente datos de alta calidad dentro de datasets más grandes, puede ser clave para construir conjuntos de entrenamiento de alta calidad El dataset resultante, DCLM-Baseline, se usó para entrenar desde cero nuevos modelos de lenguaje en inglés DCLM tipo decoder-only transformer de 7 mil millones y 1.4 mil millones de parámetros El modelo de 7 mil millones fue entrenado con 2.5 billones de tokens usando una receta de preentrenamiento basada en el framework OpenLM, y ofrece una precisión de 63.7% en MMLU a 5 shots Esto representa una mejora de 6.6 puntos porcentuales frente a MAP-Neo, el anterior modelo de lenguaje de datos abiertos state of the art, usando además 40% menos cómputo para el entrenamiento Modelos potentes y más pequeños La versión de 1.4 mil millones (1.4B) de parámetros también mostró un rendimiento impresionante en las pruebas MMLU, Core y Extended En la prueba MMLU a 5 shots registró 41.9%, una cifra considerablemente más alta que la de otros modelos de esta categoría, incluido el recientemente lanzado SmolLM de Hugging Face Actualmente, el modelo más grande puede usarse bajo la Sample Code License de Apple, mientras que el modelo más pequeño fue publicado bajo Apache 2.0, que permite uso comercial, distribución y modificación La biblioteca de HF también incluye una versión instruction-tuned del modelo de 7 mil millones de parámetros Hay que tener en cuenta que se trata de una investigación inicial que destaca la efectividad de la curación de datos Este modelo no es para dispositivos Apple y podría mostrar ciertos sesgos en los datos de entrenamiento de prueba o producir respuestas dañinas

(venturebeat.com)

4 puntos por xguru 2024-07-23 | 3 comentarios | Compartir por WhatsApp

El equipo de investigación del proyecto DataComp for Language Models de Apple publicó en Hugging Face la familia de modelos abiertos DCLM
El paquete incluye dos modelos principales de 7B y 1.4B parámetros
El modelo de 7 mil millones (7B) de parámetros muestra un buen rendimiento en benchmarks, superando a Mistral-7B y acercándose a otros grandes modelos abiertos como Llama 3 y Gemma
El proyecto se convierte en un verdadero open source al publicar los pesos del modelo, el código de entrenamiento y el dataset de preentrenamiento

DCLM(DataComp for Language Models)

El proyecto DataComp puede describirse como un esfuerzo colaborativo para diseñar datasets de alta calidad para entrenar modelos de IA, especialmente en el dominio multimodal
A través de experimentos, descubrieron que el filtrado basado en modelos, donde los modelos de machine learning (ML) filtran y seleccionan automáticamente datos de alta calidad dentro de datasets más grandes, puede ser clave para construir conjuntos de entrenamiento de alta calidad
El dataset resultante, DCLM-Baseline, se usó para entrenar desde cero nuevos modelos de lenguaje en inglés DCLM tipo decoder-only transformer de 7 mil millones y 1.4 mil millones de parámetros
El modelo de 7 mil millones fue entrenado con 2.5 billones de tokens usando una receta de preentrenamiento basada en el framework OpenLM, y ofrece una precisión de 63.7% en MMLU a 5 shots
Esto representa una mejora de 6.6 puntos porcentuales frente a MAP-Neo, el anterior modelo de lenguaje de datos abiertos state of the art, usando además 40% menos cómputo para el entrenamiento

Modelos potentes y más pequeños

La versión de 1.4 mil millones (1.4B) de parámetros también mostró un rendimiento impresionante en las pruebas MMLU, Core y Extended
En la prueba MMLU a 5 shots registró 41.9%, una cifra considerablemente más alta que la de otros modelos de esta categoría, incluido el recientemente lanzado SmolLM de Hugging Face
Actualmente, el modelo más grande puede usarse bajo la Sample Code License de Apple, mientras que el modelo más pequeño fue publicado bajo Apache 2.0, que permite uso comercial, distribución y modificación
La biblioteca de HF también incluye una versión instruction-tuned del modelo de 7 mil millones de parámetros
Hay que tener en cuenta que se trata de una investigación inicial que destaca la efectividad de la curación de datos
- Este modelo no es para dispositivos Apple y podría mostrar ciertos sesgos en los datos de entrenamiento de prueba o producir respuestas dañinas

3 comentarios

j2sus91 2024-07-23

Porque el efecto se maximiza cuando se integra en el iPhone.
Samsung también está enfocándose en el procesamiento en el dispositivo.

xguru 2024-07-23

Apple lanza 8 pequeños modelos de lenguaje de IA pensados para uso en el dispositivo

Parece que Apple sigue enfocándose en modelos pequeños para IA on-device. Tengo ganas de probarlos pronto.

godrm 2024-07-23

Creo que quizá a partir del próximo año ya podamos usarlo de lleno jaja

Apple presume su capacidad de IA abierta: sus nuevos modelos rinden mejor que Mistral

DCLM(DataComp for Language Models)

Modelos potentes y más pequeños

Lecturas relacionadas

3 comentarios