4 puntos por xguru 2024-07-23 | 3 comentarios | Compartir por WhatsApp
  • El equipo de investigación del proyecto DataComp for Language Models de Apple publicó en Hugging Face la familia de modelos abiertos DCLM
  • El paquete incluye dos modelos principales de 7B y 1.4B parámetros
  • El modelo de 7 mil millones (7B) de parámetros muestra un buen rendimiento en benchmarks, superando a Mistral-7B y acercándose a otros grandes modelos abiertos como Llama 3 y Gemma
  • El proyecto se convierte en un verdadero open source al publicar los pesos del modelo, el código de entrenamiento y el dataset de preentrenamiento

DCLM(DataComp for Language Models)

  • El proyecto DataComp puede describirse como un esfuerzo colaborativo para diseñar datasets de alta calidad para entrenar modelos de IA, especialmente en el dominio multimodal
  • A través de experimentos, descubrieron que el filtrado basado en modelos, donde los modelos de machine learning (ML) filtran y seleccionan automáticamente datos de alta calidad dentro de datasets más grandes, puede ser clave para construir conjuntos de entrenamiento de alta calidad
  • El dataset resultante, DCLM-Baseline, se usó para entrenar desde cero nuevos modelos de lenguaje en inglés DCLM tipo decoder-only transformer de 7 mil millones y 1.4 mil millones de parámetros
  • El modelo de 7 mil millones fue entrenado con 2.5 billones de tokens usando una receta de preentrenamiento basada en el framework OpenLM, y ofrece una precisión de 63.7% en MMLU a 5 shots
  • Esto representa una mejora de 6.6 puntos porcentuales frente a MAP-Neo, el anterior modelo de lenguaje de datos abiertos state of the art, usando además 40% menos cómputo para el entrenamiento

Modelos potentes y más pequeños

  • La versión de 1.4 mil millones (1.4B) de parámetros también mostró un rendimiento impresionante en las pruebas MMLU, Core y Extended
  • En la prueba MMLU a 5 shots registró 41.9%, una cifra considerablemente más alta que la de otros modelos de esta categoría, incluido el recientemente lanzado SmolLM de Hugging Face
  • Actualmente, el modelo más grande puede usarse bajo la Sample Code License de Apple, mientras que el modelo más pequeño fue publicado bajo Apache 2.0, que permite uso comercial, distribución y modificación
  • La biblioteca de HF también incluye una versión instruction-tuned del modelo de 7 mil millones de parámetros
  • Hay que tener en cuenta que se trata de una investigación inicial que destaca la efectividad de la curación de datos
    • Este modelo no es para dispositivos Apple y podría mostrar ciertos sesgos en los datos de entrenamiento de prueba o producir respuestas dañinas

3 comentarios

 
j2sus91 2024-07-23

Porque el efecto se maximiza cuando se integra en el iPhone.
Samsung también está enfocándose en el procesamiento en el dispositivo.

 
xguru 2024-07-23

Apple lanza 8 pequeños modelos de lenguaje de IA pensados para uso en el dispositivo

Parece que Apple sigue enfocándose en modelos pequeños para IA on-device. Tengo ganas de probarlos pronto.

 
godrm 2024-07-23

Creo que quizá a partir del próximo año ya podamos usarlo de lleno jaja