- Apple presentó OpenELM, un modelo de lenguaje de IA lo suficientemente pequeño como para ejecutarse directamente en smartphones
- OpenELM es la sigla de "Open-source Efficient Language Models" y está disponible en Hugging Face bajo la Apple Sample Code License
- El código fuente fue publicado, pero la licencia tiene algunas restricciones, por lo que podría no ajustarse a la definición habitual de "código abierto"
Características de los modelos OpenELM
- OpenELM está compuesto por 8 modelos con entre 270 millones y 3 mil millones de parámetros
- Investigaciones recientes se han enfocado en crear modelos de lenguaje de IA pequeños con capacidades comparables a las de los grandes modelos de hace unos años
- Los modelos OpenELM se ofrecen en dos tipos: versiones preentrenadas (
pretrained) y versiones ajustadas por instrucciones (instruction-tuned)
- OpenELM-270M, OpenELM-450M, OpenELM-1_1B, OpenELM-3B
- OpenELM-270M-Instruct, OpenELM-450M-Instruct, OpenELM-1_1B-Instruct, OpenELM-3B-Instruct
Datos de entrenamiento y rendimiento de OpenELM
- OpenELM tiene una ventana de contexto de hasta 2048 tokens
- Fue entrenado con aproximadamente 1.8 billones de tokens, incluidos datasets de acceso público como RefinedWeb, una versión deduplicada de PILE, un subconjunto de RedPajama y un subconjunto de Dolma v1.6
- Mediante la "layer-wise scaling strategy" de Apple, los parámetros se asignan de forma más eficiente a cada capa para ahorrar recursos computacionales y mejorar el rendimiento del modelo
- OpenELM mostró una precisión 2.36% superior a OLMo 1B de Allen AI, incluso usando la mitad de los tokens de preentrenamiento
Materiales adicionales publicados y objetivo de Apple
- Apple publicó el código de la biblioteca CoreNet usada para entrenar OpenELM y recetas de entrenamiento reproducibles
- De forma poco habitual para una gran empresa tecnológica, también publicó los pesos, enfatizando la transparencia
- Al publicar el código fuente, los pesos del modelo y los materiales de entrenamiento, su objetivo es "fortalecer y enriquecer la comunidad de investigación abierta"
- Sin embargo, advirtió que, al haber sido entrenado con datasets públicos, existe la posibilidad de que genere salidas inexactas, dañinas, sesgadas o que resulten ofensivas
Perspectivas futuras
- Apple todavía no ha integrado nuevas funciones de modelos de lenguaje de IA en dispositivos para consumidores
- Sin embargo, se especula que la actualización de iOS 18, que se espera sea presentada en la WWDC de junio, incluirá nuevas funciones de IA que aprovechen el procesamiento en el dispositivo para proteger la privacidad de los usuarios
- También existe la posibilidad de que recurra a Google u OpenAI para actualizar Siri con procesamiento de IA más complejo fuera del dispositivo
2 comentarios
Tengo mucha curiosidad por ver qué tan grande será realmente el cambio con la actualización de iOS 18. ¡También tengo muchísimas ganas de ver el M4 con funciones de IA mejoradas!