Llega Hello OLMo, un LLM verdaderamente abierto
(blog.allenai.org)-
AI2 presentó el modelo OLMo 7B. Se trata de un modelo de lenguaje grande de código abierto en el verdadero sentido del término, ya que publica junto con él los datos de preentrenamiento y el código de entrenamiento.
- Esto permite que investigadores y desarrolladores usen el mejor modelo abierto para impulsar colectivamente la ciencia de los modelos de lenguaje.
- El científico de IA de Meta, Yann LeCun, mencionó que la comunidad de código abierto puede construir el futuro de la IA de la forma más rápida y efectiva.
-
Principales características del framework OLMo:
- Datos completos de preentrenamiento: utiliza el dataset Dolma de AI2 e incluye también el código para generar los datos de entrenamiento.
- Código de entrenamiento y pesos del modelo: ofrece los pesos completos del modelo, código de inferencia, métricas de entrenamiento y logs de entrenamiento para 4 variantes de modelos a escala 7B.
- Evaluación: bajo el proyecto Catwalk, publica más de 500 checkpoints, además del código de evaluación y otras herramientas de evaluación usadas en el desarrollo.
-
A través de OLMo, investigadores y desarrolladores de IA pueden obtener experiencias como las siguientes:
- Análisis más precisos: pueden trabajar más rápido con una comprensión completa de los datos de entrenamiento.
- Reducción de emisiones de carbono: al publicar todo el ecosistema de entrenamiento y evaluación, se puede reducir el desarrollo duplicado.
- Resultados sostenibles: al publicar el modelo y el dataset, se hace posible aprender de modelos anteriores y construir sobre ellos.
-
El desarrollo de OLMo fue posible gracias a la colaboración con AMD, CSC (Lumi Supercomputer), University of Washington y Databricks, entre otros.
Opinión de GN⁺
- Publicar los datos de entrenamiento y el código para mejorar la transparencia de los modelos de IA parece tener un gran valor. Sin embargo, también puede haber problemas como sesgos en los datos, por lo que parece necesario revisarlos.
- La activación del ecosistema de modelos de lenguaje de código abierto probablemente acelerará el avance tecnológico. Aun así, habrá que observar qué resultados puede lograr frente a los modelos de IA cerrados de las grandes empresas de TI.
- La colaboración con diversas instituciones parece muy importante para asegurar los enormes recursos de cómputo necesarios para el desarrollo de IA. Podría ser un buen ejemplo de modelo de cooperación entre la academia y la industria.
- Se espera que OLMo impulse una investigación científica más activa sobre los principios de funcionamiento de los modelos de lenguaje. Esto podría conducir al desarrollo de una IA más segura y confiable.
1 comentarios
Opiniones en Hacker News