7 puntos por GN⁺ 2024-04-09 | 1 comentarios | Compartir por WhatsApp
  • AI2 presentó el modelo OLMo 7B. Se trata de un modelo de lenguaje grande de código abierto en el verdadero sentido del término, ya que publica junto con él los datos de preentrenamiento y el código de entrenamiento.

    • Esto permite que investigadores y desarrolladores usen el mejor modelo abierto para impulsar colectivamente la ciencia de los modelos de lenguaje.
    • El científico de IA de Meta, Yann LeCun, mencionó que la comunidad de código abierto puede construir el futuro de la IA de la forma más rápida y efectiva.
  • Principales características del framework OLMo:

    • Datos completos de preentrenamiento: utiliza el dataset Dolma de AI2 e incluye también el código para generar los datos de entrenamiento.
    • Código de entrenamiento y pesos del modelo: ofrece los pesos completos del modelo, código de inferencia, métricas de entrenamiento y logs de entrenamiento para 4 variantes de modelos a escala 7B.
    • Evaluación: bajo el proyecto Catwalk, publica más de 500 checkpoints, además del código de evaluación y otras herramientas de evaluación usadas en el desarrollo.
  • A través de OLMo, investigadores y desarrolladores de IA pueden obtener experiencias como las siguientes:

    • Análisis más precisos: pueden trabajar más rápido con una comprensión completa de los datos de entrenamiento.
    • Reducción de emisiones de carbono: al publicar todo el ecosistema de entrenamiento y evaluación, se puede reducir el desarrollo duplicado.
    • Resultados sostenibles: al publicar el modelo y el dataset, se hace posible aprender de modelos anteriores y construir sobre ellos.
  • El desarrollo de OLMo fue posible gracias a la colaboración con AMD, CSC (Lumi Supercomputer), University of Washington y Databricks, entre otros.

Opinión de GN⁺

  • Publicar los datos de entrenamiento y el código para mejorar la transparencia de los modelos de IA parece tener un gran valor. Sin embargo, también puede haber problemas como sesgos en los datos, por lo que parece necesario revisarlos.
  • La activación del ecosistema de modelos de lenguaje de código abierto probablemente acelerará el avance tecnológico. Aun así, habrá que observar qué resultados puede lograr frente a los modelos de IA cerrados de las grandes empresas de TI.
  • La colaboración con diversas instituciones parece muy importante para asegurar los enormes recursos de cómputo necesarios para el desarrollo de IA. Podría ser un buen ejemplo de modelo de cooperación entre la academia y la industria.
  • Se espera que OLMo impulse una investigación científica más activa sobre los principios de funcionamiento de los modelos de lenguaje. Esto podría conducir al desarrollo de una IA más segura y confiable.

1 comentarios

 
GN⁺ 2024-04-09
Opiniones en Hacker News
  • Al usar un LLM, hay que informar al autor para qué uso será. Está especificado en la licencia.
  • Si se crean derivados, se debe enviar a AI2 un Derivative Impact Report o proporcionar información similar por escrito. AI2 puede hacer pública esta información.
  • Se debe divulgar con transparencia el propósito de uso de los derivados.
  • El Derivative Impact Report no busca castigar la divulgación de buena fe. Si se presenta una demanda relacionada, el contrato se termina de inmediato.
  • Es uno de los verdaderos modelos open source. Mientras que la mayoría solo publica los pesos, este es abierto de extremo a extremo.
  • Sorprende que no se mencione una comparación con Mistral 7b.
  • Parece que "The Pile" no está incluido en los datos de entrenamiento. Legalmente, podría ser más sólido que otros LLM "abiertos".
  • ¿Cuál es el significado real de la clasificación de riesgo aplicada al dataset? Falta explicación en la página de la licencia. ¿Se refiere al riesgo de incompatibilidad de licencia para usarlo como dataset de entrenamiento?
  • Muestra una velocidad sorprendentemente rápida incluso con un tamaño pequeño.
  • ¿Será uno de los primeros LLM destacables entrenados con éxito en GPU de AMD? Me pregunto qué tan fluido fue el proceso y si no hubo dificultades.
  • En este modelo y otros similares aparece el problema de "tokens repetidos" durante la inferencia. Suele ocurrir cuando la ventana de contexto tiene una longitud intermedia.
  • Parece caer en una especie de mínimo local durante el entrenamiento. La temperatura parece influir, pero no lo resuelve por completo.
  • Es una lástima que la publicación del blog no tenga una tabla comparativa.
  • Personalmente, es el LLM que me parece más interesante. Es una herramienta potente que puede reemplazar la búsqueda e incluso realizar investigación para dar una respuesta final. Los modelos cerrados de OpenAI, Anthropic y otros no se pueden auditar.
  • Hay casos reales en los que se ha inyectado sesgo en un LLM (por ejemplo, la generación de imágenes históricamente inexactas en Google Gemini por su meta prompt secreto).
  • Me gusta el enfoque de AI2. Comparte bajo licencia Apache no solo los pesos, sino también el código fuente de entrenamiento, los datos, las herramientas de evaluación, etc.
  • Los modelos de pesos abiertos como Llama están alcanzando a los modelos cerrados de OpenAI y otros. Ojalá los modelos verdaderamente abiertos como OLMo también sigan avanzando.
  • Espero que no se frene el desarrollo de la IA open source con regulación. En el futuro podría convertirse en un medio de comunicación de la sociedad, así que regularla sería parecido a limitar la libertad de expresión. Menos presión competitiva perjudicaría la innovación.
  • Es una publicación de hace 2 meses.