Si no puedes reproducir un modelo, no es open source

xguru · 2024-01-22T10:27:01+09:00

La revolución de la IA open source todavía no ha ocurrido Claro que hay modelos de pesos abiertos impresionantes, y agradecemos a quienes publican esos pesos, pero si no puedes reproducir el modelo, no es verdadero open source Imagina que en Linux solo publicaran binarios sin el codebase. O imagina que publicaran solo el codebase sin el compilador usado para generar los binarios. Esa es exactamente la situación actual Esto tiene varias desventajas No se puede volver a contribuir al proyecto El proyecto no puede beneficiarse del ciclo de retroalimentación del OSS Es difícil verificar que el modelo no tenga puertas traseras, como agentes durmientes No se puede verificar si los filtros de datos y contenido coinciden con las políticas de la empresa Dependes de la empresa para actualizar el modelo Un proyecto de LLM verdaderamente open source, donde todo esté abierto desde el codebase hasta el pipeline de datos, puede generar mucho valor y creatividad, además de mejorar la seguridad Pero reproducir los pesos no es tan simple como compilar código, así que no es algo sencillo. Se necesita capacidad de cómputo y know-how. Y revisar contribuciones es difícil porque no se puede saber cómo afectarán el rendimiento hasta ejecutar el siguiente entrenamiento Pero una persona o grupo con suficiente motivación puede resolver estos detalles, y aunque quizá se vea muy distinto al OSS existente, estos nuevos desafíos son la razón por la que este espacio es tan interesante

(twitter.com/amasad)

15 puntos por xguru 2024-01-22 | 3 comentarios | Compartir por WhatsApp

La revolución de la IA open source todavía no ha ocurrido
Claro que hay modelos de pesos abiertos impresionantes, y agradecemos a quienes publican esos pesos, pero si no puedes reproducir el modelo, no es verdadero open source
Imagina que en Linux solo publicaran binarios sin el codebase. O imagina que publicaran solo el codebase sin el compilador usado para generar los binarios. Esa es exactamente la situación actual
Esto tiene varias desventajas
- No se puede volver a contribuir al proyecto
- El proyecto no puede beneficiarse del ciclo de retroalimentación del OSS
- Es difícil verificar que el modelo no tenga puertas traseras, como agentes durmientes
- No se puede verificar si los filtros de datos y contenido coinciden con las políticas de la empresa
- Dependes de la empresa para actualizar el modelo
Un proyecto de LLM verdaderamente open source, donde todo esté abierto desde el codebase hasta el pipeline de datos, puede generar mucho valor y creatividad, además de mejorar la seguridad
- Pero reproducir los pesos no es tan simple como compilar código, así que no es algo sencillo. Se necesita capacidad de cómputo y know-how.
- Y revisar contribuciones es difícil porque no se puede saber cómo afectarán el rendimiento hasta ejecutar el siguiente entrenamiento
Pero una persona o grupo con suficiente motivación puede resolver estos detalles, y aunque quizá se vea muy distinto al OSS existente, estos nuevos desafíos son la razón por la que este espacio es tan interesante

3 comentarios

coyai 2024-02-07

Es cierto,

GitHub y Hugging Face hace tiempo dejaron de ser repositorios de código abierto de verdad y se han degradado hasta convertirse en plataformas de marketing.
Algunos modelos ni siquiera ofrecen binarios funcionales (https://github.com/AIGCDesignGroup/ReplaceAnything)
Si solo ofrecen demos en línea y se usan para mostrar demos de marketing sobre su propia tecnología, ¿qué tienen eso de plataforma open source?
GitHub y Hugging Face también, al final, se están convirtiendo en sitios basura llenos de cosas falsas o defectuosas, igual que las antiguas redes sociales.

Por lo tanto, el open source ahora se está convirtiendo en un mito o una leyenda urbana. De hecho, puede decirse que en estos sitios casi no existen modelos open source en el verdadero sentido de la palabra, es decir, perfectamente reproducibles. La mayoría son trucos de marketing.

cosine20 2024-01-29

Lo entiendo, pero... hoy en día los modelos que salen requieren tal nivel de poder de cómputo y tiempo de entrenamiento que a una persona común ya le resulta difícil reproducirlos, así que no estoy muy seguro de cómo verlo.
Eso sí, en cuanto a publicar el dataset, ahí sí comparto bastante la idea.

xguru 2024-01-22

Opiniones de Hacker News

Imagina que Linux publicara solo binarios sin la base de código, o solo la base de código sin el compilador. Esa es la situación en la que estamos ahora.
- Es una analogía que explica bien los problemas de los actuales "modelos de código abierto". A través de esta comparación, el problema de los modelos open source queda claro.
Tomemos el ejemplo del CERN: publican diversos datos experimentales bajo licencia CC0. No se trata de un simple dataset pequeño, sino de datos a gran escala, como toda la información del primer run de LHCb.
- El CERN no solo publica los datos y los deja ahí, sino que también ofrece guías de análisis y herramientas necesarias, como ROOT, que en su mayoría son open source. Eso permite que cualquiera descubra algo nuevo o amplíe el análisis de experimentos existentes. Estos datos y herramientas abiertos cumplen con las condiciones de reproducibilidad, aunque no sea necesario regenerar directamente los datos. En teoría se podría reconstruir el LHC, pero eso requeriría mucho personal, dinero y tiempo. A diferencia de los modelos open source, sí es posible reentrenar un modelo para obtener los pesos, pero el costo de conseguir los datos y reproducir los pesos suele ser enorme. También hay que recordar que el CERN publica una versión más refinada, no los datos crudos, que en su mayoría son ruido. Descargar grandes volúmenes de datos crudos ya es difícil, pero para entrenar algo como un modelo de lenguaje grande (LLM) puede hacer falta el dataset completo, que además suele traer sus propios problemas, incluyendo temas de copyright.
Publicar el dataset es el mayor problema. Entonces personas y empresas demandarán diciendo que se violó el copyright.
- Si el dataset incluye contenido con copyright, los titulares de esos derechos podrían demandar. No me sorprendería que el modelo incluyera datasets completos de Z-Library o Google Books.
La Open Source Initiative ha estado llevando durante el último año una serie para recopilar opiniones de distintos actores sobre si la IA es open source.
- Asistí a una sesión que duró toda la tarde en All Things Open. Recomiendo revisar la discusión que ya está en curso sobre este tema. Es un asunto mucho más matizado de lo que cabe en un tuit.
Aplicar el término "open source" a los modelos de IA es más complejo que aplicarlo al software. Mucha gente considera la reproducibilidad como un criterio para considerarlo open source.
- En el caso de los modelos de IA, a menudo se publica como código fuente el propio modelo, el dataset y la receta de entrenamiento, por ejemplo el proceso y los hiperparámetros. Eso permite entrenar el modelo y obtener los pesos, siempre que se cuente con suficiente capacidad de cómputo.
Lo mismo pasa con open core: si no puedes alojarlo en tu propia infraestructura, no es verdadero software open source.
- Si no puedes alojarlo en tu propia infraestructura, no se considera verdadero software open source.
"El proyecto no se beneficia del ciclo de retroalimentación de OSS" Como no puedes enviar PRs con datos de entrenamiento para resolver problemas específicos, como corregir bugs, no creo que vayamos a ver mucho de ese ciclo de feedback.
- "Es difícil verificar que el modelo no tenga puertas traseras" Dado el tamaño del dataset y la opacidad del proceso de entrenamiento, casi nadie podría saber si hay backdoors en los datos de entrenamiento.
- "Es difícil verificar los filtros de datos y contenido, y comprobar que coincidan con la política de la empresa" Se puede aplicar la política de una empresa a la salida del modelo incluso sin acceso a los datos de entrenamiento. Queda la duda de si todas las empresas deberían filtrar los datos de entrada y entrenar su propio modelo.
- "Al actualizar el modelo, terminas dependiendo de la empresa" Considerando los costos actuales, eso ya es cierto para la mayoría de las personas.
- "Un verdadero proyecto open source de LLM, con todo abierto desde la base de código hasta el pipeline de datos, podría liberar mucho valor y creatividad, y mejorar la seguridad" En el caso de los LLM, en general soy escéptico de que eso sea cierto. Más bien podría crear una superficie de ataque mayor para actores maliciosos.
"La forma preferida de la obra para hacer modificaciones es el 'código fuente'."
- Cita de GPLv3
- En este modelo de IA/ML, de forma interesante, los pesos se derivan del conjunto de entrenamiento, pero no es necesario acceder al conjunto de entrenamiento original para modificarlo. Hay muchos tutoriales sobre cómo hacer fine-tuning sin acceso al conjunto de entrenamiento original.
No estoy de acuerdo, y la analogía no es adecuada. Las cosas que enumera sí pueden hacerse con un modelo ya entrenado. Tener los datos es, en la práctica, un tema que no despierta mucho interés. El software abierto/libre trata sobre ejercer libertades, y si tienes los pesos del modelo y el código, puedes ejercer todas esas libertades.
¿Existe algún modelo LLM verdaderamente open source en el que todos los datos de entrenamiento sean públicamente accesibles (con licencias compatibles) y el software de entrenamiento pueda reproducir un modelo bit a bit idéntico?
- ¿El entrenamiento es no determinista? Sé que la salida de los LLM es intencionalmente no determinista.

Si no puedes reproducir un modelo, no es open source

Lecturas relacionadas

3 comentarios

Opiniones de Hacker News