Microsoft cambia el modelo Phi-2 a licencia MIT

(huggingface.co)

2 puntos por GN⁺ 2024-01-08 | 1 comentarios | Compartir por WhatsApp

En el commit 7e10f3e del repositorio de Hugging Face de Phi-2 se modificaron 3 archivos: LICENSE, NOTICE.md y README.md, cambiando la indicación de licencia a MIT
La nueva LICENSE fue reemplazada por el texto completo de la MIT License, permitiendo ampliamente el uso, copia, modificación, distribución, relicenciamiento y venta
Se eliminaron varias cláusulas de la anterior Microsoft Research License, como la prohibición de ingeniería inversa, las restricciones al hosting independiente, el tratamiento de datos personales, el arbitraje y la limitación de daños
Los metadatos de README ahora usan license: mit en lugar de license_name: microsoft-research-license, aunque se mantiene el enlace existente a LICENSE
El nuevo NOTICE.md informa flash-attention como componente de terceros e incluye la licencia BSD 3-Clause y una cláusula que permite ingeniería inversa limitada con fines de depuración de modificaciones a bibliotecas LGPL

Archivos modificados en el commit

El commit del repositorio microsoft/phi-2 en Hugging Face aparece como “Upload 3 files”, y los archivos modificados son LICENSE, NOTICE.md y README.md
En Browse files se puede ver la lista de archivos en el estado de ese commit

LICENSE: reemplazo de Microsoft Research License por MIT License

El archivo LICENSE elimina el texto de la licencia anterior y pasa al texto completo de la MIT License
La nueva LICENSE incluye la MIT License después de las líneas PhyAGI. y Copyright (c) Microsoft Corporation.
La MIT License permite gratuitamente a cualquier persona que obtenga el software y sus archivos de documentación relacionados los siguientes derechos
- usar, copiar, modificar y fusionar
- publicar, distribuir y relicenciar
- vender copias del software
- otorgar los mismos derechos a quienes reciban el software
La condición es incluir el aviso de copyright y el aviso de permiso en todas las copias o partes sustanciales del software
La exención de garantía se incluye en formato AS IS, y no ofrece garantías expresas ni implícitas, incluidas las de comerciabilidad, idoneidad para un propósito particular y no infracción
Los titulares de copyright y de derechos no asumen reclamaciones, daños ni responsabilidades derivados del uso del software u otras transacciones relacionadas

Restricciones anteriores eliminadas

En la LICENSE anterior se eliminaron varias restricciones y cláusulas legales
Entre las cláusulas eliminadas se incluyen las siguientes
- prohibición de ingeniería inversa, descompilación y desensamblado del material
- prohibición de eliminar, reducir, bloquear o modificar avisos de Microsoft o de sus proveedores
- prohibición de usarlo de forma contraria a la ley o con fines de crear o propagar malware
- prohibición de compartir, publicar, distribuir o alquilar el material, ofrecer soluciones de hosting independientes o transferirlo a terceros
También se eliminaron restricciones relacionadas con datos personales
- los datos que puedan identificar a una persona no debían usarse fuera de fines aprobados o consentidos
- no debían usarse para contactar a personas
- al completar la investigación, los datos personales y sus respaldos o copias debían destruirse de inmediato
También se eliminó la cláusula que establecía que, si se entregaban modificaciones a Microsoft, se otorgaba a Microsoft una licencia amplia sobre ellas
Además, se eliminaron cláusulas sobre publicación, feedback, restricciones de exportación, servicios de soporte, arbitraje en EE. UU. y renuncia a demandas colectivas, ley aplicable, derechos del consumidor, exención de garantía y limitación de daños

Cambios en los metadatos de README

En el front matter de README.md cambió la indicación de licencia
Los elementos eliminados fueron los siguientes
- license:
- license_name: microsoft-research-license
El nuevo elemento es license: mit
Se mantiene license_link: https://huggingface.co/microsoft/phi-2/resolve/main/LICENSE
En el diff mostrado también se mantienen inference: false y language: - en

NOTICE.md y aviso de componentes de terceros

El nuevo archivo NOTICE.md comienza con las frases “NOTICES AND INFORMATION” y “Do Not Translate or Localize”
Microsoft indica que este software incluye material de terceros
Parte del código open source de Microsoft está disponible en https://3rdpartysource.microsoft.com, o puede solicitarse enviando un cheque o giro postal por US $5.00 junto con el nombre del producto, el nombre del componente open source, la plataforma y el número de versión
Independientemente de otras condiciones, este software puede someterse a ingeniería inversa en la medida necesaria para depurar modificaciones de bibliotecas licenciadas bajo GNU Lesser General Public License
Entre los componentes se incluye flash-attention
El aviso de flash-attention incluye la BSD 3-Clause License
- en la redistribución del código fuente deben mantenerse el aviso de copyright, la lista de condiciones y la exención de responsabilidad
- en la redistribución en binario deben incluirse el mismo aviso, condiciones y exención en la documentación u otros materiales
- sin autorización previa por escrito, no se pueden usar los nombres de los titulares de copyright o contribuyentes para promocionar productos derivados
El aviso BSD 3-Clause también indica que ese software se proporciona “AS IS” y que no existe responsabilidad por daños directos, indirectos, incidentales, especiales, punitivos o consecuentes

1 comentarios

GN⁺ 2024-01-08

Opiniones de Hacker News

Es realmente emocionante que estén apareciendo estos modelos abiertos.
Lo interesante es que los “eticistas” de IA quieren comportarse como una casta de sumos sacerdotes que controla el acceso a los modelos de machine learning en nombre de la seguridad. Pero creo que el mayor riesgo de la IA está en que quienes controlan los modelos controlen y censuren lo que la gente puede escribir con ellos.
Creo que los modelos open source en manos del público son la mejor defensa contra los verdaderos riesgos de la IA, y aplaudo a Facebook, Microsoft y Mistral por impulsarlos.
- Ver así a los “eticistas” de IA es una interpretación demasiado malintencionada.
  Sería mejor leer los argumentos reales, no resúmenes de redes sociales. Hay una discusión mucho más profunda de lo que parece, se abordan ampliamente los riesgos que preocupan y también hay soluciones propuestas. Esas soluciones tienen más probabilidades de funcionar que la afirmación de que esto es “la mejor defensa”.
- Creo que describir a “todos” los especialistas en ética de IA como una casta sacerdotal que intenta impedir el acceso a los modelos es perjudicial.
  También hay mucha gente que considera importantes tanto la democratización de estas herramientas como su uso seguro y ético.
- Creo que a estas alturas el gato ya se salió de la bolsa.
  Esperar que la gente malintencionada respete el texto de una licencia nunca fue un gran mecanismo de control. Solo frena el progreso y la innovación de quienes tienen suficiente buena fe como para cumplir la ley; quienes tengan otras intenciones en lugares como Rusia, Corea del Norte o China, así como organizaciones criminales y estafadores, no estarán atados por esas ideas.
  La comunidad que trabaja bajo licencias open source adecuadas está creciendo, y cada vez pasan cosas más interesantes y más rápido. Las licencias alternativas son poco efectivas, cortan la conexión con esa comunidad, complican la colaboración y se están volviendo una minoría cada vez más pequeña dentro de la investigación en general. Por eso, esas licencias se vuelven cada vez más irrelevantes.
  Corregir esto deja las cosas en un estado simple y estándar desde el punto de vista legal, lo que facilita la comercialización, la colaboración y la investigación. Microsoft parece estar reconociendo razonablemente que hay valor en eso y ajustándose a la realidad.
- Quién puede garantizar que el verdadero objetivo oculto de esta inversión descomunal en IA no sea crear una infraestructura de censura masiva.
- Donde sea que se concentre valor, surge una industria parásita que pone el pie sobre el freno si no le pagas impuestos a un ejército de personas que no contribuyen.
Antes tenía una licencia no comercial, así que me había bajado un poco el entusiasmo.
Considerando su rendimiento y tamaño, que haya pasado a una licencia amigable para uso comercial es un cambio bastante importante.
Lo importante de este modelo es que tiene una gran capacidad de razonamiento.
Sin embargo, no fue entrenado deliberadamente con datasets masivos de rastreo web para que no aprendiera cosas como cómo fabricar bombas ni a hacer “cosas malas”.
Por eso, comparado con modelos del mismo tamaño o incluso con más parámetros, es el modelo que “piensa de forma más inteligente”, pero tiene relativamente menos conocimiento del mundo o cultura general.
Esto podría cambiar en el futuro, pero creo que así están las cosas por ahora.
- Aun así, es excelente para aplicaciones RAG.
  Porque quiero que las respuestas se basen en los datos que yo proporciono, no en contenido que aprendió de la web.
- Si vemos los modelos de lenguaje grandes como una combinación de dos atributos —la capacidad de usar lenguaje natural y el conocimiento para responder preguntas—, entonces un modelo de lenguaje pequeño puede verse como un modelo muy bueno para procesar lenguaje natural.
  Muchas tareas no necesitan conocimiento general, y esto es especialmente ventajoso en RAG.
- Ojalá el foco del modelo no estuviera en incorporar datos internamente.
  Es mejor proporcionar los datos mediante búsqueda, y eso reduce las respuestas que “parecen plausiblemente inteligentes, pero son completamente incorrectas”.
  Si el modelo tiene menos datos incorporados, también puede usarse de forma más general fuera del ámbito de los asistentes de chat, porque muchas veces uno quiere que el modelo solo conozca los datos que le proporciona el usuario.
  Por ejemplo, en un juego de fantasía medieval sería muy raro que un personaje empezara de pronto a hablar de política estadounidense. Phi-2 tampoco resolvería eso por completo sin fine-tuning, pero la idea va en esa dirección.
- Creo que no haberlo entrenado con datos de rastreo web busca que sea menos evidente que Microsoft roba propiedad y datos personales para monetizarlos.
Me interesa más el dataset que el modelo.
- Probablemente sea una evolución del método de entrenamiento “Textbooks are all you Need” de phi-1/1.5: https://arxiv.org/abs/2309.05463
Es un gran cambio, y también muestra por qué son importantes los proyectos open source independientes.
Es difícil creer que la publicación de TinyLlama bajo licencia Apache 2.0 no haya influido en este cambio.
- ¿Cuál es la base para pensar que la publicación de TinyLlama influyó?
Parece una señal de que Phi-3 y los modelos de próxima generación volverán obsoleto a Phi-2.
Este modelo estuvo bastante tiempo en los primeros puestos; ¿qué tiene de tan bueno?
- Tiene muy buen rendimiento para su tamaño y costo de inferencia.
  Es el mejor modelo que puede correr incluso en dispositivos pequeños, como teléfonos, y aun así ofrecer un rendimiento cercano a GPT-3.5.
  Su arquitectura y sus datos de entrenamiento también son interesantes. Es un modelo escaso que usa datos sintéticos seleccionados, por lo que logra una precisión mucho mayor que los modelos entrenados con texto aleatorio de internet.

Microsoft cambia el modelo Phi-2 a licencia MIT

Archivos modificados en el commit

LICENSE: reemplazo de Microsoft Research License por MIT License

Restricciones anteriores eliminadas

Cambios en los metadatos de README

NOTICE.md y aviso de componentes de terceros

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News