Microsoft presenta Phi-2, un modelo de lenguaje pequeño pero potente de 2.7B

xguru · 2023-12-15T09:21:19+09:00

SLM: Small Language Model A pesar de ser un modelo de 2.7B, muestra un rendimiento igual o mejor que modelos hasta 25 veces más grandes Supera el rendimiento de Mistral 7B y Llama-7B/13B En razonamiento de múltiples pasos, como programación y matemáticas, incluso supera al modelo Llama-2-70B, 25 veces más grande Es más pequeño que Google Gemini Nano 2, pero ofrece un rendimiento igual o superior Puede realizar tareas similares, como generación de texto y descripción de imágenes, con menos poder de cómputo que modelos como GPT-4 y Llama-2 Debido a su tamaño reducido, es un playground ideal para investigadores, incluyendo experimentos de interpretabilidad mecanicista, mejoras de seguridad o fine-tuning para diversas tareas

(microsoft.com)

17 puntos por xguru 2023-12-15 | 2 comentarios | Compartir por WhatsApp

SLM: Small Language Model
A pesar de ser un modelo de 2.7B, muestra un rendimiento igual o mejor que modelos hasta 25 veces más grandes
- Supera el rendimiento de Mistral 7B y Llama-7B/13B
- En razonamiento de múltiples pasos, como programación y matemáticas, incluso supera al modelo Llama-2-70B, 25 veces más grande
- Es más pequeño que Google Gemini Nano 2, pero ofrece un rendimiento igual o superior
Puede realizar tareas similares, como generación de texto y descripción de imágenes, con menos poder de cómputo que modelos como GPT-4 y Llama-2
Debido a su tamaño reducido, es un playground ideal para investigadores, incluyendo experimentos de interpretabilidad mecanicista, mejoras de seguridad o fine-tuning para diversas tareas

2 comentarios

xguru 2023-12-15

Los pesos están aquí: https://huggingface.co/microsoft/phi-2

xguru 2023-12-15

Comentarios de Hacker News

Comparación del número de parámetros entre GPT-3 y Phi-2
- GPT-3 tiene 174 mil millones de parámetros.
- Phi-2 tiene 2.7 mil millones de parámetros, por lo que es aproximadamente 65 veces más pequeño que GPT-3.
Comparación de la cantidad de datos de entrenamiento
- GPT-3 fue entrenado con 300 mil millones de tokens.
- Phi-2 fue entrenado con 1.4 billones de tokens, por lo que fue entrenado con aproximadamente 5 veces más datos que GPT-3.
Adquisición del lenguaje humano e inteligencia artificial
- Un bebé humano necesita alrededor de 30 millones de datos de aprendizaje "equivalentes a tokens" para aprender un idioma.
- Esto sugiere que la estructura biológica humana está especializada en la adquisición del lenguaje y tiene fuertes "guías" o restricciones que reducen el espacio de hipótesis de los posibles lenguajes humanos.
- Surge la duda de si se puede encontrar una estructura similar que permita a los modelos de lenguaje aprender con menos datos.
Disponibilidad pública de los pesos de Phi-2
- Los pesos de Phi-2 fueron publicados, pero solo se pueden descargar iniciando sesión en Azure Studio.
- Se pueden descargar buscando la página de Phi-2 en Azure AI Studio y haciendo clic en la pestaña "artifacts".
Costo de entrenamiento de Phi-2
- Phi-2 fue entrenado durante 14 días con 96 GPU A100.
- Esto implica que el costo de entrenamiento fue de alrededor de 30 mil USD.
- Si el costo de entrenar un LLM (Large Language Model) se vuelve más barato que comprar un auto, eso podría contribuir enormemente a la democratización de la IA.
Restricción de uso de Phi-2 para investigación
- A pesar de la restricción de "solo para uso en investigación", el rendimiento de Phi-2 aumenta la posibilidad de uso local en diversos dispositivos.
- Hay opiniones de que, dado que se afirma que su rendimiento es excelente, el futuro se ve prometedor y/o aterrador.
Competencia en modelos pequeños
- Últimamente hay una competencia seria en el campo de los modelos pequeños.
- El principal objetivo de estos modelos pequeños es desplegarse localmente en teléfonos/laptops, etc., y abrir paso a una nueva generación de apps/interfaces de usuario.
Comparación de rendimiento entre Phi-2 y Mistral 7B
- Es impresionante que Phi-2, con un tamaño de 2.7 mil millones, muestre mejor rendimiento que Mistral 7B, de 7 mil millones.
Problemas de acceso al sitio web
- No se puede acceder al sitio web, pero se puede revisar mediante una versión en caché.
Forma de distribución de Phi-2
- Phi-1.5 fue distribuido en huggingface, pero Phi-2 solo fue agregado a Azure AI Studio, aparentemente para incentivar a los desarrolladores a registrarse.
- Hay dudas sobre por qué Microsoft no participa en lo que sería el GitHub del ML, como huggingface.
Posibilidad de descargar el modelo Phi-2
- Hay preguntas sobre si el modelo Phi-2 se puede descargar localmente o si solo se puede usar en Azure.

Microsoft presenta Phi-2, un modelo de lenguaje pequeño pero potente de 2.7B

Lecturas relacionadas

2 comentarios

Comentarios de Hacker News