17 puntos por xguru 2023-12-15 | 2 comentarios | Compartir por WhatsApp
  • SLM: Small Language Model
  • A pesar de ser un modelo de 2.7B, muestra un rendimiento igual o mejor que modelos hasta 25 veces más grandes
    • Supera el rendimiento de Mistral 7B y Llama-7B/13B
    • En razonamiento de múltiples pasos, como programación y matemáticas, incluso supera al modelo Llama-2-70B, 25 veces más grande
    • Es más pequeño que Google Gemini Nano 2, pero ofrece un rendimiento igual o superior
  • Puede realizar tareas similares, como generación de texto y descripción de imágenes, con menos poder de cómputo que modelos como GPT-4 y Llama-2
  • Debido a su tamaño reducido, es un playground ideal para investigadores, incluyendo experimentos de interpretabilidad mecanicista, mejoras de seguridad o fine-tuning para diversas tareas

2 comentarios

 
xguru 2023-12-15

Los pesos están aquí: https://huggingface.co/microsoft/phi-2

 
xguru 2023-12-15
Comentarios de Hacker News
  • Comparación del número de parámetros entre GPT-3 y Phi-2
    • GPT-3 tiene 174 mil millones de parámetros.
    • Phi-2 tiene 2.7 mil millones de parámetros, por lo que es aproximadamente 65 veces más pequeño que GPT-3.
  • Comparación de la cantidad de datos de entrenamiento
    • GPT-3 fue entrenado con 300 mil millones de tokens.
    • Phi-2 fue entrenado con 1.4 billones de tokens, por lo que fue entrenado con aproximadamente 5 veces más datos que GPT-3.
  • Adquisición del lenguaje humano e inteligencia artificial
    • Un bebé humano necesita alrededor de 30 millones de datos de aprendizaje "equivalentes a tokens" para aprender un idioma.
    • Esto sugiere que la estructura biológica humana está especializada en la adquisición del lenguaje y tiene fuertes "guías" o restricciones que reducen el espacio de hipótesis de los posibles lenguajes humanos.
    • Surge la duda de si se puede encontrar una estructura similar que permita a los modelos de lenguaje aprender con menos datos.
  • Disponibilidad pública de los pesos de Phi-2
    • Los pesos de Phi-2 fueron publicados, pero solo se pueden descargar iniciando sesión en Azure Studio.
    • Se pueden descargar buscando la página de Phi-2 en Azure AI Studio y haciendo clic en la pestaña "artifacts".
  • Costo de entrenamiento de Phi-2
    • Phi-2 fue entrenado durante 14 días con 96 GPU A100.
    • Esto implica que el costo de entrenamiento fue de alrededor de 30 mil USD.
    • Si el costo de entrenar un LLM (Large Language Model) se vuelve más barato que comprar un auto, eso podría contribuir enormemente a la democratización de la IA.
  • Restricción de uso de Phi-2 para investigación
    • A pesar de la restricción de "solo para uso en investigación", el rendimiento de Phi-2 aumenta la posibilidad de uso local en diversos dispositivos.
    • Hay opiniones de que, dado que se afirma que su rendimiento es excelente, el futuro se ve prometedor y/o aterrador.
  • Competencia en modelos pequeños
    • Últimamente hay una competencia seria en el campo de los modelos pequeños.
    • El principal objetivo de estos modelos pequeños es desplegarse localmente en teléfonos/laptops, etc., y abrir paso a una nueva generación de apps/interfaces de usuario.
  • Comparación de rendimiento entre Phi-2 y Mistral 7B
    • Es impresionante que Phi-2, con un tamaño de 2.7 mil millones, muestre mejor rendimiento que Mistral 7B, de 7 mil millones.
  • Problemas de acceso al sitio web
    • No se puede acceder al sitio web, pero se puede revisar mediante una versión en caché.
  • Forma de distribución de Phi-2
    • Phi-1.5 fue distribuido en huggingface, pero Phi-2 solo fue agregado a Azure AI Studio, aparentemente para incentivar a los desarrolladores a registrarse.
    • Hay dudas sobre por qué Microsoft no participa en lo que sería el GitHub del ML, como huggingface.
  • Posibilidad de descargar el modelo Phi-2
    • Hay preguntas sobre si el modelo Phi-2 se puede descargar localmente o si solo se puede usar en Azure.