- SLM: Small Language Model
- A pesar de ser un modelo de 2.7B, muestra un rendimiento igual o mejor que modelos hasta 25 veces más grandes
- Supera el rendimiento de Mistral 7B y Llama-7B/13B
- En razonamiento de múltiples pasos, como programación y matemáticas, incluso supera al modelo Llama-2-70B, 25 veces más grande
- Es más pequeño que Google Gemini Nano 2, pero ofrece un rendimiento igual o superior
- Puede realizar tareas similares, como generación de texto y descripción de imágenes, con menos poder de cómputo que modelos como GPT-4 y Llama-2
- Debido a su tamaño reducido, es un playground ideal para investigadores, incluyendo experimentos de interpretabilidad mecanicista, mejoras de seguridad o fine-tuning para diversas tareas
2 comentarios
Los pesos están aquí: https://huggingface.co/microsoft/phi-2
Comentarios de Hacker News