- Aumentó el interés público por los modelos de lenguaje a gran escala (LLM) y se expandió el debate sobre el código abierto y el código cerrado
Receta para los LLM preentrenados
- Arquitectura del modelo: describe la implementación específica y la forma matemática
- Conjunto de datos de entrenamiento: incluye los ejemplos y documentos con los que aprende el modelo
- Tokenizador: define cómo convertir texto en números
- Hiperparámetros de entrenamiento: definen cómo se entrena el modelo
- Se requiere potencia de cómputo y supervisión de expertos
- Los pesos del modelo preentrenado se usan para la inferencia
2022, de la competencia por el tamaño a la competencia por los datos
- Hasta inicios de 2022, el tamaño del modelo era un factor importante para el rendimiento
- Se lanzaron modelos como BLOOM, OPT y GLM-130B
- Nueva investigación de DeepMind resaltó la importancia del tamaño de los datos, provocando un cambio de paradigma
2023, el año de los lanzamientos abiertos
- Auge de los LLM pequeños: en febrero se lanzó LLaMA (Meta), en abril Pythia (Eleuther AI), en mayo MPT (MosaicML), en junio X-GEN (Salesforce) y Falcon (TIIUAE), y en julio Llama 2 (Meta). En septiembre se lanzaron Qwen (Alibaba) y Mistral (Mistral.AI), en noviembre Yi (01-ai), y en diciembre DeciLM (Deci), Phi-2 (Microsoft) y SOLAR (Upstage)
- Incluían los pesos del modelo y mostraban buen rendimiento en modelos relativamente pequeños, por lo que la comunidad los adoptó rápidamente
- Las diferencias clave estaban en los datos de entrenamiento y la licencia del modelo
La aparición de los modelos conversacionales
- En 2023, la mayoría de los modelos preentrenados se lanzaron junto con una versión conversacional
- Se usaron métodos como fine-tuning basado en chat, fine-tuning por instrucciones, aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) y DPO (Direct Preference Optimization)
- Se lanzaron versiones conversacionales de los modelos MPT, Falcon, XGen, Llama-2, Qwen, Yi y DeciLM
El papel de la comunidad
- La comunidad y los investigadores aprovecharon los modelos base proporcionados para desarrollar nuevos conjuntos de datos y modelos ajustados finamente
- Se lanzaron diversos conjuntos de datos y estrategias de fine-tuning
- Human Preference: WebGPT dataset de OpenAI, HH-RLHF dataset (Anthropic) y Summarize (OpenAI)
- Instruction: Public Pool of Prompts de BigScience, FLAN 1 and 2 de Google, Natural Instructions de AllenAI, Self Instruct, SuperNatural Instructions, Unnatural Instructions
- Human ChatGPT Instruction corpus (HC3), Alpaca, Vicuna, ShareGPT, Koala, Dolly, UltraChat, UltraLM, Zephyr, OpenHermes2,..
Democratización del acceso
- Fusión de modelos/datos: combinar los pesos de modelos para integrar fortalezas
- PEFT: permite hacer fine-tuning sin usar el modelo completo
- Cuantización: técnica para reducir el tamaño del modelo y permitir que más personas usen LLM
¿Qué sigue?
- Aparición de nuevas arquitecturas que superen a Transformer y mejoren el rendimiento
- Lanzamiento de nuevos modelos como Mixtral, Mamba y Striped Hyena
1 comentarios
Sí estuvo bueno que salieran muchos buenos modelos open source. Lo mismo con LLaMA, y también con los modelos open source que ofrecían para correr incluso en la web; bajé de todo y probé bastante. Pero al final, los que realmente se usan y que yo mismo uso en el día a día siguen siendo ChatGPT o los servicios SaaS de quienes toman GPT-4 y lo ofrecen como producto, así que resulta un poco irónico. Los modelos open source también son importantes, pero al final, si no hay una infraestructura que los haga funcionar de forma estable y un patrocinador financiero que además los respalde de manera sostenida, da la impresión de que es difícil.