2023 fue el año de los LLM abiertos

xguru · 2023-12-21T10:33:04+09:00

Aumentó el interés público por los modelos de lenguaje a gran escala (LLM) y se expandió el debate sobre el código abierto y el código cerrado Receta para los LLM preentrenados Arquitectura del modelo: describe la implementación específica y la forma matemática Conjunto de datos de entrenamiento: incluye los ejemplos y documentos con los que aprende el modelo Tokenizador: define cómo convertir texto en números Hiperparámetros de entrenamiento: definen cómo se entrena el modelo Se requiere potencia de cómputo y supervisión de expertos Los pesos del modelo preentrenado se usan para la inferencia 2022, de la competencia por el tamaño a la competencia por los datos Hasta inicios de 2022, el tamaño del modelo era un factor importante para el rendimiento Se lanzaron modelos como BLOOM, OPT y GLM-130B Nueva investigación de DeepMind resaltó la importancia del tamaño de los datos, provocando un cambio de paradigma 2023, el año de los lanzamientos abiertos Auge de los LLM pequeños: en febrero se lanzó LLaMA (Meta), en abril Pythia (Eleuther AI), en mayo MPT (MosaicML), en junio X-GEN (Salesforce) y Falcon (TIIUAE), y en julio Llama 2 (Meta). En septiembre se lanzaron Qwen (Alibaba) y Mistral (Mistral.AI), en noviembre Yi (01-ai), y en diciembre DeciLM (Deci), Phi-2 (Microsoft) y SOLAR (Upstage) Incluían los pesos del modelo y mostraban buen rendimiento en modelos relativamente pequeños, por lo que la comunidad los adoptó rápidamente Las diferencias clave estaban en los datos de entrenamiento y la licencia del modelo La aparición de los modelos conversacionales En 2023, la mayoría de los modelos preentrenados se lanzaron junto con una versión conversacional Se usaron métodos como fine-tuning basado en chat, fine-tuning por instrucciones, aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) y DPO (Direct Preference Optimization) Se lanzaron versiones conversacionales de los modelos MPT, Falcon, XGen, Llama-2, Qwen, Yi y DeciLM El papel de la comunidad La comunidad y los investigadores aprovecharon los modelos base proporcionados para desarrollar nuevos conjuntos de datos y modelos ajustados finamente Se lanzaron diversos conjuntos de datos y estrategias de fine-tuning Human Preference: WebGPT dataset de OpenAI, HH-RLHF dataset (Anthropic) y Summarize (OpenAI) Instruction: Public Pool of Prompts de BigScience, FLAN 1 and 2 de Google, Natural Instructions de AllenAI, Self Instruct, SuperNatural Instructions, Unnatural Instructions Human ChatGPT Instruction corpus (HC3), Alpaca, Vicuna, ShareGPT, Koala, Dolly, UltraChat, UltraLM, Zephyr, OpenHermes2,.. Democratización del acceso Fusión de modelos/datos: combinar los pesos de modelos para integrar fortalezas PEFT: permite hacer fine-tuning sin usar el modelo completo Cuantización: técnica para reducir el tamaño del modelo y permitir que más personas usen LLM ¿Qué sigue? Aparición de nuevas arquitecturas que superen a Transformer y mejoren el rendimiento Lanzamiento de nuevos modelos como Mixtral, Mamba y Striped Hyena

(huggingface.co)

19 puntos por xguru 2023-12-21 | 1 comentarios | Compartir por WhatsApp

Aumentó el interés público por los modelos de lenguaje a gran escala (LLM) y se expandió el debate sobre el código abierto y el código cerrado

Receta para los LLM preentrenados

Arquitectura del modelo: describe la implementación específica y la forma matemática
Conjunto de datos de entrenamiento: incluye los ejemplos y documentos con los que aprende el modelo
Tokenizador: define cómo convertir texto en números
Hiperparámetros de entrenamiento: definen cómo se entrena el modelo
Se requiere potencia de cómputo y supervisión de expertos
Los pesos del modelo preentrenado se usan para la inferencia

2022, de la competencia por el tamaño a la competencia por los datos

Hasta inicios de 2022, el tamaño del modelo era un factor importante para el rendimiento
Se lanzaron modelos como BLOOM, OPT y GLM-130B
Nueva investigación de DeepMind resaltó la importancia del tamaño de los datos, provocando un cambio de paradigma

2023, el año de los lanzamientos abiertos

Auge de los LLM pequeños: en febrero se lanzó LLaMA (Meta), en abril Pythia (Eleuther AI), en mayo MPT (MosaicML), en junio X-GEN (Salesforce) y Falcon (TIIUAE), y en julio Llama 2 (Meta). En septiembre se lanzaron Qwen (Alibaba) y Mistral (Mistral.AI), en noviembre Yi (01-ai), y en diciembre DeciLM (Deci), Phi-2 (Microsoft) y SOLAR (Upstage)
Incluían los pesos del modelo y mostraban buen rendimiento en modelos relativamente pequeños, por lo que la comunidad los adoptó rápidamente
Las diferencias clave estaban en los datos de entrenamiento y la licencia del modelo

La aparición de los modelos conversacionales

En 2023, la mayoría de los modelos preentrenados se lanzaron junto con una versión conversacional
Se usaron métodos como fine-tuning basado en chat, fine-tuning por instrucciones, aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) y DPO (Direct Preference Optimization)
Se lanzaron versiones conversacionales de los modelos MPT, Falcon, XGen, Llama-2, Qwen, Yi y DeciLM

El papel de la comunidad

La comunidad y los investigadores aprovecharon los modelos base proporcionados para desarrollar nuevos conjuntos de datos y modelos ajustados finamente
Se lanzaron diversos conjuntos de datos y estrategias de fine-tuning
- Human Preference: WebGPT dataset de OpenAI, HH-RLHF dataset (Anthropic) y Summarize (OpenAI)
- Instruction: Public Pool of Prompts de BigScience, FLAN 1 and 2 de Google, Natural Instructions de AllenAI, Self Instruct, SuperNatural Instructions, Unnatural Instructions
- Human ChatGPT Instruction corpus (HC3), Alpaca, Vicuna, ShareGPT, Koala, Dolly, UltraChat, UltraLM, Zephyr, OpenHermes2,..

Democratización del acceso

Fusión de modelos/datos: combinar los pesos de modelos para integrar fortalezas
PEFT: permite hacer fine-tuning sin usar el modelo completo
Cuantización: técnica para reducir el tamaño del modelo y permitir que más personas usen LLM

¿Qué sigue?

Aparición de nuevas arquitecturas que superen a Transformer y mejoren el rendimiento
Lanzamiento de nuevos modelos como Mixtral, Mamba y Striped Hyena

1 comentarios

laeyoung 2023-12-22

Sí estuvo bueno que salieran muchos buenos modelos open source. Lo mismo con LLaMA, y también con los modelos open source que ofrecían para correr incluso en la web; bajé de todo y probé bastante. Pero al final, los que realmente se usan y que yo mismo uso en el día a día siguen siendo ChatGPT o los servicios SaaS de quienes toman GPT-4 y lo ofrecen como producto, así que resulta un poco irónico. Los modelos open source también son importantes, pero al final, si no hay una infraestructura que los haga funcionar de forma estable y un patrocinador financiero que además los respalde de manera sostenida, da la impresión de que es difícil.