BERT era un modelo de difusión de texto: IA generativa hecha con RoBERTa en 30 minutos
(aisparkup.com)Desde 2018, se reveló que el método de entrenamiento utilizado en BERT se basaba en el mismo principio que los modelos de difusión de texto modernos. Esto muestra, más allá de un hallazgo académico, una posibilidad práctica: convertir un modelo BERT existente en un modelo que genere texto al estilo de GPT.
Puntos clave:
- El modelado de lenguaje enmascarado de BERT (MLM) es un proceso de difusión con una tasa de enmascarado fija: La forma de entrenamiento que se ha usado durante 7 años en BERT es, de hecho, el mismo principio que la difusión por eliminación de ruido. Al ajustar dinámicamente la tasa de enmascarado, puede transformarse en un modelo totalmente generativo.
- Implementación de generación de texto con nivel GPT-2 con solo 30 minutos de entrenamiento: Un modelo RoBERTa existente se convierte en un generador de texto con poco fine-tuning. Funciona restaurando progresivamente la oración completa, en lugar de predecir una palabra de cada vez como GPT.
- Nuevas posibilidades para la generación de texto: Presenta un enfoque alternativo de generación basada en difusión, además del método autoregresivo de GPT. Marca el inicio de una nueva corriente junto con Google DeepMind Gemini Diffusion.
Aún no hay comentarios.