- El artículo analiza los esfuerzos del autor por mejorar el rendimiento de Stable Diffusion XL 1.0 (SDXL), el modelo de código abierto de Stability AI. Este modelo genera imágenes con resolución de 1024x1024.
- SDXL está compuesto por dos modelos: un modelo base y un modelo refinador opcional que mejora mucho los detalles sin afectar la velocidad.
- El autor trabajó con SDXL usando la biblioteca de Python
diffusers de Hugging Face, y proporcionó ejemplos de cómo cargar y usar tanto el modelo base como el refinador.
- El autor generó imágenes usando una máquina virtual en la nube con una GPU L4 de gama media, y mencionó que cada imagen de 1024x1024 se genera en unos 22 segundos.
- El autor experimentó con dos funciones nuevas de
diffusers: ponderación de prompts y entrenamiento e inferencia Dreambooth LoRA.
- La ponderación de prompts mejora el resultado final al permitir mayor peso matemático a ciertos términos en las incrustaciones de texto posicionales resultantes.
- El soporte para Dreambooth LoRA permite ajustar finamente Stable Diffusion con una pequeña cantidad de imágenes de origen y una palabra clave activadora, lo que hace posible usar el "concepto" de esa imagen en otros contextos dados mediante la palabra clave.
- El autor puso a prueba el potencial de SDXL entrenando un LoRA sobre el concepto de Ugly Sonic, un concepto que no estaba en el conjunto de datos original de Stable Diffusion. Los resultados fueron mucho mejores y más consistentes.
- El autor también entrenó un LoRA con imágenes basura fuertemente distorsionadas usando el prompt "wrong". La idea era que el LoRA pudiera usar "wrong" como un "prompt negativo" y evitar esas imágenes para generar resultados menos distorsionados.
- El autor descubrió que los LoRA hacen que SDXL sea más inteligente y más fiel al espíritu del prompt, mejorando la calidad y la claridad de las imágenes generadas.
- El autor concluyó que entrenar SDXL con imágenes malas es una forma de aprendizaje por refuerzo con retroalimentación humana (RLHF), similar a la técnica que hace tan potente a ChatGPT.
- El autor planea seguir explorando el potencial de los "LoRAs negativos", incluyendo fusionarlos con otros LoRA para mejorar el rendimiento.
1 comentarios
Comentarios de Hacker News