2 puntos por GN⁺ 2023-08-23 | 1 comentarios | Compartir por WhatsApp
  • El artículo analiza los esfuerzos del autor por mejorar el rendimiento de Stable Diffusion XL 1.0 (SDXL), el modelo de código abierto de Stability AI. Este modelo genera imágenes con resolución de 1024x1024.
  • SDXL está compuesto por dos modelos: un modelo base y un modelo refinador opcional que mejora mucho los detalles sin afectar la velocidad.
  • El autor trabajó con SDXL usando la biblioteca de Python diffusers de Hugging Face, y proporcionó ejemplos de cómo cargar y usar tanto el modelo base como el refinador.
  • El autor generó imágenes usando una máquina virtual en la nube con una GPU L4 de gama media, y mencionó que cada imagen de 1024x1024 se genera en unos 22 segundos.
  • El autor experimentó con dos funciones nuevas de diffusers: ponderación de prompts y entrenamiento e inferencia Dreambooth LoRA.
  • La ponderación de prompts mejora el resultado final al permitir mayor peso matemático a ciertos términos en las incrustaciones de texto posicionales resultantes.
  • El soporte para Dreambooth LoRA permite ajustar finamente Stable Diffusion con una pequeña cantidad de imágenes de origen y una palabra clave activadora, lo que hace posible usar el "concepto" de esa imagen en otros contextos dados mediante la palabra clave.
  • El autor puso a prueba el potencial de SDXL entrenando un LoRA sobre el concepto de Ugly Sonic, un concepto que no estaba en el conjunto de datos original de Stable Diffusion. Los resultados fueron mucho mejores y más consistentes.
  • El autor también entrenó un LoRA con imágenes basura fuertemente distorsionadas usando el prompt "wrong". La idea era que el LoRA pudiera usar "wrong" como un "prompt negativo" y evitar esas imágenes para generar resultados menos distorsionados.
  • El autor descubrió que los LoRA hacen que SDXL sea más inteligente y más fiel al espíritu del prompt, mejorando la calidad y la claridad de las imágenes generadas.
  • El autor concluyó que entrenar SDXL con imágenes malas es una forma de aprendizaje por refuerzo con retroalimentación humana (RLHF), similar a la técnica que hace tan potente a ChatGPT.
  • El autor planea seguir explorando el potencial de los "LoRAs negativos", incluyendo fusionarlos con otros LoRA para mejorar el rendimiento.

1 comentarios

 
GN⁺ 2023-08-23
Comentarios de Hacker News
  • El concepto de RLHF personalizado (Reinforcement Learning from Human Feedback) está ganando interés, ya que tiene el potencial de orientar las salidas de la IA según las preferencias de cada persona.
  • Se propuso implementar opciones de retroalimentación de "me gusta/no me gusta" en todas las imágenes generadas por sistemas de IA, junto con etiquetas de texto opcionales para ignorar imágenes "incorrectas".
  • Se planteó la pregunta de cuál sería el bucle de iteración más rápido posible para la retroalimentación, y se sugirió la idea de recopilar alrededor de 10k preferencias por segundo para aumentar la probabilidad de que el modelo produzca imágenes preferidas a nivel personal.
  • Se reconoce el uso de Stable Diffusion (SD) para la creación artística, y se destacó como importante la diferencia entre SD 1.5/2.0 y SDXL.
  • Se registraron todas las pulsaciones de teclado que los científicos de datos realizaron en sus PC, y ahora eso se considera datos útiles para los sistemas de IA.
  • Se compartió la idea de usar el modelo base de SDXL para generar imágenes mezclando prompts de varios estilos, usar eso para entrenar un LoRA (Learning from Observations and Rewards), y luego volver a generar con ese LoRA + el conjunto de entrenamiento usando los prompts que se utilizaron para crear ese conjunto.
  • El resultado de ese proceso se describe como un efecto intensificado: más errores, más rareza y en alta resolución.
  • Se considera que el lanzamiento de la IA generadora de imágenes pasó desapercibido debido a mayores requisitos de vram y cómputo, y a una calidad de salida inferior en comparación con los modelos especializados de SD1.5.
  • Se informó que los LORAs construidos para Stable Diffusion XL solo funcionan bien con prompts negativos genéricos.
  • Existe controversia sobre la capacidad de activar varios LoRAs al mismo tiempo.
  • Se reconoce que usar RLHF para hacer GPT3 más fácil de usar fue un acierto, y existe la esperanza de que los modelos futuros incluyan malos resultados como datos de entrenamiento negativos.
  • Se mencionó la posibilidad de fusionar LoRAs, y hay interés en usar un LoRA para incluir temas personales, otro LoRA para mejorar resultados y un tercero para un estilo específico.