- SD v1 cambió el panorama de los modelos de IA de código abierto
- SD v2 entrenó el modelo de texto a imagen con OpenCLIP, un nuevo codificador de texto, mejorando drásticamente la calidad de imagen frente a v1
- Puede generar imágenes de 512x512 y 768x768
- Se entrenó usando un subconjunto estético del dataset LAION-5B (además de excluir contenido para adultos con un filtro NSFW)
- Incorpora un modelo Upscaler Diffusion para mejorar la resolución de imagen 4 veces
- Esto significa que puede escalar imágenes de 128x128 a 512x512
- Es decir, SD v2 ahora puede generar imágenes con resolución superior a 2048x2048
- Modelo Depth-to-Image Diffusion:
depth2img
- Amplía la función existente de image-to-image hacia nuevas posibilidades
- Infiera la profundidad de la imagen de entrada y luego genera una nueva imagen usando tanto el texto como la información de profundidad
- Es decir, permite generar de forma distinta solo partes específicas según la profundidad de la imagen
- Se mejoró el modelo Inpainting Diffusion
- Al igual que SD v1, está optimizado para poder ejecutarse incluso en un entorno con una sola GPU
Aún no hay comentarios.