Anuncio de Stable Diffusion 3

xguru · 2024-02-23T09:16:02+09:00

Stable Diffusion 3 es el modelo de texto-imagen más destacado, y ofrece una mejora de rendimiento significativa en prompts de múltiples temas, calidad de imagen y capacidad de ortografía. Aún no está disponible de forma amplia, pero comenzó el registro en lista de espera para el early preview. Al igual que con los modelos anteriores, esta fase de vista previa es clave para obtener conocimientos que ayuden a mejorar el rendimiento y la seguridad. Alcance y tecnología del modelo La suite de modelos Stable Diffusion 3 abarca un rango de 800M a 8B parámetros. Este enfoque está alineado con el valor principal y el objetivo de hacerlo accesible para todos, ofreciendo una variedad de opciones de escalabilidad y calidad que se ajustan mejor a las necesidades creativas de los usuarios. SD3 combina la arquitectura Diffusion Transformer con Flow Matching. El informe técnico detallado se anunciará próximamente. Práctica de IA segura y responsable Se toma muy en serio la IA segura y responsable. Se están tomando medidas razonables para prevenir el mal uso de Stable Diffusion 3 y se mantienen de forma constante durante todo el proceso de entrenamiento, prueba, evaluación y despliegue del modelo. Al preparar la vista previa temprana, se han incorporado múltiples medidas de seguridad. Se espera innovar aún más al abrir el acceso al modelo, mediante una colaboración continua con investigadores, expertos y la comunidad. Compromiso y activación de la creatividad La promesa de una IA generativa abierta, segura y de acceso universal es firme. Con Stable Diffusion 3, se ofrecerán soluciones adaptables para que personas, desarrolladores y empresas puedan potenciar su creatividad. Si quieres usar otro modelo de imagen con fines comerciales antes del lanzamiento de Stable Diffusion 3, puedes visitar la página de membresía de Stability AI o acceder a la API a través de la plataforma para desarrolladores.

(stability.ai)

9 puntos por xguru 2024-02-23 | 1 comentarios | Compartir por WhatsApp

Stable Diffusion 3 es el modelo de texto-imagen más destacado, y ofrece una mejora de rendimiento significativa en prompts de múltiples temas, calidad de imagen y capacidad de ortografía.
Aún no está disponible de forma amplia, pero comenzó el registro en lista de espera para el early preview.
Al igual que con los modelos anteriores, esta fase de vista previa es clave para obtener conocimientos que ayuden a mejorar el rendimiento y la seguridad.

Alcance y tecnología del modelo

La suite de modelos Stable Diffusion 3 abarca un rango de 800M a 8B parámetros.
Este enfoque está alineado con el valor principal y el objetivo de hacerlo accesible para todos, ofreciendo una variedad de opciones de escalabilidad y calidad que se ajustan mejor a las necesidades creativas de los usuarios.
SD3 combina la arquitectura Diffusion Transformer con Flow Matching.
El informe técnico detallado se anunciará próximamente.

Práctica de IA segura y responsable

Se toma muy en serio la IA segura y responsable.
Se están tomando medidas razonables para prevenir el mal uso de Stable Diffusion 3 y se mantienen de forma constante durante todo el proceso de entrenamiento, prueba, evaluación y despliegue del modelo.
Al preparar la vista previa temprana, se han incorporado múltiples medidas de seguridad.
Se espera innovar aún más al abrir el acceso al modelo, mediante una colaboración continua con investigadores, expertos y la comunidad.

Compromiso y activación de la creatividad

La promesa de una IA generativa abierta, segura y de acceso universal es firme.
Con Stable Diffusion 3, se ofrecerán soluciones adaptables para que personas, desarrolladores y empresas puedan potenciar su creatividad.
Si quieres usar otro modelo de imagen con fines comerciales antes del lanzamiento de Stable Diffusion 3, puedes visitar la página de membresía de Stability AI o acceder a la API a través de la plataforma para desarrolladores.

1 comentarios

xguru 2024-02-23

Opinión de Hacker News

Se usa un nuevo tipo de transformador de difusión que combina flow matching y otras mejoras.
- Al aprovechar las mejoras del transformador, permite escalar mucho más y aceptar entradas multimodales.
- Se lanzará públicamente para mejorar la calidad y la seguridad, y saldrá junto con todo el ecosistema de herramientas.
- Es una nueva base que aprovecha hardware de última generación y está disponible en todos los tamaños.
- Habilita video, 3D y más.
- Requiere más GPUs.
- Los detalles técnicos se compartirán pronto.
- Con suficientes GPUs y buenos datos, puede generarse video similar a Sora.
- Se ofrece en una variedad de tamaños que van desde 80 millones hasta 8 mil millones de parámetros, por lo que puede usarse en todo tipo de GPU.
La obsesión con la seguridad parece haber perdido una oportunidad de marketing, considerando el reciente incidente de Gemini.
- La seguridad está tan exagerada que la mayoría de las imágenes salen borrosas, y prompts que funcionaban antes quedan borrosos en SDXL.
- Si la próxima versión es así, dejaré de usar la API de Stability.
- Me intriga si existe otro servicio de texto a imagen que ofrezca un valor y calidad similares a Stable Diffusion sin excesivo desenfoque.
Teniendo en cuenta el ambiente de censura actual, será interesante ver qué significa “seguridad” esta vez.
- Tuve bastantes dificultades para generar imágenes de armas para assets de videojuegos usando DallE.
La mitad del comunicado de lanzamiento dice que “realmente somos responsables y seguros”.
Las imágenes de la demo son todas "artworks".
- Me intriga si el modelo también puede generar bien fotos, planos técnicos y otros medios gráficos.
Ha habido un gran avance en texto/ortografía.
Reescribieron la sección de “seguridad”, pero reemplazando la herramienta de IA por un cuchillo imaginario llamado “Big Knife”.
- “Creemos en el uso seguro y responsable de cuchillos. Esto significa que se han tomado medidas razonables para evitar que actores malintencionados hagan un mal uso de Big Knife.”