Flux - modelo Text-To-Image open source de 12B parámetros

(blog.fal.ai)

8 puntos por GN⁺ 2024-08-02 | 1 comentarios | Compartir por WhatsApp

El modelo de texto a imagen open source SOTA más grande desarrollado por Black Forest Labs
- El equipo original que desarrolló Stable Diffusion
Con 12B parámetros, amplía los límites de la creatividad y el rendimiento, ofreciendo capacidades de generación de imágenes similares a Midjourney

Disponible en 3 modelos

FLUX.1 [dev]: modelo base open source bajo una licencia no comercial. La comunidad puede construir sobre él
FLUX.1 [schnell]: versión destilada del modelo base que funciona hasta 10 veces más rápido. Licencia Apache 2.
FLUX.1 [pro]: versión cerrada disponible solo mediante API

Características principales

Mejor calidad de imagen: permite generar visuales sorprendentes en alta resolución
Anatomía humana avanzada y fotorrealismo: permite generar imágenes muy realistas y anatómicamente precisas
Mejor seguimiento de prompts: permite generar imágenes más precisas y relevantes basadas en la entrada
Velocidad sobresaliente: la velocidad y eficiencia de Flux Schnell lo hacen ideal para aplicaciones de alta demanda

Integración de fal

Integra el motor de inferencia de última generación de fal para ejecutar los modelos Flux hasta 2 veces más rápido que eager torch
Tiempos de procesamiento rápidos manteniendo una calidad y nivel de detalle sobresalientes

Resumen de GN⁺

Flux es el más reciente modelo de texto a imagen desarrollado por Black Forest Labs y establece un nuevo estándar de creatividad y rendimiento
Ofrece soluciones personalizadas para distintos casos de uso mediante varias variantes del modelo
Su mejor calidad de imagen y representación realista lo hacen adecuado para aplicaciones de alta demanda
El motor de inferencia de fal permite una ejecución aún más rápida y eficiente del modelo
Otros proyectos con funciones similares incluyen DALL-E y Midjourney

1 comentarios

GN⁺ 2024-08-02

Comentarios en Hacker News

burkay de fal.ai: el modelo no fue creado por fal, sino por Black Forest Labs
- fal.ai ejecuta el modelo en un motor de inferencia optimizado para que funcione muy rápido
- se puede probar el modelo en el playground
- el modelo [schnell] está disponible como open source en Hugging Face bajo licencia Apache
- el renderizado de texto es muy rápido y excelente, y tiene un codificador de texto que puede manejar mejor el texto y su posición
- cuando mejora el renderizado de texto, las marcas de agua de texto en los datos de entrenamiento aparecen con más claridad
- se proporciona un enlace para probar el modelo
  - FLUX.1 [schnell]: Apache 2.0, pesos abiertos, destilación por pasos
  - FLUX.1 [dev]: no comercial, pesos abiertos, destilación guiada (requiere iniciar sesión)
  - FLUX.1 [pro]: código cerrado, SOTA, datos sin procesar (solo se puede usar mediante API)
Otro usuario: la mayoría de las comparaciones no prueban bien el modelo nuevo
- actualmente, el mejor seguimiento de prompts del mercado es DALL-E 3, pero todavía se queda corto en conceptos complejos y tiene mucha censura
- tras comparar Flux y DALL-E 3, Flux resulta impresionante y ofrece un gran rendimiento
- publicó los resultados de la comparación en su blog
Otro usuario: hizo pruebas usando prompts de ideogram, y Flux genera imágenes muy buenas
- probó ideogram, pero no le gustan sus filtros
- si se puede ejecutar en local, queda muy cerca en calidad de imagen y seguimiento de prompts
- cuando el texto es complejo, no logra escribirlo con claridad
- comparte como ejemplo el prompt de una imagen de ideogram
- dejó de usar modelos de difusión estable hace tiempo, y la tecnología se volvió tan compleja que ya no es divertida
- quiere un sistema como ideogram que pueda ejecutarse en local sin filtros
- este modelo es muy bueno
Otro usuario: cada vez que ve un modelo nuevo, revisa si puede crear diagramas de ingeniería
- este modelo todavía no maneja bien los diagramas de ingeniería
- espera que alguna empresa de IA resuelva el problema de los diagramas de ingeniería
- es muy probable que eso no estuviera incluido en el dataset de entrenamiento actual
- quiere crear un dataset/benchmark sintético
Otro usuario: el proceso de registro es engorroso
- al crear una cuenta de Github hubo errores, así que necesitó dos intentos y dos navegadores
Otro usuario: las startups financiadas con capital de riesgo siguen lanzando modelos gratis sin tener un modelo de negocio
- apoya el open source, pero le preocupa que no sea sostenible a largo plazo
Otro usuario: la calidad es impresionante
Otro usuario: no maneja bien las relaciones espaciales
- "casa al revés" -> una casa normal
- "caballo sentado sobre un perro" -> el caballo y el perro aparecen uno al lado del otro
- "Lockheed Martin F-22 Raptor invertido" -> resultado incorrecto

Flux - modelo Text-To-Image open source de 12B parámetros

Disponible en 3 modelos

Características principales

Integración de fal

Resumen de GN⁺

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News