- FLUX.1 Kontext de Black Forest Labs es un modelo de IA generativa de última generación que recibe texto e imágenes al mismo tiempo, entiende el contexto y permite modificar y generar al instante manteniendo las características y el estilo de una imagen existente
- Frente a los algoritmos tradicionales de generación texto-imagen, muestra un rendimiento superior en consistencia de texto y objetos, edición local, referencia de estilo y respuesta de alta velocidad
- El usuario puede ingresar solo texto, o combinar imagen y texto para cambiar solo áreas específicas, aplicar únicamente el estilo o realizar ediciones en múltiples pasos, habilitando diversos flujos de trabajo interactivos de imagen
- FLUX.1 Kontext [pro] mantiene la consistencia de la imagen incluso tras varias ediciones y funciona a una velocidad líder en la industria
- La versión de código abierto [dev] es un transformador de difusión ligero de 12B, publicado en beta privada con fines de investigación y personalización
Introducción a FLUX.1 Kontext
- FLUX.1 Kontext supera las limitaciones de los modelos existentes que generan imágenes solo a partir de texto, y es un modelo generativo de flow matching que permite generación y edición de imágenes basadas en contexto al usar texto e imágenes en conjunto como entrada
- Al aprovechar simultáneamente prompts de texto e imágenes, puede eliminar/agregar/modificar elementos específicos de una imagen y generar nuevas escenas manteniendo el estilo o las características
Funciones principales
- Consistencia de personajes: la misma persona, objeto o estilo se mantiene de forma consistente incluso en distintas escenas y entornos
- Edición local: permite modificar solo partes específicas de una imagen mediante instrucciones de texto (por ejemplo, eliminar solo un elemento del rostro o cambiar solo el texto)
- Referencia de estilo: permite aplicar el estilo distintivo de una imagen de referencia a una nueva escena
- Velocidad interactiva: admite edición y generación en tiempo real con una velocidad de inferencia hasta 8 veces más rápida que la de modelos anteriores
Integración de edición texto-imagen e imagen-imagen
- FLUX.1 Kontext mantiene la calidad y las características de la imagen no solo en una sola edición, sino también ante instrucciones iterativas en múltiples etapas
- Al utilizar de forma continua el prompt y los resultados previos de imagen, es posible llegar paso a paso al resultado deseado
Línea de modelos FLUX.1 Kontext
- FLUX.1 Kontext [pro]
- Modelo insignia especializado en edición y generación iterativa rápida
- Recibe simultáneamente texto e imágenes de referencia y realiza edición de áreas objetivo y transformaciones complejas de escenas de forma rápida y consistente
- FLUX.1 Kontext [max]
- Modelo experimental de especificación máxima, con mejoras en comprensión de prompts, tipografía y capacidad de edición consistente a alta velocidad
- FLUX.1 Kontext [dev]
- Modelo ligero (12B) para investigación y personalización, publicado en beta privada
- Cuando se publique, estará disponible a través de importantes socios de infraestructura de IA como FAL, Replicate, Runware, DataCrunch, TogetherAI y HuggingFace
Soporte y acceso
- La serie FLUX.1 Kontext puede usarse en diversos servicios como KreaAI, Freepik, Lightricks, OpenArt, LeonardoAI y en infraestructuras como FAL, Replicate, Runware, DataCrunch, TogetherAI, ComfyOrg
- A través de FLUX Playground (https://playground.bfl.ai/), para pruebas y demos en tiempo real, es posible validar fácilmente el rendimiento del modelo y revisar los resultados sin necesidad de una integración adicional
Evaluación de rendimiento
- Evaluado en el benchmark propio KontextBench frente a modelos SOTA en 6 tareas de generación y edición de imágenes
- Registró resultados de nivel líder en la industria en edición de texto y preservación de personajes
- La velocidad de inferencia también logró una latencia abrumadoramente menor frente a los modelos previos de mejor rendimiento
- También demostró competitividad en criterios como calidad estética, comprensión de prompts, tipografía y realismo
Limitaciones y tareas futuras
- En ediciones iterativas de múltiples pasos (más de 6), puede aparecer ruido visual (artifact) y degradarse la calidad de la imagen
- En ocasiones, puede no seguir con precisión instrucciones detalladas de ciertos prompts
- Tiene limitaciones en conocimiento del mundo y comprensión contextual, por lo que puede generar imágenes contextualmente inexactas
- La calidad de imagen puede disminuir durante el proceso de aligeramiento del modelo y distillation
1 comentarios
Opiniones en Hacker News
Lo probé directamente y experimenté un curioso fenómeno de "deslizamiento de contexto". Imagen relacionada Generé una imagen de una nave espacial aterrizando en un planeta remoto, y luego pedí una edición diciendo: "haz la nave espacial más colorida y muéstrala más grande en la imagen". Pero la nave terminó convirtiéndose en un barco portacontenedores. Como el historial del chat seguía ahí, debería haber entendido que yo quería una nave espacial, pero perdió un contexto importante y el resultado salió totalmente fuera de lugar.
Lo estoy probando directamente con el endpoint de FLUX Kontext Pro en Replicate. También existe una app de Replicate que muestra varios usos de edición de imágenes de FLUX Kontext: FLUX Kontext Apps. La calidad de imagen, en el caso de generación simple de imagen a imagen, se siente similar al nivel de generación de imágenes de GPT-4o. La velocidad de generación también es rápida, alrededor de 4 segundos. La ingeniería de prompts se siente algo complicada fuera de los ejemplos, aunque creo que irá mejorando. Los cambios de estilo o solicitudes detalladas sí se aplican, pero mientras más específicas son las instrucciones, más tiende a ignorar los requisitos finos.
Algunas muestras parecen demasiado seleccionadas para enseñar solo los mejores resultados. ¿Alguien ha probado la app de headshots profesionales de “Kontext Apps”? Enlace a Kontext Apps Subí varias fotos mías y cada vez terminaba siendo una persona completamente distinta. El headshot final sí se ve claramente profesional.
Estoy pensando si agregar el modelo FLUX Kontext a mi sitio de comparación de imágenes GenAI. La versión Max obtiene casi el doble de puntaje en fidelidad al prompt, pero aun así queda bastante por detrás de OpenAI
gpt-image-1(dejando de lado la calidad visual).gpt-image-1va primero en el leaderboard. Mantengo Flux 1.D como baseline de capacidades GenAI locales. Sitio de comparación También agregué hace poco el modelo Image 2.0 de Hunyuan, pero como corresponde a un modelo en tiempo real, sus puntajes salen bajos. Como referencia, este modelo de Black Forest Labs parece estar más enfocado en la edición y corrección iterativa de imágenes existentes que en texto a imagen.Me pregunto si la imagen de entrada está limitada a una sola. Quisiera probar prompts compuestos metiendo varias imágenes, como "coloca el objeto de la imagen A dentro de la imagen B" o "pon el personaje A en el paisaje B".
gpt-image-1, pero de verdad está cerca. Creo que ya desaparecieron las barreras exclusivas en imagen y video. Me preocupaba que Google u OpenAI monopolizaran el mercado creativo, pero ahora cualquiera puede crear directamente.Para quienes tengan curiosidad por el paper técnico, comparto el reporte oficial.
¿Qué nivel de especialización se necesitaría para modificar y entrenar esto localmente? Llevo dos días investigando para intentar hacer ajuste LoRa por mi cuenta con Flux 1 dev en una RTX 4090 con Windows, pero no logro hacerlo bien. Me pregunto cuánto hay que profundizar en esto, si la barrera de entrada es baja, si también puede hacerlo un principiante o si es territorio solo para gente experimentada.
No entiendo bien el ejemplo de remove from face. Si no hay otra foto del rostro, ¿al final no está usando una imagen típica generada?
Preguntan si puede generar imágenes de ajedrez. Enlace a predicción de Chess AI
Un comentario especula sobre cuándo podría salir una versión abierta para desarrolladores: si será dentro de una semana o si todavía faltarán uno o dos meses.