3 puntos por GN⁺ 2025-05-30 | 1 comentarios | Compartir por WhatsApp
  • FLUX.1 Kontext de Black Forest Labs es un modelo de IA generativa de última generación que recibe texto e imágenes al mismo tiempo, entiende el contexto y permite modificar y generar al instante manteniendo las características y el estilo de una imagen existente
  • Frente a los algoritmos tradicionales de generación texto-imagen, muestra un rendimiento superior en consistencia de texto y objetos, edición local, referencia de estilo y respuesta de alta velocidad
  • El usuario puede ingresar solo texto, o combinar imagen y texto para cambiar solo áreas específicas, aplicar únicamente el estilo o realizar ediciones en múltiples pasos, habilitando diversos flujos de trabajo interactivos de imagen
  • FLUX.1 Kontext [pro] mantiene la consistencia de la imagen incluso tras varias ediciones y funciona a una velocidad líder en la industria
  • La versión de código abierto [dev] es un transformador de difusión ligero de 12B, publicado en beta privada con fines de investigación y personalización

Introducción a FLUX.1 Kontext

  • FLUX.1 Kontext supera las limitaciones de los modelos existentes que generan imágenes solo a partir de texto, y es un modelo generativo de flow matching que permite generación y edición de imágenes basadas en contexto al usar texto e imágenes en conjunto como entrada
  • Al aprovechar simultáneamente prompts de texto e imágenes, puede eliminar/agregar/modificar elementos específicos de una imagen y generar nuevas escenas manteniendo el estilo o las características

Funciones principales

  • Consistencia de personajes: la misma persona, objeto o estilo se mantiene de forma consistente incluso en distintas escenas y entornos
  • Edición local: permite modificar solo partes específicas de una imagen mediante instrucciones de texto (por ejemplo, eliminar solo un elemento del rostro o cambiar solo el texto)
  • Referencia de estilo: permite aplicar el estilo distintivo de una imagen de referencia a una nueva escena
  • Velocidad interactiva: admite edición y generación en tiempo real con una velocidad de inferencia hasta 8 veces más rápida que la de modelos anteriores

Integración de edición texto-imagen e imagen-imagen

  • FLUX.1 Kontext mantiene la calidad y las características de la imagen no solo en una sola edición, sino también ante instrucciones iterativas en múltiples etapas
  • Al utilizar de forma continua el prompt y los resultados previos de imagen, es posible llegar paso a paso al resultado deseado

Línea de modelos FLUX.1 Kontext

  • FLUX.1 Kontext [pro]
    • Modelo insignia especializado en edición y generación iterativa rápida
    • Recibe simultáneamente texto e imágenes de referencia y realiza edición de áreas objetivo y transformaciones complejas de escenas de forma rápida y consistente
  • FLUX.1 Kontext [max]
    • Modelo experimental de especificación máxima, con mejoras en comprensión de prompts, tipografía y capacidad de edición consistente a alta velocidad
  • FLUX.1 Kontext [dev]
    • Modelo ligero (12B) para investigación y personalización, publicado en beta privada
    • Cuando se publique, estará disponible a través de importantes socios de infraestructura de IA como FAL, Replicate, Runware, DataCrunch, TogetherAI y HuggingFace

Soporte y acceso

  • La serie FLUX.1 Kontext puede usarse en diversos servicios como KreaAI, Freepik, Lightricks, OpenArt, LeonardoAI y en infraestructuras como FAL, Replicate, Runware, DataCrunch, TogetherAI, ComfyOrg
  • A través de FLUX Playground (https://playground.bfl.ai/), para pruebas y demos en tiempo real, es posible validar fácilmente el rendimiento del modelo y revisar los resultados sin necesidad de una integración adicional

Evaluación de rendimiento

  • Evaluado en el benchmark propio KontextBench frente a modelos SOTA en 6 tareas de generación y edición de imágenes
  • Registró resultados de nivel líder en la industria en edición de texto y preservación de personajes
  • La velocidad de inferencia también logró una latencia abrumadoramente menor frente a los modelos previos de mejor rendimiento
  • También demostró competitividad en criterios como calidad estética, comprensión de prompts, tipografía y realismo

Limitaciones y tareas futuras

  • En ediciones iterativas de múltiples pasos (más de 6), puede aparecer ruido visual (artifact) y degradarse la calidad de la imagen
  • En ocasiones, puede no seguir con precisión instrucciones detalladas de ciertos prompts
  • Tiene limitaciones en conocimiento del mundo y comprensión contextual, por lo que puede generar imágenes contextualmente inexactas
  • La calidad de imagen puede disminuir durante el proceso de aligeramiento del modelo y distillation

1 comentarios

 
GN⁺ 2025-05-30
Opiniones en Hacker News
  • Lo probé directamente y experimenté un curioso fenómeno de "deslizamiento de contexto". Imagen relacionada Generé una imagen de una nave espacial aterrizando en un planeta remoto, y luego pedí una edición diciendo: "haz la nave espacial más colorida y muéstrala más grande en la imagen". Pero la nave terminó convirtiéndose en un barco portacontenedores. Como el historial del chat seguía ahí, debería haber entendido que yo quería una nave espacial, pero perdió un contexto importante y el resultado salió totalmente fuera de lugar.

  • Lo estoy probando directamente con el endpoint de FLUX Kontext Pro en Replicate. También existe una app de Replicate que muestra varios usos de edición de imágenes de FLUX Kontext: FLUX Kontext Apps. La calidad de imagen, en el caso de generación simple de imagen a imagen, se siente similar al nivel de generación de imágenes de GPT-4o. La velocidad de generación también es rápida, alrededor de 4 segundos. La ingeniería de prompts se siente algo complicada fuera de los ejemplos, aunque creo que irá mejorando. Los cambios de estilo o solicitudes detalladas sí se aplican, pero mientras más específicas son las instrucciones, más tiende a ignorar los requisitos finos.

    • Viendo qué tan bien conserva los atributos originales, el modelo FLUX da la impresión de ser más preciso que 4o. Si le pides cambiar solo la iluminación de un personaje animal 3D existente, 4o tiende a arruinar la cara del personaje y tocar el cuerpo o los detalles, mientras que FLUX, incluso cambiando bastante la pose o la iluminación, mantiene casi perfectamente igual la forma visible.
    • En experimentos de imagen a imagen, me impresionó más que GPT-4o. 4o se obsesiona mucho con llevar los colores hacia un tono sepia y, sobre todo en ediciones repetidas, se nota demasiado que el resultado es de 4o. En cambio, la versión FLUX.1 Kontext Max maneja una expresión de color mucho más amplia y diversa, y capta pequeños detalles que 4o podría pasar por alto. Aún no he podido probar generar imágenes nuevas solo con prompts. Pero para editar imágenes existentes mediante prompts, FLUX se siente muy superior.
    • Me encanta que Replicate siempre ofrezca de inmediato los modelos más recientes. En esta era de IA que avanza tan rápido, está genial que nuevas versiones de investigación se publiquen enseguida como API y además puedan usarse a escala en producción. Da la impresión de que distribuidores como Replicate multiplican varias veces el impacto de la publicación de estos modelos.
    • Me da curiosidad con qué GPU y VRAM miden esos 4 segundos. ¿Acaso te refieres a la UI de Huggingface?
  • Algunas muestras parecen demasiado seleccionadas para enseñar solo los mejores resultados. ¿Alguien ha probado la app de headshots profesionales de “Kontext Apps”? Enlace a Kontext Apps Subí varias fotos mías y cada vez terminaba siendo una persona completamente distinta. El headshot final sí se ve claramente profesional.

    • Probé un prompt de headshot en flux playground usando una selfie cansado en el gimnasio, y conservó la mayor parte de mi apariencia: la misma expresión, el sudor, el tono de piel, etc. Era casi como si solo hubiera cambiado el fondo. Luego amplié la solicitud con "conviértelo en un buen headshot para redes sociales, sonrisa, buena postura y ropa, piel limpia sin sudor, etc." y solo cambió la ropa y añadió una sonrisa rara. Se parece bastante a los resultados reales que suelen salir con este tipo de imágenes.
    • Me pregunto si la proporción entre la imagen de entrada y la de salida es la misma. Parece que cuando la proporción se fuerza a cambiar, aparecen comportamientos extraños.
    • La preservación de identidad, como en los rostros, es un problema que nadie ha resuelto perfectamente. Igual que las manos, es un desafío científico.
  • Estoy pensando si agregar el modelo FLUX Kontext a mi sitio de comparación de imágenes GenAI. La versión Max obtiene casi el doble de puntaje en fidelidad al prompt, pero aun así queda bastante por detrás de OpenAI gpt-image-1 (dejando de lado la calidad visual). gpt-image-1 va primero en el leaderboard. Mantengo Flux 1.D como baseline de capacidades GenAI locales. Sitio de comparación También agregué hace poco el modelo Image 2.0 de Hunyuan, pero como corresponde a un modelo en tiempo real, sus puntajes salen bajos. Como referencia, este modelo de Black Forest Labs parece estar más enfocado en la edición y corrección iterativa de imágenes existentes que en texto a imagen.

    • Ojalá agregues también “Flux 1.1 Pro Ultra” al sitio. Dicen que es el de mejor rendimiento de esta serie y que su fidelidad al prompt es mucho mejor que Flux Dev. Parece que podría compararse de forma justa como uno de los mejores modelos open source. El sitio también está entretenido y los prompts son interesantes.
    • Mi propuesta: este tipo de prompt de escena no lo pudo implementar bien ningún modelo antiguo; supongo que recientemente habrá mejorado mucho…
      A knight with a sword in hand stands with his back to us, facing down an army. He holds his shield above his head to protect himself from the rain of arrows shot by archers visible in the rear.
      
      Sorprende que, aun habiendo suficientes datos, los resultados salgan tan mal. Es una escena bastante icónica.
    • Ya pedí que lo agreguen al sitio, lo sigo viendo con interés.
  • Me pregunto si la imagen de entrada está limitada a una sola. Quisiera probar prompts compuestos metiendo varias imágenes, como "coloca el objeto de la imagen A dentro de la imagen B" o "pon el personaje A en el paisaje B".

    • En el modo experimental “multi” se pueden ingresar varias imágenes.
    • En Fal puedes probar la interfaz multiimagen, y probablemente también exista en Replicate (aunque no lo he confirmado). Este modelo es increíble; no supera a gpt-image-1, pero de verdad está cerca. Creo que ya desaparecieron las barreras exclusivas en imagen y video. Me preocupaba que Google u OpenAI monopolizaran el mercado creativo, pero ahora cualquiera puede crear directamente.
  • Para quienes tengan curiosidad por el paper técnico, comparto el reporte oficial.

    • La implementación parece sencilla y similar a la de otros modelos abiertos (HiDream-E1, ICEdit, DreamO, etc.). La verdadera diferencia parece estar en la curación de datos, y esa parte solo se explica brevemente en el paper.
    • A la mayoría ni siquiera le interesa el paper; lo que quieren es descargar un modelo open-weight y correrlo por su cuenta. La mayoría se lo lleva y lo usa, pero casi nadie contribuye.
  • ¿Qué nivel de especialización se necesitaría para modificar y entrenar esto localmente? Llevo dos días investigando para intentar hacer ajuste LoRa por mi cuenta con Flux 1 dev en una RTX 4090 con Windows, pero no logro hacerlo bien. Me pregunto cuánto hay que profundizar en esto, si la barrera de entrada es baja, si también puede hacerlo un principiante o si es territorio solo para gente experimentada.

    • El modelo open source todavía no se ha publicado, y no será más fácil que entrenar LoRA sobre Flux 1 Dev.
    • Recomiendo usar el script de SimpleTuner. Pude hacer ajuste LoRa por mi cuenta sin conocer bibliotecas de Python.
    • Normalmente se pueden encontrar fácilmente versiones configuradas en comfyui. En el caso de algunos youtubers, a veces las distribuyen como recompensa de Patreon u otros apoyos.
    • Si no te funciona con RTX 4090 + Windows, probablemente el problema sea Windows. El rendimiento real se luce en Linux.
  • No entiendo bien el ejemplo de remove from face. Si no hay otra foto del rostro, ¿al final no está usando una imagen típica generada?

    • No está restaurando algo real; todo es simplemente una imagen generada. No existe un rostro real.
    • Si miras el ejemplo con detalle, cuando cierto objeto tapa parcialmente la cara, el modelo podría inferirla y restaurarla.
    • Depende de en qué etapa esté el modelo base; algunos modelos de identidad pueden interpolar rostros con bastante precisión incluso usando solo geometría parcial.
    • Parece que el slideshow del primer ejemplo tiene un bug. Un copo de nieve está cubriendo gran parte del rostro.
    • Cuando se usan fotos reales, el modelo suele cambiar la cara, así que probablemente usaron como ejemplo una imagen donde el rostro ni siquiera se ve.
  • Preguntan si puede generar imágenes de ajedrez. Enlace a predicción de Chess AI

  • Un comentario especula sobre cuándo podría salir una versión abierta para desarrolladores: si será dentro de una semana o si todavía faltarán uno o dos meses.