8 puntos por GN⁺ 2025-06-29 | 1 comentarios | Compartir por WhatsApp
  • FLUX.1 Kontext [dev] es la versión con open weights de un modelo de edición de imágenes generativas que hasta ahora era propietario, y se publica gratis
  • Con 12B parámetros, puede ejecutarse en hardware de consumo y se distribuye gratis para investigación y usos no comerciales
  • Ofrece edición local/global detallada, conservación de consistencia de personajes y modificaciones iterativas, con rendimiento de edición de imágenes de alta calidad a nivel comercial, y puede integrarse de inmediato con frameworks populares como ComfyUI, Hugging Face Diffusers y TensorRT
  • En evaluaciones de rendimiento mostró resultados superiores a modelos abiertos y cerrados existentes (por ejemplo, Google's Gemini-Flash Image)
  • También se ofrecen variantes TensorRT optimizadas para la arquitectura NVIDIA Blackwell (BF16, FP8, FP4), logrando mejoras importantes de velocidad y eficiencia en hardware reciente
  • Con una licencia comercial y un portal self-service, también puede integrarse y aprovecharse fácilmente en entornos de negocio

Introducción e importancia

  • FLUX.1 Kontext [dev] es el modelo más reciente de edición de imágenes generativas publicado por Black Forest Labs
  • Hasta ahora, la mayoría de los buenos modelos de generación/edición de imágenes se ofrecían de forma propietaria, pero ahora pasan a open weights, lo que permite que cualquiera los use para investigación y fines no comerciales
  • Este modelo está compuesto por 12B parámetros, ofrece un rendimiento sobresaliente y al mismo tiempo tiene la eficiencia necesaria para ejecutarse en hardware de consumo común

Publicación y accesibilidad

  • FLUX.1 Kontext [dev] se publica bajo la licencia no comercial de FLUX.1, por lo que está disponible gratis para usuarios con fines de investigación y no comerciales
  • Los pesos del modelo pueden descargarse fácilmente desde HuggingFace y son compatibles con frameworks principales de IA como ComfyUI, HuggingFace Diffusers y TensorRT
  • Socios como FAL, Replicate, Runware, DataCrunch y TogetherAI ofrecen endpoints de API y código listos para usar de inmediato tanto en la nube como en entornos locales

Un nuevo estándar en edición de imágenes

  • FLUX.1 Kontext [dev] está especializado en tareas de edición de imágenes
    • Sobresale en preservación de personajes durante ediciones iterativas y en distintas escenas y entornos
    • Soporta edición local precisa y edición global completa
  • Black Forest Labs busca ofrecer una herramienta abierta comparable a los modelos propietarios
  • En benchmarks a gran escala (como KontextBench), demostró rendimiento superior frente a modelos abiertos existentes como ByteDance Bagel y HiDream-E1-Full, así como frente a modelos comerciales como Google Gemini-Flash Image
  • Evaluaciones independientes de entidades externas como Artificial Analysis también confirmaron resultados consistentes

Optimización de hardware y distintas opciones

  • En colaboración con NVIDIA, se ofrecen pesos TensorRT optimizados para la arquitectura más reciente Blackwell (versiones BF16, FP8 y FP4 optimizadas para energía y velocidad)
  • Los desarrolladores pueden elegir fácilmente el balance de velocidad, eficiencia y calidad según sus necesidades

Licencia y portal para uso comercial

  • Black Forest Labs abrió un portal de licencias self-service con condiciones transparentes, simplificando el acceso comercial y no comercial a todos sus modelos con open weights
  • Las empresas pueden comprar licencias fácilmente en el portal e integrar rápidamente los modelos de la familia FLUX.1 en sus servicios de negocio

Actualizaciones de la licencia

  • Se aclaró la definición de uso no comercial para especificar con mayor detalle el alcance permitido y las restricciones
  • Se añadió una cláusula de filtro de contenido para evitar la generación de material ilegal o que infrinja derechos, además de reforzar las cláusulas de exención de responsabilidad
  • La gestión del origen del contenido y del historial de generación queda regulada para cumplir con la normativa aplicable
  • Se agregaron ejemplos claros y restricciones para casos de uso no permitidos

Materiales de referencia y soporte

1 comentarios

 
GN⁺ 2025-06-29
Comentarios en Hacker News
  • Es muy bueno que BFL haya publicado los pesos, y creo que, en una realidad donde la sostenibilidad financiera del open source es difícil, el enfoque de ofrecerlo gratis a la academia y cobrar una licencia razonable a las startups es lo que permitirá que BFL y otras empresas sigan publicando modelos de pesos abiertos

    • Si BFL tuviera que pagar por adelantado tarifas de autorización explícita de uso para todas las imágenes y contenidos basados en video que utiliza, creo que ese enfoque sería financieramente insostenible
  • Una característica interesante de publicar pesos abiertos es que permite agregar nuevas funciones (tareas) a este tipo de modelos de edición

    • Parece generalizar bien incluso con pocas muestras (unas 30), y eso lo compartieron en el blog
      • Esta versión de Kontext es la que todos estaban esperando y se siente mucho más práctica
      • Es el primer caso entre la nueva generación de modelos de generación de imágenes que se pueden entrenar, algo que no era posible en modelos grandes existentes como Gemini, GPT y MJ
  • Espero que el modelo Dev destilado mantenga un rendimiento suficientemente bueno incluso en comparación con los modelos Pro/Max más grandes

    • Últimamente espero que este modelo pueda reemplazar por completo, en varios aspectos, técnicas antiguas de inpainting como Stable Diffusion
    • Se pueden ver experimentos de edición de imágenes con Kontext antes y después aquí
  • Probé este sistema directamente en un hackathon realizado la semana pasada en San Francisco y me dejó una impresión bastante buena

    • Me da curiosidad qué proyectos hizo la gente en ese hackathon
  • Se siente como si la intención de la licencia fuera actuar como una especie de filtro previo que limita a las personas que pueden acceder

    • Aunque formalmente esté abierta, en la práctica reduce su alcance, y este tipo de configuración termina moldeando quién puede intentarlo
    • Tiene la ventaja de prevenir abusos, pero también puede dejar fuera usos valiosos y, al final, tiende a cambiar sutilmente hasta los criterios de lo que cuenta como un experimento nuevo
  • La nueva licencia de uso no comercial aplicada tiene reglas bastante complicadas; se puede consultar el texto completo de la licencia

    • Si se interpreta correctamente esta licencia, no puede usarse en un entorno comercial aunque el objetivo no sea crear derivados sino simplemente generar resultados
    • Queda la duda de a qué se aplica exactamente la licencia; probablemente, salvo algo como código Python fácil de reimplementar, no creo que haya copyright
    • Los pesos del modelo no son una obra creativa a la que se le pueda otorgar copyright tanto como quisieran las empresas, y la postura es que tampoco entran dentro de la definición legal de copyright
    • A diferencia de una base de datos o de un software, los pesos del modelo no cumplen los requisitos de copyright; se enfatiza que no importa cuánta creatividad haya entrado, no son objeto de protección por copyright
  • Me gustaría usar un modelo como Kontext para ir terminando una ilustración colaborando con la IA en tiempo real sobre un lienzo

    • De verdad espero una experiencia tipo “compañero de pintura en tiempo real”, combinando las innovaciones de predicción temporal del campo de los LLM con algo como el dataset Google Quick Draw, para completar una imagen conversando con el pincel
      • Al probar el modelo Kontext de Fal.ai, impresiona la función del slider de transformación antes/después y la posibilidad de seguir ajustando continuamente con la imagen editada
      • Ahora que BFL publicó hasta el modelo dev, ojalá también salga un plugin de Kontext para Krita, donde ya existen plugins para Stable Diffusion
      • Enlace de referencia del plugin de Krita
  • Me pregunto con cuánta VRAM puede correr este sistema

    • Por ahora necesita alrededor de 18~20GB de VRAM, pero mañana o en un futuro cercano podría funcionar incluso con 4GB de VRAM si se tiene alrededor de una hora de paciencia
  • Es una pena que la licencia sea restrictiva