2 puntos por GN⁺ 2025-11-27 | 1 comentarios | Compartir por WhatsApp
  • FLUX.2 es un modelo de generación de imágenes de alta calidad para flujos de trabajo creativos reales, que mantiene la consistencia de personajes y estilo entre múltiples imágenes de referencia y admite procesamiento de texto y cumplimiento de lineamientos de marca
  • Permite edición de imágenes detallada con una resolución de hasta 4 megapíxeles, y controla de forma estable elementos visuales como iluminación, composición y logotipos
  • A través de una estrategia open-core, ofrece tanto modelos de pesos abiertos como una API de nivel de producción, llevando el ecosistema abierto construido con FLUX.1 a la etapa FLUX.2
  • Se agregaron nuevas funciones clave como soporte multirreferencia, renderizado tipográfico preciso, procesamiento de prompts mejorado e incorporación de conocimiento del mundo real
  • La familia de modelos está compuesta por pro, flex, dev, klein y VAE, con opciones tanto de pesos abiertos como de API comercial
  • Black Forest Labs busca el avance abierto de la inteligencia visual al combinar investigación abierta e infraestructura comercial

Resumen de FLUX.2

  • FLUX.2 es un modelo de generación de imágenes para entornos de producción reales, no solo para demos
    • Mantiene la consistencia de personajes y estilo a partir de varias imágenes de referencia
    • Sigue prompts estructurados y puede leer y escribir texto complejo
    • Maneja de forma estable lineamientos de marca, iluminación, composición y logotipos
  • Admite edición de imágenes con detalle y consistencia mantenidos hasta 4 MP de resolución

La filosofía open-core de Black Forest Labs

  • Plantea el principio de que la inteligencia visual debe ser desarrollada de forma conjunta por investigadores, creadores y desarrolladores
  • Ofrece en paralelo modelos de pesos abiertos y endpoints de API de nivel comercial
    • Los modelos abiertos fomentan la experimentación, reducen costos y aumentan la transparencia
  • Desde su fundación en 2024, construyó una base de innovación abierta mediante FLUX.1 [dev] y FLUX.1 Kontext [pro]
    • FLUX.1 [dev] es mencionado como el modelo abierto de imágenes más popular del mundo
    • FLUX.1 Kontext [pro] es usado por equipos importantes como Adobe y Meta

De FLUX.1 a FLUX.2

  • Si FLUX.1 mostró el potencial como herramienta creativa, FLUX.2 se enfoca en la innovación de los flujos de trabajo de producción
  • Refuerza la precisión, eficiencia, control y realismo, mejorando de forma importante la rentabilidad de la generación de imágenes
  • Como resultado, se perfila como un componente clave de la infraestructura creativa

Funciones principales (What’s New)

  • Soporte multirreferencia: referencia simultáneamente hasta 10 imágenes para mantener consistencia de personajes, productos y estilo
  • Detalles finos y realismo: adecuado para fotografía de producto, visualización y resultados de nivel fotográfico
  • Mejora en renderizado de texto: mayor legibilidad en tipografía compleja, infografías, mockups de UI y más
  • Procesamiento de prompts reforzado: refleja con precisión prompts de estructura múltiple y restricciones de composición
  • Expansión del conocimiento del mundo real: composición de escenas consistente basada en la lógica de iluminación y espacio
  • Edición en alta resolución: admite relaciones flexibles de entrada y salida hasta 4 MP de resolución

Familia FLUX.2

  • FLUX.2 [pro]
    • Ofrece calidad de imagen, seguimiento de prompts y fidelidad visual capaces de competir con los mejores modelos cerrados
    • Se caracteriza por su rápida velocidad de generación y bajo costo, y está disponible en BFL Playground, API y plataformas asociadas
  • FLUX.2 [flex]
    • Modelo en el que se pueden ajustar directamente parámetros como número de pasos y guidance scale para optimizar calidad, velocidad y renderizado de texto
    • Destaca especialmente en representación tipográfica precisa
  • FLUX.2 [dev]
    • Modelo open-weight de 32B, el modelo público más potente hasta ahora que admite texto→imagen y edición de imágenes de entrada múltiples en un solo checkpoint
    • Ofrece pesos en Hugging Face e incluye implementación optimizada en FP8 en colaboración con NVIDIA y ComfyUI
    • Puede usarse vía API en FAL, Replicate, Runware, Verda, TogetherAI, Cloudflare, DeepInfra y más
  • FLUX.2 [klein] (próximamente)
    • Modelo open source bajo Apache 2.0 que se ofrecerá como una versión destilada en tamaño, ligera y de alto rendimiento basada en FLUX.2
  • FLUX.2 – VAE
    • Un nuevo VAE optimizado de forma equilibrada en facilidad de entrenamiento, calidad y tasa de compresión, como componente central del backbone de FLUX.2
    • Disponible en Hugging Face bajo licencia Apache 2.0

Rendimiento y valor

  • La familia FLUX.2 ofrece calidad de generación de imágenes de última generación a precios competitivos
  • Entre los modelos de pesos abiertos, FLUX.2 [dev] registra un rendimiento superior frente a todas las alternativas abiertas en generación texto-imagen y edición con referencia única o múltiple
  • Todos los modelos se gestionan antes y después de su lanzamiento conforme a principios de desarrollo responsable

Estructura técnica (How It Works)

  • Basado en una arquitectura de latent flow matching, integra generación y edición de imágenes en una sola estructura
  • Combina el modelo visión-lenguaje Mistral-3 24B con Rectified Flow Transformer
    • El VLM aporta conocimiento del mundo real y comprensión contextual
    • El transformer procesa relaciones espaciales, propiedades de materiales y lógica de composición
  • Puede combinar hasta 10 imágenes de referencia para generar nuevos resultados
  • Reentrena el espacio latente del modelo para mejorar el trilema entre capacidad de entrenamiento, calidad y tasa de compresión

Material adicional

Dirección futura (Into the New)

  • FLUX.2 es un paso hacia modelos multimodales que integran percepción, generación, memoria y razonamiento
  • Como tecnología base para la infraestructura de inteligencia visual, apunta a transformar la forma de percibir y entender el mundo
  • Actualmente están contratando talento en Freiburg y San Francisco

1 comentarios

 
GN⁺ 2025-11-27
Opiniones de Hacker News
  • Han salido tantos modelos nuevos últimamente que actualizar un sitio de comparación de GenAI ya se siente casi como una tarea de Sísifo
    Aun así, ya subieron los resultados del nuevo modelo Flux 2 Pro Editing
    Se pueden ver en la página de resultados
    Este modelo obtuvo una puntuación apenas superior a Kontext de BFL, quedando con 6 puntos y en la mitad de la tabla entre 12 modelos
    Pronto planean agregar métricas numéricas para una evaluación más detallada
    Si solo quieres comparar Flux 2 Pro, Nano Banana Pro y Kontext, puedes verlo en este enlace
    Por cierto, parece que BFL soporta una estructura JSON para ediciones más precisas, así que da curiosidad si eso podría mejorar todavía más la exactitud

    • Estaría mejor que el sistema de puntuación cambiara de aprobado/reprobado a una escala de 0 a 10
      Que Flux y Gemini Pro 3 reciban la misma nota le baja calidad al benchmark
    • La comparación es útil, pero le falta diversidad de estilos
      Los modelos de OpenAI tienen una huella propia demasiado marcada, así que igualan mal el estilo, y el rendimiento de Flux cambia según el estilo
      Flux intentó evitar entrenarse promediando muchos estilos, pero eso choca con la meta de producir imágenes visualmente atractivas
      Al final, parece que el problema de consistencia de estilo va a seguir por un tiempo
    • Ahorita Google va claramente al frente
      Seedream también impresiona, así que en la siguiente versión probablemente ya compita al nivel de Google
      La generación de imágenes ya se siente casi como un problema resuelto
    • Hay un typo en el sitio: hace falta corregir s/sttae/state/g
    • Queda la duda de si BFL todavía tendrá energía para seguir compitiendo contra gigantes como Google y ByteDance (SeeDream)
      El modelo nuevo se queda en un nivel medio, y su open source tampoco es tan abierto como los modelos chinos
      La calidad de imagen de Flux todavía se ve con piel plástica y texturas artificiales
      Aunque técnicamente pase la prueba, en un flujo de trabajo real probablemente no elegiría Flux
      Puede que sea un problema de un equipo de datos con poca sensibilidad estética
      BFL está en una posición complicada, atrapada entre Google y el ecosistema chino
      Otras empresas de modelos de medios como RunwayML, PikaLabs y LumaLabs también están pasando por dificultades parecidas
      BFL recibió una gran inversión recientemente, pero aun así competir con los hyperscalers sigue viéndose cuesta arriba
  • Da gusto que el modelo nuevo también se haya publicado como versión de pesos abiertos
    Pero queda la duda de qué pasó con el modelo de video SOTA que antes habían anunciado
    También se mencionó en este video de YouTube, pero la página relacionada (bfl.ai/up-next) fue eliminada

    • Como startup, hicieron pivot para enfocarse en modelos de imagen en lugar de video
      Los modelos de imagen tienen más casos de uso y datasets mucho más abundantes
    • Según rumores, el entrenamiento del modelo de video terminó en un fracaso a gran escala y el proyecto fue cancelado
    • Los modelos de imagen siguen siendo un eje tecnológico central
      La imagen es la base del video y ofrece muchos más elementos controlables
      Los modelos de imagen dan feedback rápido y productividad, y todavía falta mucho en control de estilo, pose y consistencia
      Midjourney domina en estética, pero le falta control
      Flux se ve plástico, Imagen tira a caricaturesco y OpenAI se siente anticuado
      Al final hay que competir en estética, control y reproducibilidad al mismo tiempo
      El video solo distrae de ese trabajo
  • Probé personalmente Flux 2 Pro (enlace de Replicate)
    Frente a Nano Banana no hay una gran diferencia, y comparado con Flux 1.1 Pro parece más bien una mejora incremental

    • La consistencia con el prompt mejoró, pero la calidad de imagen se ve más artificial
    • La guía de prompts de Flux 2 recomienda por defecto prompts en JSON y especificación de color en HEX
    • Si activas el prompt upsampling, mejora la capacidad de razonamiento, pero si lo desactivas salen resultados raros
    • La API de Flux 2 tiene una sensibilidad alta a temas de IP, y hay casos que solo pasan si se activa el upsampling (ejemplo)
    • El costo y la velocidad son parecidos a los de Nano Banana, pero si usas la función de entrada de imagen, Flux 2 Pro sale más caro
    • Entre Flux 1.1 y 2 no hay una superioridad objetiva
    • La sola posibilidad de correr Flux en local ya es una ventaja
      Si Google sube precios o cambia la API, no hay alternativa, pero BFL sí ofrece opción de ejecución local
    • La salida en alta resolución (4K) de Flux 2 Pro a veces causa problemas
      Agrega detalles innecesarios, como un upscale con ESRGAN (prueba)
    • La versión Flux 2 Dev no tiene censura de IP
  • FLUX.1 Pro Kontext sigue destacando en expresión artística y comprensión de instrucciones
    También se puede ver en esta comparativa con Nano Banana en un blog

  • FLUX.2 [dev] puede correr en local en GPUs RTX con versión optimizada en fp8
    Está bien que mantengan los pesos abiertos, pero el modelo creció de 12B a 32B y eso hace que el uso local sea pesado
    Están esperando una versión distill

    • Si ves la página en Hugging Face,
      el encoder de texto ocupa 48GB y el modelo generativo 64GB, sumando más de 100GB en total
      Eso representa una barrera de entrada fuerte para usuarios locales
  • En esta versión, el encoder de texto es Mistral-Small-3.2-24B-Instruct-2506, mejor que la combinación anterior de CLIP/T5, pero enorme
    Si hubieran esperado a lanzar un modelo distill bajo Apache 2.0, probablemente se habría diferenciado mejor frente a Nano Banana
    La estructura de precios también es curiosa: la entrada cuesta $0.015 por MP, y la salida $0.03 por el primer MP y luego $0.015 por MP

    • Qwen-Image-Edit-2511 saldrá la próxima semana bajo Apache 2.0, así que parece que BFL se apresuró a publicarlo
    • CLIP en la práctica fue una elección sin sentido. Incluso poniendo sus pesos en cero, el resultado era casi el mismo
    • La combinación CLIP+T5 la usaban muchos modelos de generación de imagen en ese momento. No era una elección tan rara
    • Por cuidar la estrategia GTM, parece que el mercado europeo salió perdiendo
  • Qué bueno que ya haya un competidor para Nano Banana Pro
    Eso ayuda a mantener la competencia de precios

    • En regiones donde el uso de modelos estadounidenses está restringido, como Hong Kong, este tipo de alternativa es especialmente importante
      No se puede suscribir a Google, OpenAI ni Claude
    • También da gusto ver a una empresa europea destacando
  • Por cierto, la versión open source de FLUX.2-DEV no permite uso comercial
    Texto completo de la licencia

  • Compararon Nano Banana Pro y Flux 2 Pro con el prompt “family guy cyberpunk 2077”,
    y el modelo de Google encajó mejor con la escena del juego, mientras que Flux se sentía demasiado realista

    • Flux está ajustado a un dataset centrado en fotografía, por eso rinde peor en estilos artísticos
      Flux 2 Pro mostró una tendencia parecida
      Aun así, con el ecosistema de LoRA y dedicando tiempo al ajuste, Flux 1 Dev sigue siendo fuerte para el estilizado creativo
  • Hay una versión 18GB 4bit quant disponible en diffusers, así que puede correrse incluso en entornos de VRAM baja