FLUX.2: modelo de próxima generación para generación y edición visual

(bfl.ai)

2 puntos por GN⁺ 2025-11-27 | 1 comentarios | Compartir por WhatsApp

FLUX.2 es un modelo de generación de imágenes de alta calidad para flujos de trabajo creativos reales, que mantiene la consistencia de personajes y estilo entre múltiples imágenes de referencia y admite procesamiento de texto y cumplimiento de lineamientos de marca
Permite edición de imágenes detallada con una resolución de hasta 4 megapíxeles, y controla de forma estable elementos visuales como iluminación, composición y logotipos
A través de una estrategia open-core, ofrece tanto modelos de pesos abiertos como una API de nivel de producción, llevando el ecosistema abierto construido con FLUX.1 a la etapa FLUX.2
Se agregaron nuevas funciones clave como soporte multirreferencia, renderizado tipográfico preciso, procesamiento de prompts mejorado e incorporación de conocimiento del mundo real
La familia de modelos está compuesta por pro, flex, dev, klein y VAE, con opciones tanto de pesos abiertos como de API comercial
Black Forest Labs busca el avance abierto de la inteligencia visual al combinar investigación abierta e infraestructura comercial

Resumen de FLUX.2

FLUX.2 es un modelo de generación de imágenes para entornos de producción reales, no solo para demos
- Mantiene la consistencia de personajes y estilo a partir de varias imágenes de referencia
- Sigue prompts estructurados y puede leer y escribir texto complejo
- Maneja de forma estable lineamientos de marca, iluminación, composición y logotipos
Admite edición de imágenes con detalle y consistencia mantenidos hasta 4 MP de resolución

La filosofía open-core de Black Forest Labs

Plantea el principio de que la inteligencia visual debe ser desarrollada de forma conjunta por investigadores, creadores y desarrolladores
Ofrece en paralelo modelos de pesos abiertos y endpoints de API de nivel comercial
- Los modelos abiertos fomentan la experimentación, reducen costos y aumentan la transparencia
Desde su fundación en 2024, construyó una base de innovación abierta mediante FLUX.1 [dev] y FLUX.1 Kontext [pro]
- FLUX.1 [dev] es mencionado como el modelo abierto de imágenes más popular del mundo
- FLUX.1 Kontext [pro] es usado por equipos importantes como Adobe y Meta

De FLUX.1 a FLUX.2

Si FLUX.1 mostró el potencial como herramienta creativa, FLUX.2 se enfoca en la innovación de los flujos de trabajo de producción
Refuerza la precisión, eficiencia, control y realismo, mejorando de forma importante la rentabilidad de la generación de imágenes
Como resultado, se perfila como un componente clave de la infraestructura creativa

Funciones principales (What’s New)

Soporte multirreferencia: referencia simultáneamente hasta 10 imágenes para mantener consistencia de personajes, productos y estilo
Detalles finos y realismo: adecuado para fotografía de producto, visualización y resultados de nivel fotográfico
Mejora en renderizado de texto: mayor legibilidad en tipografía compleja, infografías, mockups de UI y más
Procesamiento de prompts reforzado: refleja con precisión prompts de estructura múltiple y restricciones de composición
Expansión del conocimiento del mundo real: composición de escenas consistente basada en la lógica de iluminación y espacio
Edición en alta resolución: admite relaciones flexibles de entrada y salida hasta 4 MP de resolución

Familia FLUX.2

FLUX.2 [pro]
- Ofrece calidad de imagen, seguimiento de prompts y fidelidad visual capaces de competir con los mejores modelos cerrados
- Se caracteriza por su rápida velocidad de generación y bajo costo, y está disponible en BFL Playground, API y plataformas asociadas
FLUX.2 [flex]
- Modelo en el que se pueden ajustar directamente parámetros como número de pasos y guidance scale para optimizar calidad, velocidad y renderizado de texto
- Destaca especialmente en representación tipográfica precisa
FLUX.2 [dev]
- Modelo open-weight de 32B, el modelo público más potente hasta ahora que admite texto→imagen y edición de imágenes de entrada múltiples en un solo checkpoint
- Ofrece pesos en Hugging Face e incluye implementación optimizada en FP8 en colaboración con NVIDIA y ComfyUI
- Puede usarse vía API en FAL, Replicate, Runware, Verda, TogetherAI, Cloudflare, DeepInfra y más
FLUX.2 [klein] (próximamente)
- Modelo open source bajo Apache 2.0 que se ofrecerá como una versión destilada en tamaño, ligera y de alto rendimiento basada en FLUX.2
FLUX.2 – VAE
- Un nuevo VAE optimizado de forma equilibrada en facilidad de entrenamiento, calidad y tasa de compresión, como componente central del backbone de FLUX.2
- Disponible en Hugging Face bajo licencia Apache 2.0

Rendimiento y valor

La familia FLUX.2 ofrece calidad de generación de imágenes de última generación a precios competitivos
Entre los modelos de pesos abiertos, FLUX.2 [dev] registra un rendimiento superior frente a todas las alternativas abiertas en generación texto-imagen y edición con referencia única o múltiple
Todos los modelos se gestionan antes y después de su lanzamiento conforme a principios de desarrollo responsable

Estructura técnica (How It Works)

Basado en una arquitectura de latent flow matching, integra generación y edición de imágenes en una sola estructura
Combina el modelo visión-lenguaje Mistral-3 24B con Rectified Flow Transformer
- El VLM aporta conocimiento del mundo real y comprensión contextual
- El transformer procesa relaciones espaciales, propiedades de materiales y lógica de composición
Puede combinar hasta 10 imágenes de referencia para generar nuevos resultados
Reentrena el espacio latente del modelo para mejorar el trilema entre capacidad de entrenamiento, calidad y tasa de compresión

Material adicional

Dirección futura (Into the New)

FLUX.2 es un paso hacia modelos multimodales que integran percepción, generación, memoria y razonamiento
Como tecnología base para la infraestructura de inteligencia visual, apunta a transformar la forma de percibir y entender el mundo
Actualmente están contratando talento en Freiburg y San Francisco

1 comentarios

GN⁺ 2025-11-27

Opiniones de Hacker News

Han salido tantos modelos nuevos últimamente que actualizar un sitio de comparación de GenAI ya se siente casi como una tarea de Sísifo
Aun así, ya subieron los resultados del nuevo modelo Flux 2 Pro Editing
Se pueden ver en la página de resultados
Este modelo obtuvo una puntuación apenas superior a Kontext de BFL, quedando con 6 puntos y en la mitad de la tabla entre 12 modelos
Pronto planean agregar métricas numéricas para una evaluación más detallada
Si solo quieres comparar Flux 2 Pro, Nano Banana Pro y Kontext, puedes verlo en este enlace
Por cierto, parece que BFL soporta una estructura JSON para ediciones más precisas, así que da curiosidad si eso podría mejorar todavía más la exactitud
- Estaría mejor que el sistema de puntuación cambiara de aprobado/reprobado a una escala de 0 a 10
  Que Flux y Gemini Pro 3 reciban la misma nota le baja calidad al benchmark
- La comparación es útil, pero le falta diversidad de estilos
  Los modelos de OpenAI tienen una huella propia demasiado marcada, así que igualan mal el estilo, y el rendimiento de Flux cambia según el estilo
  Flux intentó evitar entrenarse promediando muchos estilos, pero eso choca con la meta de producir imágenes visualmente atractivas
  Al final, parece que el problema de consistencia de estilo va a seguir por un tiempo
- Ahorita Google va claramente al frente
  Seedream también impresiona, así que en la siguiente versión probablemente ya compita al nivel de Google
  La generación de imágenes ya se siente casi como un problema resuelto
- Hay un typo en el sitio: hace falta corregir s/sttae/state/g
- Queda la duda de si BFL todavía tendrá energía para seguir compitiendo contra gigantes como Google y ByteDance (SeeDream)
  El modelo nuevo se queda en un nivel medio, y su open source tampoco es tan abierto como los modelos chinos
  La calidad de imagen de Flux todavía se ve con piel plástica y texturas artificiales
  Aunque técnicamente pase la prueba, en un flujo de trabajo real probablemente no elegiría Flux
  Puede que sea un problema de un equipo de datos con poca sensibilidad estética
  BFL está en una posición complicada, atrapada entre Google y el ecosistema chino
  Otras empresas de modelos de medios como RunwayML, PikaLabs y LumaLabs también están pasando por dificultades parecidas
  BFL recibió una gran inversión recientemente, pero aun así competir con los hyperscalers sigue viéndose cuesta arriba
Da gusto que el modelo nuevo también se haya publicado como versión de pesos abiertos
Pero queda la duda de qué pasó con el modelo de video SOTA que antes habían anunciado
También se mencionó en este video de YouTube, pero la página relacionada (bfl.ai/up-next) fue eliminada
- Como startup, hicieron pivot para enfocarse en modelos de imagen en lugar de video
  Los modelos de imagen tienen más casos de uso y datasets mucho más abundantes
- Según rumores, el entrenamiento del modelo de video terminó en un fracaso a gran escala y el proyecto fue cancelado
- Los modelos de imagen siguen siendo un eje tecnológico central
  La imagen es la base del video y ofrece muchos más elementos controlables
  Los modelos de imagen dan feedback rápido y productividad, y todavía falta mucho en control de estilo, pose y consistencia
  Midjourney domina en estética, pero le falta control
  Flux se ve plástico, Imagen tira a caricaturesco y OpenAI se siente anticuado
  Al final hay que competir en estética, control y reproducibilidad al mismo tiempo
  El video solo distrae de ese trabajo
Probé personalmente Flux 2 Pro (enlace de Replicate)
Frente a Nano Banana no hay una gran diferencia, y comparado con Flux 1.1 Pro parece más bien una mejora incremental
- La consistencia con el prompt mejoró, pero la calidad de imagen se ve más artificial
- La guía de prompts de Flux 2 recomienda por defecto prompts en JSON y especificación de color en HEX
- Si activas el prompt upsampling, mejora la capacidad de razonamiento, pero si lo desactivas salen resultados raros
- La API de Flux 2 tiene una sensibilidad alta a temas de IP, y hay casos que solo pasan si se activa el upsampling (ejemplo)
- El costo y la velocidad son parecidos a los de Nano Banana, pero si usas la función de entrada de imagen, Flux 2 Pro sale más caro
- Entre Flux 1.1 y 2 no hay una superioridad objetiva
- La sola posibilidad de correr Flux en local ya es una ventaja
  Si Google sube precios o cambia la API, no hay alternativa, pero BFL sí ofrece opción de ejecución local
- La salida en alta resolución (4K) de Flux 2 Pro a veces causa problemas
  Agrega detalles innecesarios, como un upscale con ESRGAN (prueba)
- La versión Flux 2 Dev no tiene censura de IP
FLUX.1 Pro Kontext sigue destacando en expresión artística y comprensión de instrucciones
También se puede ver en esta comparativa con Nano Banana en un blog
FLUX.2 [dev] puede correr en local en GPUs RTX con versión optimizada en fp8
Está bien que mantengan los pesos abiertos, pero el modelo creció de 12B a 32B y eso hace que el uso local sea pesado
Están esperando una versión distill
- Si ves la página en Hugging Face,
  el encoder de texto ocupa 48GB y el modelo generativo 64GB, sumando más de 100GB en total
  Eso representa una barrera de entrada fuerte para usuarios locales
En esta versión, el encoder de texto es Mistral-Small-3.2-24B-Instruct-2506, mejor que la combinación anterior de CLIP/T5, pero enorme
Si hubieran esperado a lanzar un modelo distill bajo Apache 2.0, probablemente se habría diferenciado mejor frente a Nano Banana
La estructura de precios también es curiosa: la entrada cuesta $0.015 por MP, y la salida $0.03 por el primer MP y luego $0.015 por MP
- Qwen-Image-Edit-2511 saldrá la próxima semana bajo Apache 2.0, así que parece que BFL se apresuró a publicarlo
- CLIP en la práctica fue una elección sin sentido. Incluso poniendo sus pesos en cero, el resultado era casi el mismo
- La combinación CLIP+T5 la usaban muchos modelos de generación de imagen en ese momento. No era una elección tan rara
- Por cuidar la estrategia GTM, parece que el mercado europeo salió perdiendo
Qué bueno que ya haya un competidor para Nano Banana Pro
Eso ayuda a mantener la competencia de precios
- En regiones donde el uso de modelos estadounidenses está restringido, como Hong Kong, este tipo de alternativa es especialmente importante
  No se puede suscribir a Google, OpenAI ni Claude
- También da gusto ver a una empresa europea destacando
Por cierto, la versión open source de FLUX.2-DEV no permite uso comercial
Texto completo de la licencia
Compararon Nano Banana Pro y Flux 2 Pro con el prompt “family guy cyberpunk 2077”,
y el modelo de Google encajó mejor con la escena del juego, mientras que Flux se sentía demasiado realista
- Flux está ajustado a un dataset centrado en fotografía, por eso rinde peor en estilos artísticos
  Flux 2 Pro mostró una tendencia parecida
  Aun así, con el ecosistema de LoRA y dedicando tiempo al ajuste, Flux 1 Dev sigue siendo fuerte para el estilizado creativo
Hay una versión 18GB 4bit quant disponible en diffusers, así que puede correrse incluso en entornos de VRAM baja

FLUX.2: modelo de próxima generación para generación y edición visual

Resumen de FLUX.2

La filosofía open-core de Black Forest Labs

De FLUX.1 a FLUX.2

Funciones principales (What’s New)

Familia FLUX.2

Rendimiento y valor

Estructura técnica (How It Works)

Material adicional

Dirección futura (Into the New)

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News