- FLUX.2 es un modelo de generación de imágenes de alta calidad para flujos de trabajo creativos reales, que mantiene la consistencia de personajes y estilo entre múltiples imágenes de referencia y admite procesamiento de texto y cumplimiento de lineamientos de marca
- Permite edición de imágenes detallada con una resolución de hasta 4 megapíxeles, y controla de forma estable elementos visuales como iluminación, composición y logotipos
- A través de una estrategia open-core, ofrece tanto modelos de pesos abiertos como una API de nivel de producción, llevando el ecosistema abierto construido con FLUX.1 a la etapa FLUX.2
- Se agregaron nuevas funciones clave como soporte multirreferencia, renderizado tipográfico preciso, procesamiento de prompts mejorado e incorporación de conocimiento del mundo real
- La familia de modelos está compuesta por pro, flex, dev, klein y VAE, con opciones tanto de pesos abiertos como de API comercial
- Black Forest Labs busca el avance abierto de la inteligencia visual al combinar investigación abierta e infraestructura comercial
Resumen de FLUX.2
- FLUX.2 es un modelo de generación de imágenes para entornos de producción reales, no solo para demos
- Mantiene la consistencia de personajes y estilo a partir de varias imágenes de referencia
- Sigue prompts estructurados y puede leer y escribir texto complejo
- Maneja de forma estable lineamientos de marca, iluminación, composición y logotipos
- Admite edición de imágenes con detalle y consistencia mantenidos hasta 4 MP de resolución
La filosofía open-core de Black Forest Labs
- Plantea el principio de que la inteligencia visual debe ser desarrollada de forma conjunta por investigadores, creadores y desarrolladores
- Ofrece en paralelo modelos de pesos abiertos y endpoints de API de nivel comercial
- Los modelos abiertos fomentan la experimentación, reducen costos y aumentan la transparencia
- Desde su fundación en 2024, construyó una base de innovación abierta mediante FLUX.1 [dev] y FLUX.1 Kontext [pro]
- FLUX.1 [dev] es mencionado como el modelo abierto de imágenes más popular del mundo
- FLUX.1 Kontext [pro] es usado por equipos importantes como Adobe y Meta
De FLUX.1 a FLUX.2
- Si FLUX.1 mostró el potencial como herramienta creativa, FLUX.2 se enfoca en la innovación de los flujos de trabajo de producción
- Refuerza la precisión, eficiencia, control y realismo, mejorando de forma importante la rentabilidad de la generación de imágenes
- Como resultado, se perfila como un componente clave de la infraestructura creativa
Funciones principales (What’s New)
- Soporte multirreferencia: referencia simultáneamente hasta 10 imágenes para mantener consistencia de personajes, productos y estilo
- Detalles finos y realismo: adecuado para fotografía de producto, visualización y resultados de nivel fotográfico
- Mejora en renderizado de texto: mayor legibilidad en tipografía compleja, infografías, mockups de UI y más
- Procesamiento de prompts reforzado: refleja con precisión prompts de estructura múltiple y restricciones de composición
- Expansión del conocimiento del mundo real: composición de escenas consistente basada en la lógica de iluminación y espacio
- Edición en alta resolución: admite relaciones flexibles de entrada y salida hasta 4 MP de resolución
Familia FLUX.2
- FLUX.2 [pro]
- Ofrece calidad de imagen, seguimiento de prompts y fidelidad visual capaces de competir con los mejores modelos cerrados
- Se caracteriza por su rápida velocidad de generación y bajo costo, y está disponible en BFL Playground, API y plataformas asociadas
- FLUX.2 [flex]
- Modelo en el que se pueden ajustar directamente parámetros como número de pasos y guidance scale para optimizar calidad, velocidad y renderizado de texto
- Destaca especialmente en representación tipográfica precisa
- FLUX.2 [dev]
- Modelo open-weight de 32B, el modelo público más potente hasta ahora que admite texto→imagen y edición de imágenes de entrada múltiples en un solo checkpoint
- Ofrece pesos en Hugging Face e incluye implementación optimizada en FP8 en colaboración con NVIDIA y ComfyUI
- Puede usarse vía API en FAL, Replicate, Runware, Verda, TogetherAI, Cloudflare, DeepInfra y más
- FLUX.2 [klein] (próximamente)
- Modelo open source bajo Apache 2.0 que se ofrecerá como una versión destilada en tamaño, ligera y de alto rendimiento basada en FLUX.2
- FLUX.2 – VAE
- Un nuevo VAE optimizado de forma equilibrada en facilidad de entrenamiento, calidad y tasa de compresión, como componente central del backbone de FLUX.2
- Disponible en Hugging Face bajo licencia Apache 2.0
Rendimiento y valor
- La familia FLUX.2 ofrece calidad de generación de imágenes de última generación a precios competitivos
- Entre los modelos de pesos abiertos, FLUX.2 [dev] registra un rendimiento superior frente a todas las alternativas abiertas en generación texto-imagen y edición con referencia única o múltiple
- Todos los modelos se gestionan antes y después de su lanzamiento conforme a principios de desarrollo responsable
Estructura técnica (How It Works)
- Basado en una arquitectura de latent flow matching, integra generación y edición de imágenes en una sola estructura
- Combina el modelo visión-lenguaje Mistral-3 24B con Rectified Flow Transformer
- El VLM aporta conocimiento del mundo real y comprensión contextual
- El transformer procesa relaciones espaciales, propiedades de materiales y lógica de composición
- Puede combinar hasta 10 imágenes de referencia para generar nuevos resultados
- Reentrena el espacio latente del modelo para mejorar el trilema entre capacidad de entrenamiento, calidad y tasa de compresión
Material adicional
Dirección futura (Into the New)
- FLUX.2 es un paso hacia modelos multimodales que integran percepción, generación, memoria y razonamiento
- Como tecnología base para la infraestructura de inteligencia visual, apunta a transformar la forma de percibir y entender el mundo
- Actualmente están contratando talento en Freiburg y San Francisco
1 comentarios
Opiniones de Hacker News
Han salido tantos modelos nuevos últimamente que actualizar un sitio de comparación de GenAI ya se siente casi como una tarea de Sísifo
Aun así, ya subieron los resultados del nuevo modelo Flux 2 Pro Editing
Se pueden ver en la página de resultados
Este modelo obtuvo una puntuación apenas superior a Kontext de BFL, quedando con 6 puntos y en la mitad de la tabla entre 12 modelos
Pronto planean agregar métricas numéricas para una evaluación más detallada
Si solo quieres comparar Flux 2 Pro, Nano Banana Pro y Kontext, puedes verlo en este enlace
Por cierto, parece que BFL soporta una estructura JSON para ediciones más precisas, así que da curiosidad si eso podría mejorar todavía más la exactitud
Que Flux y Gemini Pro 3 reciban la misma nota le baja calidad al benchmark
Los modelos de OpenAI tienen una huella propia demasiado marcada, así que igualan mal el estilo, y el rendimiento de Flux cambia según el estilo
Flux intentó evitar entrenarse promediando muchos estilos, pero eso choca con la meta de producir imágenes visualmente atractivas
Al final, parece que el problema de consistencia de estilo va a seguir por un tiempo
Seedream también impresiona, así que en la siguiente versión probablemente ya compita al nivel de Google
La generación de imágenes ya se siente casi como un problema resuelto
El modelo nuevo se queda en un nivel medio, y su open source tampoco es tan abierto como los modelos chinos
La calidad de imagen de Flux todavía se ve con piel plástica y texturas artificiales
Aunque técnicamente pase la prueba, en un flujo de trabajo real probablemente no elegiría Flux
Puede que sea un problema de un equipo de datos con poca sensibilidad estética
BFL está en una posición complicada, atrapada entre Google y el ecosistema chino
Otras empresas de modelos de medios como RunwayML, PikaLabs y LumaLabs también están pasando por dificultades parecidas
BFL recibió una gran inversión recientemente, pero aun así competir con los hyperscalers sigue viéndose cuesta arriba
Da gusto que el modelo nuevo también se haya publicado como versión de pesos abiertos
Pero queda la duda de qué pasó con el modelo de video SOTA que antes habían anunciado
También se mencionó en este video de YouTube, pero la página relacionada (bfl.ai/up-next) fue eliminada
Los modelos de imagen tienen más casos de uso y datasets mucho más abundantes
La imagen es la base del video y ofrece muchos más elementos controlables
Los modelos de imagen dan feedback rápido y productividad, y todavía falta mucho en control de estilo, pose y consistencia
Midjourney domina en estética, pero le falta control
Flux se ve plástico, Imagen tira a caricaturesco y OpenAI se siente anticuado
Al final hay que competir en estética, control y reproducibilidad al mismo tiempo
El video solo distrae de ese trabajo
Probé personalmente Flux 2 Pro (enlace de Replicate)
Frente a Nano Banana no hay una gran diferencia, y comparado con Flux 1.1 Pro parece más bien una mejora incremental
Si Google sube precios o cambia la API, no hay alternativa, pero BFL sí ofrece opción de ejecución local
Agrega detalles innecesarios, como un upscale con ESRGAN (prueba)
FLUX.1 Pro Kontext sigue destacando en expresión artística y comprensión de instrucciones
También se puede ver en esta comparativa con Nano Banana en un blog
FLUX.2 [dev] puede correr en local en GPUs RTX con versión optimizada en fp8
Está bien que mantengan los pesos abiertos, pero el modelo creció de 12B a 32B y eso hace que el uso local sea pesado
Están esperando una versión distill
el encoder de texto ocupa 48GB y el modelo generativo 64GB, sumando más de 100GB en total
Eso representa una barrera de entrada fuerte para usuarios locales
En esta versión, el encoder de texto es Mistral-Small-3.2-24B-Instruct-2506, mejor que la combinación anterior de CLIP/T5, pero enorme
Si hubieran esperado a lanzar un modelo distill bajo Apache 2.0, probablemente se habría diferenciado mejor frente a Nano Banana
La estructura de precios también es curiosa: la entrada cuesta $0.015 por MP, y la salida $0.03 por el primer MP y luego $0.015 por MP
Qué bueno que ya haya un competidor para Nano Banana Pro
Eso ayuda a mantener la competencia de precios
No se puede suscribir a Google, OpenAI ni Claude
Por cierto, la versión open source de FLUX.2-DEV no permite uso comercial
Texto completo de la licencia
Compararon Nano Banana Pro y Flux 2 Pro con el prompt “family guy cyberpunk 2077”,
y el modelo de Google encajó mejor con la escena del juego, mientras que Flux se sentía demasiado realista
Flux 2 Pro mostró una tendencia parecida
Aun así, con el ecosistema de LoRA y dedicando tiempo al ajuste, Flux 1 Dev sigue siendo fuerte para el estilizado creativo
Hay una versión 18GB 4bit quant disponible en diffusers, así que puede correrse incluso en entornos de VRAM baja