- FLUX.2 [klein] es una familia de modelos de generación visual ultrarrápidos que integra generación y edición de imágenes, con velocidad de inferencia inferior a 1 segundo y compatibilidad con GPUs de consumo
- Admite texto a imagen, edición de imágenes y generación con múltiples referencias en una arquitectura unificada, manteniendo una calidad al nivel de modelos grandes
- El modelo 9B se publica bajo licencia FLUX NCL y el modelo 4B bajo licencia Apache 2.0, lo que facilita el acceso para desarrolladores y la personalización
- Las versiones cuantizadas FP8 y NVFP4 se desarrollaron en colaboración con NVIDIA, reduciendo el uso de VRAM hasta en 55% y mejorando la velocidad hasta 2.7 veces
- Es un paso hacia la visión de “inteligencia visual interactiva”, orientada a la generación en tiempo real y la interacción, con aplicación en herramientas de diseño y creación de contenido en tiempo real
Resumen de FLUX.2 [klein]
- FLUX.2 [klein] es la familia de modelos de generación de imágenes más rápida presentada por Black Forest Labs, que unifica generación y edición en una sola estructura
- La velocidad de inferencia de extremo a extremo es de menos de 1 segundo, generando imágenes de alta calidad en tiempo real
- Puede ejecutarse con solo 13 GB de VRAM, por lo que funciona también en GPUs como RTX 3090/4070
- El nombre del modelo, “klein”, significa “pequeño” en alemán y hace referencia a una arquitectura compacta y baja latencia
- Aun así, su rendimiento es comparable al de modelos grandes, y admite generación de texto a imagen, edición y generación con múltiples referencias
Características principales
- Permite generar o editar imágenes con una inferencia de menos de 0.5 segundos
- Ofrece realismo a nivel fotográfico y alta diversidad
- Su arquitectura de modelo unificada permite realizar tareas de texto a imagen, imagen a imagen y múltiples referencias en un solo modelo
- Compatibilidad con GPUs de consumo: el modelo 4B funciona con alrededor de 13 GB de VRAM
- Mayor facilidad para desarrolladores: el modelo 4B se publica bajo Apache 2.0 y el 9B bajo FLUX NCL
- Con API y pesos abiertos, permite tanto ejecución local como despliegue en producción
Configuración de modelos
FLUX.2 [klein] 9B
- Es el modelo principal, definido para equilibrar calidad y latencia
- En texto a imagen, edición con una sola referencia y generación con múltiples referencias, ofrece un rendimiento igual o superior al de modelos 5 veces más grandes
- Velocidad de inferencia de menos de 0.5 segundos
- Basado en un modelo de flujo 9B y un text embedder Qwen3 8B
- Estructura de inferencia de 4 pasos (step-distilled) para maximizar la eficiencia
- Licencia: FLUX NCL
FLUX.2 [klein] 4B
- Modelo completamente abierto bajo licencia Apache 2.0
- Puede ejecutarse en GPUs de consumo como RTX 3090/4070
- Admite texto a imagen (T2I), imagen a imagen (I2I) y generación con múltiples referencias
- Aunque es pequeño, ofrece alta calidad en relación con su tamaño
- Adecuado para desarrollo local y despliegue en el edge
FLUX.2 [klein] Base 9B / 4B
- Versiones no destiladas (full-capacity) que preservan por completo la señal de entrenamiento
- Adecuadas para fine-tuning, entrenamiento con LoRA y pipelines de investigación
- Tienen mayor diversidad de salida que los modelos destilados
- Licencia: Base 4B usa Apache 2.0 y Base 9B usa FLUX NCL
Versiones cuantizadas
- Se publicaron versiones FP8 y NVFP4 en colaboración con NVIDIA
- FP8: hasta 1.6 veces más rápida y 40% menos VRAM
- NVFP4: hasta 2.7 veces más rápida y 55% menos VRAM
- Benchmark T2I de 1024×1024 realizado sobre RTX 5080/5090
- Se mantiene el mismo esquema de licencias: 4B usa Apache 2.0 y 9B usa FLUX NCL
Análisis de rendimiento
- FLUX.2 [klein] logra una calidad igual o superior a Qwen, con menor latencia y menor uso de VRAM
- Muestra mejor rendimiento que Z-Image y admite texto a imagen y edición con múltiples referencias en un solo modelo
- La versión Base es algo más lenta, pero tiene mayor capacidad de personalización y afinidad para investigación
- Las mediciones de velocidad se realizaron en entorno GB200 (bf16)
Visión de inteligencia visual interactiva
- FLUX.2 [klein] va más allá de una simple mejora de velocidad y representa un avance hacia una inteligencia visual interactiva en tiempo real
- Apunta a un sistema en el que la IA puede ver, crear e iterar
- Esto abre nuevas aplicaciones como herramientas de diseño en tiempo real, razonamiento visual y creación de contenido interactivo
Recursos y vías de acceso
2 comentarios
Ah, entonces en Mac no va a funcionar. Dice
No GPU or XPU foundjaja,,Comentarios de Hacker News
Todavía no he podido agregar Klein a mi sitio GenAI Showdown
Pero si es parecido a Z-Image Turbo, probablemente el rendimiento será muy bueno
Como referencia, Z-Image Turbo obtuvo 4 puntos de 15, lo cual es bastante impresionante si se considera que Flux.2 (32b), un modelo mucho más grande, solo obtuvo 1 punto más
La comparación de modelos locales se puede ver aquí
Las pruebas basadas en datos estructurados pueden dar una falsa confianza. A estas alturas, el simple text-to-image ya no es un buen benchmark
Sorprende ver que los modelos siguen haciéndose más pequeños mientras mejoran en calidad y eficiencia
Z-Image Turbo es realmente impresionante, y tengo muchas ganas de probar este modelo también
Un hilo anterior relacionado se puede ver aquí
Un modelo de 100 GB es difícil de descargar y ejecutar, pero uno de 4 GB puede ser probado de inmediato por la mayoría de los desarrolladores
La diferencia es especialmente grande al representar personas, artistas y objetos específicos
Después de GPT 3.5, Deepseek entrenó con un costo mucho menor, y ahora ya corren en laptops modelos que superan a 3.5. Me pregunto hasta dónde se puede reducir
Este modelo no puede generar una imagen de un pogo stick
Intenté hacer una imagen de “un tigre saltando sobre un pogo stick”, pero ni siquiera pudo generar el pogo stick en sí
Este tipo de manipulación física todavía está fuera del alcance del modelo, así que los trabajos relacionados probablemente seguirán siendo seguros por un tiempo
Se pueden ver muestras de varios modelos aquí
Los modelos pequeños necesitan prompts adicionales para representar objetos concretos como un “pogo stick”
Si el modelo tuviera suficiente capacidad de razonamiento, podría complementar su conocimiento con imágenes de referencia externas, pero todavía le falta
Ejemplo del tigre, esto no es un pogo stick, ejemplo de Nano Banana Pro
Se dice que FLUX.2 [klein] 4B es la versión más rápida de la familia Klein, diseñada para vista previa en tiempo real o para entornos de producción sensibles a la latencia
Me pregunto qué tipo de situaciones serían esas
Especialmente en tareas de edición de imágenes, la velocidad es importante
Al principio pensé que hablaban de la app F.lux, la que vuelve la pantalla más anaranjada por la noche
Hoy en día ya viene como función integrada en todos los sistemas operativos, así que ya no hace falta
Si vemos los modelos GenAI como implementaciones comprimidas, el texto se comprime bien, pero las imágenes y el video no tanto
Aun así, los modelos modernos de text-to-image y text-to-video son mucho más pequeños que LLM como Llama-3
Eso podría deberse a que solo hemos entrenado la estrecha zona antropocéntrica del mundo visual. Todavía hay mucho espacio de combinaciones visuales sin explorar
Si hablamos de compresión con pérdida en un nivel que los humanos no puedan distinguir, las imágenes podrían incluso ser más eficientes
El texto está más bien en el rango de 4:1 a 6:1, mientras que las imágenes pueden ser visualmente sin pérdida incluso por encima de 10:1, y el video es todavía más eficiente gracias a la coherencia temporal
Al mismo tiempo, tampoco hay que subestimar la cantidad de metaconocimiento que los LLM contienen de forma implícita
Me pregunto si alguien ya probó Flux 2 Klein
Yo ya no persigo cada modelo nuevo; estoy construyendo toda una app solo con Nano Banana Pro
El resultado me deja suficientemente satisfecho
picxstudio.com
Me divertí muchísimo con Flux 1 y ahora estoy jugando con Z-Image Turbo
Cuando agreguen Flux2 Klein a Invoke, pienso probarlo
Me pregunto cómo será su capacidad de interacción en comparación con la versión de GPT
Me gusta que, aunque sea una versión pequeña, se haya publicado como código abierto
Eso abre muchas oportunidades porque se puede ejecutar sin un presupuesto enorme
La mejora en velocidad también es bastante impresionante