FLUX.2 [klein]: hacia la inteligencia visual interactiva

(bfl.ai)

5 puntos por GN⁺ 2026-01-19 | 2 comentarios | Compartir por WhatsApp

FLUX.2 [klein] es una familia de modelos de generación visual ultrarrápidos que integra generación y edición de imágenes, con velocidad de inferencia inferior a 1 segundo y compatibilidad con GPUs de consumo
Admite texto a imagen, edición de imágenes y generación con múltiples referencias en una arquitectura unificada, manteniendo una calidad al nivel de modelos grandes
El modelo 9B se publica bajo licencia FLUX NCL y el modelo 4B bajo licencia Apache 2.0, lo que facilita el acceso para desarrolladores y la personalización
Las versiones cuantizadas FP8 y NVFP4 se desarrollaron en colaboración con NVIDIA, reduciendo el uso de VRAM hasta en 55% y mejorando la velocidad hasta 2.7 veces
Es un paso hacia la visión de “inteligencia visual interactiva”, orientada a la generación en tiempo real y la interacción, con aplicación en herramientas de diseño y creación de contenido en tiempo real

Resumen de FLUX.2 [klein]

FLUX.2 [klein] es la familia de modelos de generación de imágenes más rápida presentada por Black Forest Labs, que unifica generación y edición en una sola estructura
- La velocidad de inferencia de extremo a extremo es de menos de 1 segundo, generando imágenes de alta calidad en tiempo real
- Puede ejecutarse con solo 13 GB de VRAM, por lo que funciona también en GPUs como RTX 3090/4070
El nombre del modelo, “klein”, significa “pequeño” en alemán y hace referencia a una arquitectura compacta y baja latencia
- Aun así, su rendimiento es comparable al de modelos grandes, y admite generación de texto a imagen, edición y generación con múltiples referencias

Características principales

Permite generar o editar imágenes con una inferencia de menos de 0.5 segundos
Ofrece realismo a nivel fotográfico y alta diversidad
Su arquitectura de modelo unificada permite realizar tareas de texto a imagen, imagen a imagen y múltiples referencias en un solo modelo
Compatibilidad con GPUs de consumo: el modelo 4B funciona con alrededor de 13 GB de VRAM
Mayor facilidad para desarrolladores: el modelo 4B se publica bajo Apache 2.0 y el 9B bajo FLUX NCL
Con API y pesos abiertos, permite tanto ejecución local como despliegue en producción

Configuración de modelos

FLUX.2 [klein] 9B

Es el modelo principal, definido para equilibrar calidad y latencia
- En texto a imagen, edición con una sola referencia y generación con múltiples referencias, ofrece un rendimiento igual o superior al de modelos 5 veces más grandes
- Velocidad de inferencia de menos de 0.5 segundos
- Basado en un modelo de flujo 9B y un text embedder Qwen3 8B
- Estructura de inferencia de 4 pasos (step-distilled) para maximizar la eficiencia
Licencia: FLUX NCL

FLUX.2 [klein] 4B

Modelo completamente abierto bajo licencia Apache 2.0
- Puede ejecutarse en GPUs de consumo como RTX 3090/4070
- Admite texto a imagen (T2I), imagen a imagen (I2I) y generación con múltiples referencias
- Aunque es pequeño, ofrece alta calidad en relación con su tamaño
- Adecuado para desarrollo local y despliegue en el edge

FLUX.2 [klein] Base 9B / 4B

Versiones no destiladas (full-capacity) que preservan por completo la señal de entrenamiento
- Adecuadas para fine-tuning, entrenamiento con LoRA y pipelines de investigación
- Tienen mayor diversidad de salida que los modelos destilados
Licencia: Base 4B usa Apache 2.0 y Base 9B usa FLUX NCL

Versiones cuantizadas

Se publicaron versiones FP8 y NVFP4 en colaboración con NVIDIA
- FP8: hasta 1.6 veces más rápida y 40% menos VRAM
- NVFP4: hasta 2.7 veces más rápida y 55% menos VRAM
- Benchmark T2I de 1024×1024 realizado sobre RTX 5080/5090
Se mantiene el mismo esquema de licencias: 4B usa Apache 2.0 y 9B usa FLUX NCL

Análisis de rendimiento

FLUX.2 [klein] logra una calidad igual o superior a Qwen, con menor latencia y menor uso de VRAM
Muestra mejor rendimiento que Z-Image y admite texto a imagen y edición con múltiples referencias en un solo modelo
La versión Base es algo más lenta, pero tiene mayor capacidad de personalización y afinidad para investigación
Las mediciones de velocidad se realizaron en entorno GB200 (bf16)

Visión de inteligencia visual interactiva

FLUX.2 [klein] va más allá de una simple mejora de velocidad y representa un avance hacia una inteligencia visual interactiva en tiempo real
Apunta a un sistema en el que la IA puede ver, crear e iterar
Esto abre nuevas aplicaciones como herramientas de diseño en tiempo real, razonamiento visual y creación de contenido interactivo

Recursos y vías de acceso

Prueba: Demo, Playground
Hugging Face Space: klein 9B, klein 4B
Material para desarrolladores: documentación, GitHub, pesos del modelo
Más información: página oficial del modelo

2 comentarios

yangeok 2026-01-19

Ah, entonces en Mac no va a funcionar. Dice No GPU or XPU found jaja,,

GN⁺ 2026-01-19

Comentarios de Hacker News

Todavía no he podido agregar Klein a mi sitio GenAI Showdown
Pero si es parecido a Z-Image Turbo, probablemente el rendimiento será muy bueno
Como referencia, Z-Image Turbo obtuvo 4 puntos de 15, lo cual es bastante impresionante si se considera que Flux.2 (32b), un modelo mucho más grande, solo obtuvo 1 punto más
La comparación de modelos locales se puede ver aquí
- En móvil hay un problema donde, al tocar la burbuja de información, desaparece de inmediato. Ya pedí que lo arreglaran
- Creo que hay problemas con la forma de hacer las pruebas. Los modelos grandes tienen una capacidad de aprendizaje mucho más sofisticada y una mejor comprensión del renderizado CGI
  Las pruebas basadas en datos estructurados pueden dar una falsa confianza. A estas alturas, el simple text-to-image ya no es un buen benchmark
Sorprende ver que los modelos siguen haciéndose más pequeños mientras mejoran en calidad y eficiencia
Z-Image Turbo es realmente impresionante, y tengo muchas ganas de probar este modelo también
Un hilo anterior relacionado se puede ver aquí
- Parece que incluso los modelos pequeños tienen un momento en que alcanzan una masa crítica
  Un modelo de 100 GB es difícil de descargar y ejecutar, pero uno de 4 GB puede ser probado de inmediato por la mayoría de los desarrolladores
- La calidad está mejorando, pero los modelos pequeños todavía carecen de cantidad de conocimiento frente a los modelos grandes (Qwen Image, Flux 2 Full)
  La diferencia es especialmente grande al representar personas, artistas y objetos específicos
- Me pregunto si existe una cantidad mínima de parámetros necesaria para una calidad de salida determinada
  Después de GPT 3.5, Deepseek entrenó con un costo mucho menor, y ahora ya corren en laptops modelos que superan a 3.5. Me pregunto hasta dónde se puede reducir
Este modelo no puede generar una imagen de un pogo stick
Intenté hacer una imagen de “un tigre saltando sobre un pogo stick”, pero ni siquiera pudo generar el pogo stick en sí
- Incluso si le das la imagen de una copa de vino vacía y le pides que la llene con vino, falla
  Este tipo de manipulación física todavía está fuera del alcance del modelo, así que los trabajos relacionados probablemente seguirán siendo seguros por un tiempo
- Es una prueba difícil para los modelos locales. gpt-image y NB no tuvieron problema, pero solo Qwen-Image dio un resultado cercano
  Se pueden ver muestras de varios modelos aquí
  Los modelos pequeños necesitan prompts adicionales para representar objetos concretos como un “pogo stick”
- Incluso dándole una imagen de referencia sigue fallando.
  Si el modelo tuviera suficiente capacidad de razonamiento, podría complementar su conocimiento con imágenes de referencia externas, pero todavía le falta
- Es un buen prompt para benchmark. Z-Image Turbo tampoco dibuja bien un pogo stick
  Ejemplo del tigre, esto no es un pogo stick, ejemplo de Nano Banana Pro
Se dice que FLUX.2 [klein] 4B es la versión más rápida de la familia Klein, diseñada para vista previa en tiempo real o para entornos de producción sensibles a la latencia
Me pregunto qué tipo de situaciones serían esas
- Cuando uso modelos locales, no quiero esperar 10 minutos para generar una sola imagen
  Especialmente en tareas de edición de imágenes, la velocidad es importante
- Probablemente sea adecuado para edición rápida de imágenes
Al principio pensé que hablaban de la app F.lux, la que vuelve la pantalla más anaranjada por la noche
Hoy en día ya viene como función integrada en todos los sistemas operativos, así que ya no hace falta
Si vemos los modelos GenAI como implementaciones comprimidas, el texto se comprime bien, pero las imágenes y el video no tanto
Aun así, los modelos modernos de text-to-image y text-to-video son mucho más pequeños que LLM como Llama-3
Eso podría deberse a que solo hemos entrenado la estrecha zona antropocéntrica del mundo visual. Todavía hay mucho espacio de combinaciones visuales sin explorar
- El texto puede comprimirse sin pérdida, pero las imágenes y el video tienen mucho ruido, así que la comparación directa es injusta
  Si hablamos de compresión con pérdida en un nivel que los humanos no puedan distinguir, las imágenes podrían incluso ser más eficientes
- En la práctica, las imágenes y el video se comprimen mucho mejor que el texto
  El texto está más bien en el rango de 4:1 a 6:1, mientras que las imágenes pueden ser visualmente sin pérdida incluso por encima de 10:1, y el video es todavía más eficiente gracias a la coherencia temporal
- Creo que en los LLM todavía hay mucho margen para mejorar la eficiencia
  Al mismo tiempo, tampoco hay que subestimar la cantidad de metaconocimiento que los LLM contienen de forma implícita
Me pregunto si alguien ya probó Flux 2 Klein
Yo ya no persigo cada modelo nuevo; estoy construyendo toda una app solo con Nano Banana Pro
El resultado me deja suficientemente satisfecho
picxstudio.com
Me divertí muchísimo con Flux 1 y ahora estoy jugando con Z-Image Turbo
Cuando agreguen Flux2 Klein a Invoke, pienso probarlo
- De acuerdo. La experiencia de usar ZIT en Invoke fue excelente
Me pregunto cómo será su capacidad de interacción en comparación con la versión de GPT
Me gusta que, aunque sea una versión pequeña, se haya publicado como código abierto
Eso abre muchas oportunidades porque se puede ejecutar sin un presupuesto enorme
La mejora en velocidad también es bastante impresionante

FLUX.2 [klein]: hacia la inteligencia visual interactiva

Resumen de FLUX.2 [klein]

Características principales

Configuración de modelos

FLUX.2 [klein] 9B

FLUX.2 [klein] 4B

FLUX.2 [klein] Base 9B / 4B

Versiones cuantizadas

Análisis de rendimiento

Visión de inteligencia visual interactiva

Recursos y vías de acceso

Lecturas relacionadas

2 comentarios

Comentarios de Hacker News