5 puntos por GN⁺ 2026-01-19 | 2 comentarios | Compartir por WhatsApp
  • FLUX.2 [klein] es una familia de modelos de generación visual ultrarrápidos que integra generación y edición de imágenes, con velocidad de inferencia inferior a 1 segundo y compatibilidad con GPUs de consumo
  • Admite texto a imagen, edición de imágenes y generación con múltiples referencias en una arquitectura unificada, manteniendo una calidad al nivel de modelos grandes
  • El modelo 9B se publica bajo licencia FLUX NCL y el modelo 4B bajo licencia Apache 2.0, lo que facilita el acceso para desarrolladores y la personalización
  • Las versiones cuantizadas FP8 y NVFP4 se desarrollaron en colaboración con NVIDIA, reduciendo el uso de VRAM hasta en 55% y mejorando la velocidad hasta 2.7 veces
  • Es un paso hacia la visión de “inteligencia visual interactiva”, orientada a la generación en tiempo real y la interacción, con aplicación en herramientas de diseño y creación de contenido en tiempo real

Resumen de FLUX.2 [klein]

  • FLUX.2 [klein] es la familia de modelos de generación de imágenes más rápida presentada por Black Forest Labs, que unifica generación y edición en una sola estructura
    • La velocidad de inferencia de extremo a extremo es de menos de 1 segundo, generando imágenes de alta calidad en tiempo real
    • Puede ejecutarse con solo 13 GB de VRAM, por lo que funciona también en GPUs como RTX 3090/4070
  • El nombre del modelo, “klein”, significa “pequeño” en alemán y hace referencia a una arquitectura compacta y baja latencia
    • Aun así, su rendimiento es comparable al de modelos grandes, y admite generación de texto a imagen, edición y generación con múltiples referencias

Características principales

  • Permite generar o editar imágenes con una inferencia de menos de 0.5 segundos
  • Ofrece realismo a nivel fotográfico y alta diversidad
  • Su arquitectura de modelo unificada permite realizar tareas de texto a imagen, imagen a imagen y múltiples referencias en un solo modelo
  • Compatibilidad con GPUs de consumo: el modelo 4B funciona con alrededor de 13 GB de VRAM
  • Mayor facilidad para desarrolladores: el modelo 4B se publica bajo Apache 2.0 y el 9B bajo FLUX NCL
  • Con API y pesos abiertos, permite tanto ejecución local como despliegue en producción

Configuración de modelos

FLUX.2 [klein] 9B

  • Es el modelo principal, definido para equilibrar calidad y latencia
    • En texto a imagen, edición con una sola referencia y generación con múltiples referencias, ofrece un rendimiento igual o superior al de modelos 5 veces más grandes
    • Velocidad de inferencia de menos de 0.5 segundos
    • Basado en un modelo de flujo 9B y un text embedder Qwen3 8B
    • Estructura de inferencia de 4 pasos (step-distilled) para maximizar la eficiencia
  • Licencia: FLUX NCL

FLUX.2 [klein] 4B

  • Modelo completamente abierto bajo licencia Apache 2.0
    • Puede ejecutarse en GPUs de consumo como RTX 3090/4070
    • Admite texto a imagen (T2I), imagen a imagen (I2I) y generación con múltiples referencias
    • Aunque es pequeño, ofrece alta calidad en relación con su tamaño
    • Adecuado para desarrollo local y despliegue en el edge

FLUX.2 [klein] Base 9B / 4B

  • Versiones no destiladas (full-capacity) que preservan por completo la señal de entrenamiento
    • Adecuadas para fine-tuning, entrenamiento con LoRA y pipelines de investigación
    • Tienen mayor diversidad de salida que los modelos destilados
  • Licencia: Base 4B usa Apache 2.0 y Base 9B usa FLUX NCL

Versiones cuantizadas

  • Se publicaron versiones FP8 y NVFP4 en colaboración con NVIDIA
    • FP8: hasta 1.6 veces más rápida y 40% menos VRAM
    • NVFP4: hasta 2.7 veces más rápida y 55% menos VRAM
    • Benchmark T2I de 1024×1024 realizado sobre RTX 5080/5090
  • Se mantiene el mismo esquema de licencias: 4B usa Apache 2.0 y 9B usa FLUX NCL

Análisis de rendimiento

  • FLUX.2 [klein] logra una calidad igual o superior a Qwen, con menor latencia y menor uso de VRAM
  • Muestra mejor rendimiento que Z-Image y admite texto a imagen y edición con múltiples referencias en un solo modelo
  • La versión Base es algo más lenta, pero tiene mayor capacidad de personalización y afinidad para investigación
  • Las mediciones de velocidad se realizaron en entorno GB200 (bf16)

Visión de inteligencia visual interactiva

  • FLUX.2 [klein] va más allá de una simple mejora de velocidad y representa un avance hacia una inteligencia visual interactiva en tiempo real
  • Apunta a un sistema en el que la IA puede ver, crear e iterar
  • Esto abre nuevas aplicaciones como herramientas de diseño en tiempo real, razonamiento visual y creación de contenido interactivo

Recursos y vías de acceso


2 comentarios

 
yangeok 2026-01-19

Ah, entonces en Mac no va a funcionar. Dice No GPU or XPU found jaja,,

 
GN⁺ 2026-01-19
Comentarios de Hacker News
  • Todavía no he podido agregar Klein a mi sitio GenAI Showdown
    Pero si es parecido a Z-Image Turbo, probablemente el rendimiento será muy bueno
    Como referencia, Z-Image Turbo obtuvo 4 puntos de 15, lo cual es bastante impresionante si se considera que Flux.2 (32b), un modelo mucho más grande, solo obtuvo 1 punto más
    La comparación de modelos locales se puede ver aquí

    • En móvil hay un problema donde, al tocar la burbuja de información, desaparece de inmediato. Ya pedí que lo arreglaran
    • Creo que hay problemas con la forma de hacer las pruebas. Los modelos grandes tienen una capacidad de aprendizaje mucho más sofisticada y una mejor comprensión del renderizado CGI
      Las pruebas basadas en datos estructurados pueden dar una falsa confianza. A estas alturas, el simple text-to-image ya no es un buen benchmark
  • Sorprende ver que los modelos siguen haciéndose más pequeños mientras mejoran en calidad y eficiencia
    Z-Image Turbo es realmente impresionante, y tengo muchas ganas de probar este modelo también
    Un hilo anterior relacionado se puede ver aquí

    • Parece que incluso los modelos pequeños tienen un momento en que alcanzan una masa crítica
      Un modelo de 100 GB es difícil de descargar y ejecutar, pero uno de 4 GB puede ser probado de inmediato por la mayoría de los desarrolladores
    • La calidad está mejorando, pero los modelos pequeños todavía carecen de cantidad de conocimiento frente a los modelos grandes (Qwen Image, Flux 2 Full)
      La diferencia es especialmente grande al representar personas, artistas y objetos específicos
    • Me pregunto si existe una cantidad mínima de parámetros necesaria para una calidad de salida determinada
      Después de GPT 3.5, Deepseek entrenó con un costo mucho menor, y ahora ya corren en laptops modelos que superan a 3.5. Me pregunto hasta dónde se puede reducir
  • Este modelo no puede generar una imagen de un pogo stick
    Intenté hacer una imagen de “un tigre saltando sobre un pogo stick”, pero ni siquiera pudo generar el pogo stick en sí

    • Incluso si le das la imagen de una copa de vino vacía y le pides que la llene con vino, falla
      Este tipo de manipulación física todavía está fuera del alcance del modelo, así que los trabajos relacionados probablemente seguirán siendo seguros por un tiempo
    • Es una prueba difícil para los modelos locales. gpt-image y NB no tuvieron problema, pero solo Qwen-Image dio un resultado cercano
      Se pueden ver muestras de varios modelos aquí
      Los modelos pequeños necesitan prompts adicionales para representar objetos concretos como un “pogo stick”
    • Incluso dándole una imagen de referencia sigue fallando.
      Si el modelo tuviera suficiente capacidad de razonamiento, podría complementar su conocimiento con imágenes de referencia externas, pero todavía le falta
    • Es un buen prompt para benchmark. Z-Image Turbo tampoco dibuja bien un pogo stick
      Ejemplo del tigre, esto no es un pogo stick, ejemplo de Nano Banana Pro
  • Se dice que FLUX.2 [klein] 4B es la versión más rápida de la familia Klein, diseñada para vista previa en tiempo real o para entornos de producción sensibles a la latencia
    Me pregunto qué tipo de situaciones serían esas

    • Cuando uso modelos locales, no quiero esperar 10 minutos para generar una sola imagen
      Especialmente en tareas de edición de imágenes, la velocidad es importante
    • Probablemente sea adecuado para edición rápida de imágenes
  • Al principio pensé que hablaban de la app F.lux, la que vuelve la pantalla más anaranjada por la noche
    Hoy en día ya viene como función integrada en todos los sistemas operativos, así que ya no hace falta

  • Si vemos los modelos GenAI como implementaciones comprimidas, el texto se comprime bien, pero las imágenes y el video no tanto
    Aun así, los modelos modernos de text-to-image y text-to-video son mucho más pequeños que LLM como Llama-3
    Eso podría deberse a que solo hemos entrenado la estrecha zona antropocéntrica del mundo visual. Todavía hay mucho espacio de combinaciones visuales sin explorar

    • El texto puede comprimirse sin pérdida, pero las imágenes y el video tienen mucho ruido, así que la comparación directa es injusta
      Si hablamos de compresión con pérdida en un nivel que los humanos no puedan distinguir, las imágenes podrían incluso ser más eficientes
    • En la práctica, las imágenes y el video se comprimen mucho mejor que el texto
      El texto está más bien en el rango de 4:1 a 6:1, mientras que las imágenes pueden ser visualmente sin pérdida incluso por encima de 10:1, y el video es todavía más eficiente gracias a la coherencia temporal
    • Creo que en los LLM todavía hay mucho margen para mejorar la eficiencia
      Al mismo tiempo, tampoco hay que subestimar la cantidad de metaconocimiento que los LLM contienen de forma implícita
  • Me pregunto si alguien ya probó Flux 2 Klein
    Yo ya no persigo cada modelo nuevo; estoy construyendo toda una app solo con Nano Banana Pro
    El resultado me deja suficientemente satisfecho
    picxstudio.com

  • Me divertí muchísimo con Flux 1 y ahora estoy jugando con Z-Image Turbo
    Cuando agreguen Flux2 Klein a Invoke, pienso probarlo

    • De acuerdo. La experiencia de usar ZIT en Invoke fue excelente
  • Me pregunto cómo será su capacidad de interacción en comparación con la versión de GPT

  • Me gusta que, aunque sea una versión pequeña, se haya publicado como código abierto
    Eso abre muchas oportunidades porque se puede ejecutar sin un presupuesto enorme
    La mejora en velocidad también es bastante impresionante