4 puntos por GN⁺ 2025-08-02 | 1 comentarios | Compartir por WhatsApp
  • El primer modelo de imágenes de Krea 1 se lanzó como la versión de pesos abiertos llamada FLUX.1 Krea
  • A diferencia de los modelos de generación de imágenes existentes, fue diseñado para centrarse en gustos estéticos claros y fotorrealismo, con el objetivo de crear imágenes que no se vean "como de IA"
  • Analizaron que los benchmarks y métricas de evaluación existentes se desalinean del sentido estético que desean los usuarios reales y, para resolverlo, aplican datos curados directamente y un sesgo estético con enfoque de preferencias
  • Separaron los procesos de pre-entrenamiento (pre-training) y post-entrenamiento (post-training) y operan de forma sistemática una fase que garantiza la diversidad y otra que converge hacia un estilo definido
  • En el futuro, planean reforzar la investigación de personalización y ajuste a gustos, así como expandir los dominios visuales y fortalecer funciones de apoyo para creadores

Lanzamiento open source de FLUX.1 Krea

  • Krea 1 es el primer modelo generador de imágenes entrenado en conjunto con Black Forest Labs, con el objetivo de lograr un alto nivel de control estético y calidad de imagen
  • FLUX.1 Krea [dev] se publica con pesos abiertos y es completamente compatible con el ecosistema FLUX.1-dev existente
  • Este modelo maximiza el fotorrealismo y los elementos estéticos, y está orientado a opinionated aesthetics, diseñado para reflejar preferencias estéticas específicas

El fenómeno y las limitaciones de "AI look"

  • Las imágenes generadas por IA suelen mostrar lo que se conoce como "AI look", con fondos excesivamente borrosos, piel con aspecto de cera y composiciones monótonas
  • Al priorizar la optimización de benchmarks y métricas técnicas, se sacrifican la textura realista, la diversidad de estilo y los resultados creativos
  • Limitaciones de los modelos de evaluación existentes que no reflejan el gusto real del usuario
    • En la etapa de preentrenamiento, métricas como Fréchet Inception Distance (FID) y CLIP Score son útiles para medir el rendimiento general del modelo
    • En la academia y la industria se usan distintos benchmarks como DPG, GenEval, T2I-Compbench, GenAI-Bench, pero en general solo evalúan la adherencia al prompt, relaciones espaciales y combinación de atributos
    • Como métricas estéticas se usan LAION-Aesthetics, Pickscore, ImageReward, HPSv2, aunque la mayoría se basan en CLIP y tienen limitaciones de resolución y número de parámetros
    • Por ejemplo, LAION-Aesthetics tiene tendencia a favorecer imágenes de mujeres, fondos difusos y colores brillantes; filtrar datos con ese criterio puede introducir un sesgo implícito en el modelo
  • Los modelos y filtros de evaluación estética son útiles para descartar imágenes malas, pero si se depende demasiado de ellos para seleccionar datos de entrenamiento, existe riesgo de que el sesgo se incruste en el propio modelo
  • Aunque aparecen métricas basadas en modelos vision-language de última generación, la preferencia estética sigue siendo subjetiva y es difícil reducirla a un único valor numérico

Estructura de pre-entrenamiento (Pre-training) y post-entrenamiento (Post-training)

  • Pre-entrenamiento (Pre-training)

    • En el pre-entrenamiento, el modelo adquiere ampliamente conocimiento del mundo visual (estilos, objetos, personas, lugares) y maximiza la cobertura de modos (mode coverage)
    • Se incluyen datos "no buenos" para que el modelo también aprenda características no deseadas (por ejemplo, dedos extraños, desenfoque, etc.)
    • El pre-entrenamiento determina el límite superior de calidad del modelo y su diversidad de estilo
  • Post-entrenamiento (Post-training)

    • En el post-entrenamiento, se lleva la distribución del modelo hacia un estilo preferido (mode collapsing) para converger a una dirección estética clara en lugar de "AI look"
    • Se realiza en 2 etapas: Supervised Finetuning (SFT) y RLHF (aprendizaje por refuerzo con retroalimentación de preferencias)
      • SFT: uso de un conjunto de datos de alta calidad curado directamente y de imágenes sintéticas de Krea-1
      • RLHF: optimización repetida con datos internos de preferencias para afinar con detalle la estética y el estilo
    • Se confirma que la calidad de los datos, más que su cantidad, es determinante (con menos de 1M de datos de alta calidad es suficiente)
    • Se aplica una aproximación opinionated con etiquetas de preferencia estética para evitar que, al usar solo datos públicos de preferencias, el modelo se vuelva monótono y regrese al AI look

Pipeline del modelo y hallazgos experimentales

  • Se usa el modelo base flux-dev-raw, un modelo de 12B parámetros con guidance-distilled, para diferenciarse de modelos open de overfitting excesivo por finetuning
  • En la fase RLHF se aplica la técnica TPO (preference optimization) para reforzar la percepción estética y características estilizadas
  • Se utiliza varias veces un conjunto interno de datos de preferencias de alta calidad (con filtrado estricto) para calibrar con precisión las salidas del modelo
  • Hallazgos principales

    • 1. La calidad de los datos es más importante que la cantidad. Se puede hacer un post-entrenamiento significativo con menos de 1M de datos. La diversidad cuantitativa es útil para reducir sesgos y mejorar la estabilidad, pero lo más importante es un conjunto de datos curado de alta calidad
    • 2. Es necesario recopilar datos centrados en preferencias claras. Los datasets públicos masivos pueden causar sesgos no intencionales, regresión al "AI look" y sesgos hacia composición y color simples
      • Para objetivos objetivos como renderizado de texto, anatomía y estructura, la diversidad de datos ayuda, pero para objetivos subjetivos como la estética, los datos especializados son más eficientes que una mezcla
      • Al mezclar muchas distribuciones de gusto estético, suele obtenerse un resultado que no satisface a nadie, y se menciona además que muchos usuarios terminan dependiendo de métodos de postprocesamiento como LoRA

Dirección futura de investigación y cierre

  • Krea 1 es el primer paso para creadores que priorizan criterios estéticos y calidad, y se espera ampliar la comunidad open source
  • En adelante se busca ofrecer modelos alineados con el gusto estético del usuario mediante fortalecimiento de capacidades clave, soporte de más dominios visuales y estudios de personalización y controlabilidad
  • Consulta GitHub ( https://github.com/krea-ai/flux-krea )

1 comentarios

 
GN⁺ 2025-08-02
Opiniones de Hacker News
  • Hola a todos, un gusto. Soy cofundador y CTO de Krea. Desde hace tiempo quería liberar los pesos de nuestro modelo y compartirlos con la comunidad de HN. Hoy voy a intentar estar en línea la mayor parte del día para responder cualquier duda que tengan.
    • Me pregunto si tienen planes de dar soporte a la versión Flux "Kontext", es decir, al modelo de edición. El potencial del editing de imágenes basado en prompts parece enorme. Aunque todavía no he visto la calidad de la versión open-weight, la demo fue muy impresionante. Según entiendo, este modelo también es de 12B.
    • Me da curiosidad cuál es el objetivo de hacer esta publicación. Quisiera saber si hay una meta de negocio detrás o si de verdad es puramente una contribución.
    • Hace falta un modelo que también soporte idiomas distintos del inglés.
    • Tengo curiosidad sobre cómo resuelven en la práctica este conflicto en el ejemplo de P(.|photo) vs P(.|minimal). En mi opinión, el fotorrealismo debería ser el valor por defecto. Por ejemplo, si un usuario escribe "un gato leyendo un libro", lo correcto sería que saliera un gato real leyendo un libro, no un estilo de IA o una ilustración. Si no hay más contexto, siento que lo natural es interpretar "gato" como un gato realista. Si el usuario quiere otro estilo, como ilustración, ¿no debería especificarlo claramente en el prompt? Me pregunto si hay algún matiz que se me esté escapando.
  • Buena publicación. Hice una prueba rápida con el modelo Krea 12b Txt2Img. Lo más destacado es la velocidad (y probablemente también el realismo). Pero, unsurprisingly, no obtuvo una puntuación más alta que el modelo general Flux.1D en <i>prompt adherence</i>. Los resultados se pueden ver en https://genai-showdown.specr.net. Por otro lado, parece que Wan 2.2+ podría jugar un papel importante en T2I en adelante, aunque puede que haga falta muchísimo LoRA para compensar la falta de diversidad de imágenes.
    • ¿Podrías compartir la URL donde se pueden ver los resultados de tu prueba? Y como referencia, este modelo se enfocó más en la <i>aesthetics</i> que en perseguir únicamente la exactitud del prompt. No lo digo como excusa por las muestras flojas, sino para destacar que era uno de los objetivos de investigación. Si quieres eliminar ese estilo particular al que llaman "flux look", es un trade-off que necesariamente hay que considerar. Y también he visto gente que genera una imagen base con Wan 2.2 y luego la refina con Krea; es un enfoque bastante interesante.
  • ¡Hola! Soy el investigador principal de Krea-1 FLUX.1. Krea es un Rectified Flow Model de 12B destilado a partir de Krea-1, y fue diseñado para ser compatible con la arquitectura FLUX. Si tienen preguntas técnicas, las puedo responder.
    • Vengo del mundo de la producción tradicional de medios. Dividir el contenido en varias capas y combinarlas es clave para controlar costos y calidad. Pero la forma actual de generar imágenes, video y audio con IA no soporta esto. ForgeUI lo soportó brevemente, pero lo descontinuaron. Creo que es porque no entienden los requerimientos reales de una producción de medios a gran escala. Me pregunto si en su equipo hay gente con experiencia real en VFX para cine, anuncios animados o producciones de millones de dólares. Si quieren tener éxito, de verdad necesitan soportar los flujos de trabajo tradicionales de producción de medios. Las herramientas actuales de IA no se integran en absoluto con las herramientas ni con las expectativas de producción, y por eso no se adoptan en el terreno.
    • La calidad del modelo es realmente excelente. En particular, me impresionó la parte de "flux-dev-raw es un guidance distilled model, así que creamos una función de pérdida personalizada y afinamos directamente sobre la distribución classifier-free guided". Si puedes explicar eso con más detalle y compartir consejos de fine-tuning, me encantaría leerlo. En la comunidad open source de arte con IA también hay mucha curiosidad porque el fine-tuning del flux-dev destilado original es muy difícil.
    • Muchas gracias por este esfuerzo. ¿Podrías explicar qué significa exactamente eso de que "fue diseñado para ser compatible con la arquitectura FLUX" y por qué es importante?
  • No me termina de cuadrar que un archivo safetensor de 23.8GB corresponda a un modelo de 12B parámetros. Yo pensaba que 1B de parámetros requería 1GB de VRAM, así que me pregunto si este modelo usa 24GB de VRAM o 12GB, o si mi idea está equivocada.
    • Si haces la cuenta en bfloat16, 1B x 16bit = 2GB, así que para 12B sí, son casi 24GB. Se subió en bfloat16 porque bajar de float32 a bfloat16 casi no implica pérdida de rendimiento.
    • El tamaño de float por parámetro varía. Muchos modelos se distribuyen en FP8 (8bit/parámetro), pero este está en FP16 (16bit). A menudo se entrenan en FP16 y luego se cuantizan a FP8 o FP4 para su distribución.
    • Un modelo cuantizado a 8bit puede verse como 1B=1GB, pero en 16bit o 32bit necesitas de 2 a 4 veces más.
  • Obtuve un resultado curioso con un prompt simple: "Octopus DJ spinning the turntables at a rave." Me llamó la atención la mano humana que le aparece al DJ. No logré quitar esa mano por más prompts que probé. Tal como menciona el paper, definitivamente es opinionated.
    • Cuando puse el prompt "Octopus DJ with no fingers", la mano desapareció, pero al mismo tiempo desaparecieron todas las características humanas del pulpo y solo quedó un pulpo puro manejando las tornamesas.
  • La imagen que siempre quiero generar es una Galton board. En la parte superior hay dos orificios algo separados de donde caen bolas, una azul y otra roja. Abajo, la distribución combinada de ambos colores muestra que la columna es una distribución normal bimodal. Imagen de referencia: https://imgur.com/a/DiAOTzJ (dos boquillas en la parte superior). Resultados reales de intento: https://imgur.com/undefined, https://imgur.com/a/uecXDzI
    • ¿Has intentado construir una en la vida real? No he podido encontrar un video de una double Galton board.
  • hey hn! Soy cofundador de Krea. Tenemos una entrada de blog donde resumimos cómo entrenamos FLUX Krea, por si quieren profundizar más: https://www.krea.ai/blog/flux-krea-open-source-release
    • Pregunta fuera de tema, pero ¿de verdad ocultaron la barra de desplazamiento en el sitio web? No entiendo por qué harían eso.
      .scrollbar-hide {
        -ms-overflow-style: none;
        scrollbar-width: none;
      }
      
  • Me pregunto si van a ofrecer una versión optimizada para NVIDIA. Como FLUX.1 Kontext acelerado con RTX: https://blogs.nvidia.com/blog/rtx-ai-garage-flux-kontext-nim-tensorrt/
    • No hicimos una versión RTX acelerada específica para FLUX.1 Krea. Pero el modelo es totalmente compatible con el codebase existente de FLUX.1 dev. Al parecer no hay un ONNX export separado. Un buen siguiente paso sería tener checkpoints cuantizados con SVDQuant de 4~8bit para que sean más amigables con hardware más común.
  • Enlaces de referencia:
  • Recomiendo ofrecer una ruta bien documentada para que las empresas puedan licenciar claramente el uso comercial cuando obtengan los resultados que quieren (¡ya lo verán pronto!).