Publicación de los pesos de FLUX.1 Krea

(krea.ai)

4 puntos por GN⁺ 2025-08-02 | Aún no hay comentarios. | Compartir por WhatsApp

El primer modelo de imágenes de Krea 1 se lanzó como la versión de pesos abiertos llamada FLUX.1 Krea
A diferencia de los modelos de generación de imágenes existentes, fue diseñado para centrarse en gustos estéticos claros y fotorrealismo, con el objetivo de crear imágenes que no se vean "como de IA"
Analizaron que los benchmarks y métricas de evaluación existentes se desalinean del sentido estético que desean los usuarios reales y, para resolverlo, aplican datos curados directamente y un sesgo estético con enfoque de preferencias
Separaron los procesos de pre-entrenamiento (pre-training) y post-entrenamiento (post-training) y operan de forma sistemática una fase que garantiza la diversidad y otra que converge hacia un estilo definido
En el futuro, planean reforzar la investigación de personalización y ajuste a gustos, así como expandir los dominios visuales y fortalecer funciones de apoyo para creadores

Lanzamiento open source de FLUX.1 Krea

Krea 1 es el primer modelo generador de imágenes entrenado en conjunto con Black Forest Labs, con el objetivo de lograr un alto nivel de control estético y calidad de imagen
FLUX.1 Krea [dev] se publica con pesos abiertos y es completamente compatible con el ecosistema FLUX.1-dev existente
Este modelo maximiza el fotorrealismo y los elementos estéticos, y está orientado a opinionated aesthetics, diseñado para reflejar preferencias estéticas específicas

El fenómeno y las limitaciones de "AI look"

Las imágenes generadas por IA suelen mostrar lo que se conoce como "AI look", con fondos excesivamente borrosos, piel con aspecto de cera y composiciones monótonas
Al priorizar la optimización de benchmarks y métricas técnicas, se sacrifican la textura realista, la diversidad de estilo y los resultados creativos
Limitaciones de los modelos de evaluación existentes que no reflejan el gusto real del usuario
- En la etapa de preentrenamiento, métricas como Fréchet Inception Distance (FID) y CLIP Score son útiles para medir el rendimiento general del modelo
- En la academia y la industria se usan distintos benchmarks como DPG, GenEval, T2I-Compbench, GenAI-Bench, pero en general solo evalúan la adherencia al prompt, relaciones espaciales y combinación de atributos
- Como métricas estéticas se usan LAION-Aesthetics, Pickscore, ImageReward, HPSv2, aunque la mayoría se basan en CLIP y tienen limitaciones de resolución y número de parámetros
- Por ejemplo, LAION-Aesthetics tiene tendencia a favorecer imágenes de mujeres, fondos difusos y colores brillantes; filtrar datos con ese criterio puede introducir un sesgo implícito en el modelo
Los modelos y filtros de evaluación estética son útiles para descartar imágenes malas, pero si se depende demasiado de ellos para seleccionar datos de entrenamiento, existe riesgo de que el sesgo se incruste en el propio modelo
Aunque aparecen métricas basadas en modelos vision-language de última generación, la preferencia estética sigue siendo subjetiva y es difícil reducirla a un único valor numérico

Estructura de pre-entrenamiento (Pre-training) y post-entrenamiento (Post-training)

Pre-entrenamiento (Pre-training)
- En el pre-entrenamiento, el modelo adquiere ampliamente conocimiento del mundo visual (estilos, objetos, personas, lugares) y maximiza la cobertura de modos (mode coverage)
- Se incluyen datos "no buenos" para que el modelo también aprenda características no deseadas (por ejemplo, dedos extraños, desenfoque, etc.)
- El pre-entrenamiento determina el límite superior de calidad del modelo y su diversidad de estilo
Post-entrenamiento (Post-training)
- En el post-entrenamiento, se lleva la distribución del modelo hacia un estilo preferido (mode collapsing) para converger a una dirección estética clara en lugar de "AI look"
- Se realiza en 2 etapas: Supervised Finetuning (SFT) y RLHF (aprendizaje por refuerzo con retroalimentación de preferencias)
  - SFT: uso de un conjunto de datos de alta calidad curado directamente y de imágenes sintéticas de Krea-1
  - RLHF: optimización repetida con datos internos de preferencias para afinar con detalle la estética y el estilo
- Se confirma que la calidad de los datos, más que su cantidad, es determinante (con menos de 1M de datos de alta calidad es suficiente)
- Se aplica una aproximación opinionated con etiquetas de preferencia estética para evitar que, al usar solo datos públicos de preferencias, el modelo se vuelva monótono y regrese al AI look

Pipeline del modelo y hallazgos experimentales

Se usa el modelo base flux-dev-raw, un modelo de 12B parámetros con guidance-distilled, para diferenciarse de modelos open de overfitting excesivo por finetuning
En la fase RLHF se aplica la técnica TPO (preference optimization) para reforzar la percepción estética y características estilizadas
Se utiliza varias veces un conjunto interno de datos de preferencias de alta calidad (con filtrado estricto) para calibrar con precisión las salidas del modelo
Hallazgos principales
- 1. La calidad de los datos es más importante que la cantidad. Se puede hacer un post-entrenamiento significativo con menos de 1M de datos. La diversidad cuantitativa es útil para reducir sesgos y mejorar la estabilidad, pero lo más importante es un conjunto de datos curado de alta calidad
- 2. Es necesario recopilar datos centrados en preferencias claras. Los datasets públicos masivos pueden causar sesgos no intencionales, regresión al "AI look" y sesgos hacia composición y color simples
  - Para objetivos objetivos como renderizado de texto, anatomía y estructura, la diversidad de datos ayuda, pero para objetivos subjetivos como la estética, los datos especializados son más eficientes que una mezcla
  - Al mezclar muchas distribuciones de gusto estético, suele obtenerse un resultado que no satisface a nadie, y se menciona además que muchos usuarios terminan dependiendo de métodos de postprocesamiento como LoRA

Dirección futura de investigación y cierre

Krea 1 es el primer paso para creadores que priorizan criterios estéticos y calidad, y se espera ampliar la comunidad open source
En adelante se busca ofrecer modelos alineados con el gusto estético del usuario mediante fortalecimiento de capacidades clave, soporte de más dominios visuales y estudios de personalización y controlabilidad
Consulta GitHub ( https://github.com/krea-ai/flux-krea )

Publicación de los pesos de FLUX.1 Krea

Lanzamiento open source de FLUX.1 Krea

El fenómeno y las limitaciones de "AI look"

Estructura de pre-entrenamiento (Pre-training) y post-entrenamiento (Post-training)

Pre-entrenamiento (Pre-training)

Post-entrenamiento (Post-training)

Pipeline del modelo y hallazgos experimentales

Hallazgos principales

Dirección futura de investigación y cierre

Lecturas relacionadas

Aún no hay comentarios.