4 puntos por GN⁺ 2025-08-02 | Aún no hay comentarios. | Compartir por WhatsApp
  • El primer modelo de imágenes de Krea 1 se lanzó como la versión de pesos abiertos llamada FLUX.1 Krea
  • A diferencia de los modelos de generación de imágenes existentes, fue diseñado para centrarse en gustos estéticos claros y fotorrealismo, con el objetivo de crear imágenes que no se vean "como de IA"
  • Analizaron que los benchmarks y métricas de evaluación existentes se desalinean del sentido estético que desean los usuarios reales y, para resolverlo, aplican datos curados directamente y un sesgo estético con enfoque de preferencias
  • Separaron los procesos de pre-entrenamiento (pre-training) y post-entrenamiento (post-training) y operan de forma sistemática una fase que garantiza la diversidad y otra que converge hacia un estilo definido
  • En el futuro, planean reforzar la investigación de personalización y ajuste a gustos, así como expandir los dominios visuales y fortalecer funciones de apoyo para creadores

Lanzamiento open source de FLUX.1 Krea

  • Krea 1 es el primer modelo generador de imágenes entrenado en conjunto con Black Forest Labs, con el objetivo de lograr un alto nivel de control estético y calidad de imagen
  • FLUX.1 Krea [dev] se publica con pesos abiertos y es completamente compatible con el ecosistema FLUX.1-dev existente
  • Este modelo maximiza el fotorrealismo y los elementos estéticos, y está orientado a opinionated aesthetics, diseñado para reflejar preferencias estéticas específicas

El fenómeno y las limitaciones de "AI look"

  • Las imágenes generadas por IA suelen mostrar lo que se conoce como "AI look", con fondos excesivamente borrosos, piel con aspecto de cera y composiciones monótonas
  • Al priorizar la optimización de benchmarks y métricas técnicas, se sacrifican la textura realista, la diversidad de estilo y los resultados creativos
  • Limitaciones de los modelos de evaluación existentes que no reflejan el gusto real del usuario
    • En la etapa de preentrenamiento, métricas como Fréchet Inception Distance (FID) y CLIP Score son útiles para medir el rendimiento general del modelo
    • En la academia y la industria se usan distintos benchmarks como DPG, GenEval, T2I-Compbench, GenAI-Bench, pero en general solo evalúan la adherencia al prompt, relaciones espaciales y combinación de atributos
    • Como métricas estéticas se usan LAION-Aesthetics, Pickscore, ImageReward, HPSv2, aunque la mayoría se basan en CLIP y tienen limitaciones de resolución y número de parámetros
    • Por ejemplo, LAION-Aesthetics tiene tendencia a favorecer imágenes de mujeres, fondos difusos y colores brillantes; filtrar datos con ese criterio puede introducir un sesgo implícito en el modelo
  • Los modelos y filtros de evaluación estética son útiles para descartar imágenes malas, pero si se depende demasiado de ellos para seleccionar datos de entrenamiento, existe riesgo de que el sesgo se incruste en el propio modelo
  • Aunque aparecen métricas basadas en modelos vision-language de última generación, la preferencia estética sigue siendo subjetiva y es difícil reducirla a un único valor numérico

Estructura de pre-entrenamiento (Pre-training) y post-entrenamiento (Post-training)

  • Pre-entrenamiento (Pre-training)

    • En el pre-entrenamiento, el modelo adquiere ampliamente conocimiento del mundo visual (estilos, objetos, personas, lugares) y maximiza la cobertura de modos (mode coverage)
    • Se incluyen datos "no buenos" para que el modelo también aprenda características no deseadas (por ejemplo, dedos extraños, desenfoque, etc.)
    • El pre-entrenamiento determina el límite superior de calidad del modelo y su diversidad de estilo
  • Post-entrenamiento (Post-training)

    • En el post-entrenamiento, se lleva la distribución del modelo hacia un estilo preferido (mode collapsing) para converger a una dirección estética clara en lugar de "AI look"
    • Se realiza en 2 etapas: Supervised Finetuning (SFT) y RLHF (aprendizaje por refuerzo con retroalimentación de preferencias)
      • SFT: uso de un conjunto de datos de alta calidad curado directamente y de imágenes sintéticas de Krea-1
      • RLHF: optimización repetida con datos internos de preferencias para afinar con detalle la estética y el estilo
    • Se confirma que la calidad de los datos, más que su cantidad, es determinante (con menos de 1M de datos de alta calidad es suficiente)
    • Se aplica una aproximación opinionated con etiquetas de preferencia estética para evitar que, al usar solo datos públicos de preferencias, el modelo se vuelva monótono y regrese al AI look

Pipeline del modelo y hallazgos experimentales

  • Se usa el modelo base flux-dev-raw, un modelo de 12B parámetros con guidance-distilled, para diferenciarse de modelos open de overfitting excesivo por finetuning
  • En la fase RLHF se aplica la técnica TPO (preference optimization) para reforzar la percepción estética y características estilizadas
  • Se utiliza varias veces un conjunto interno de datos de preferencias de alta calidad (con filtrado estricto) para calibrar con precisión las salidas del modelo
  • Hallazgos principales

    • 1. La calidad de los datos es más importante que la cantidad. Se puede hacer un post-entrenamiento significativo con menos de 1M de datos. La diversidad cuantitativa es útil para reducir sesgos y mejorar la estabilidad, pero lo más importante es un conjunto de datos curado de alta calidad
    • 2. Es necesario recopilar datos centrados en preferencias claras. Los datasets públicos masivos pueden causar sesgos no intencionales, regresión al "AI look" y sesgos hacia composición y color simples
      • Para objetivos objetivos como renderizado de texto, anatomía y estructura, la diversidad de datos ayuda, pero para objetivos subjetivos como la estética, los datos especializados son más eficientes que una mezcla
      • Al mezclar muchas distribuciones de gusto estético, suele obtenerse un resultado que no satisface a nadie, y se menciona además que muchos usuarios terminan dependiendo de métodos de postprocesamiento como LoRA

Dirección futura de investigación y cierre

  • Krea 1 es el primer paso para creadores que priorizan criterios estéticos y calidad, y se espera ampliar la comunidad open source
  • En adelante se busca ofrecer modelos alineados con el gusto estético del usuario mediante fortalecimiento de capacidades clave, soporte de más dominios visuales y estudios de personalización y controlabilidad
  • Consulta GitHub ( https://github.com/krea-ai/flux-krea )

Aún no hay comentarios.

Aún no hay comentarios.