8 puntos por GN⁺ 2024-08-02 | 1 comentarios | Compartir por WhatsApp
  • El modelo de texto a imagen open source SOTA más grande desarrollado por Black Forest Labs
    • El equipo original que desarrolló Stable Diffusion
  • Con 12B parámetros, amplía los límites de la creatividad y el rendimiento, ofreciendo capacidades de generación de imágenes similares a Midjourney

Disponible en 3 modelos

  • FLUX.1 [dev]: modelo base open source bajo una licencia no comercial. La comunidad puede construir sobre él
  • FLUX.1 [schnell]: versión destilada del modelo base que funciona hasta 10 veces más rápido. Licencia Apache 2.
  • FLUX.1 [pro]: versión cerrada disponible solo mediante API

Características principales

  • Mejor calidad de imagen: permite generar visuales sorprendentes en alta resolución
  • Anatomía humana avanzada y fotorrealismo: permite generar imágenes muy realistas y anatómicamente precisas
  • Mejor seguimiento de prompts: permite generar imágenes más precisas y relevantes basadas en la entrada
  • Velocidad sobresaliente: la velocidad y eficiencia de Flux Schnell lo hacen ideal para aplicaciones de alta demanda

Integración de fal

  • Integra el motor de inferencia de última generación de fal para ejecutar los modelos Flux hasta 2 veces más rápido que eager torch
  • Tiempos de procesamiento rápidos manteniendo una calidad y nivel de detalle sobresalientes

Resumen de GN⁺

  • Flux es el más reciente modelo de texto a imagen desarrollado por Black Forest Labs y establece un nuevo estándar de creatividad y rendimiento
  • Ofrece soluciones personalizadas para distintos casos de uso mediante varias variantes del modelo
  • Su mejor calidad de imagen y representación realista lo hacen adecuado para aplicaciones de alta demanda
  • El motor de inferencia de fal permite una ejecución aún más rápida y eficiente del modelo
  • Otros proyectos con funciones similares incluyen DALL-E y Midjourney

1 comentarios

 
GN⁺ 2024-08-02
Comentarios en Hacker News
  • burkay de fal.ai: el modelo no fue creado por fal, sino por Black Forest Labs

    • fal.ai ejecuta el modelo en un motor de inferencia optimizado para que funcione muy rápido
    • se puede probar el modelo en el playground
    • el modelo [schnell] está disponible como open source en Hugging Face bajo licencia Apache
    • el renderizado de texto es muy rápido y excelente, y tiene un codificador de texto que puede manejar mejor el texto y su posición
    • cuando mejora el renderizado de texto, las marcas de agua de texto en los datos de entrenamiento aparecen con más claridad
    • se proporciona un enlace para probar el modelo
      • FLUX.1 [schnell]: Apache 2.0, pesos abiertos, destilación por pasos
      • FLUX.1 [dev]: no comercial, pesos abiertos, destilación guiada (requiere iniciar sesión)
      • FLUX.1 [pro]: código cerrado, SOTA, datos sin procesar (solo se puede usar mediante API)
  • Otro usuario: la mayoría de las comparaciones no prueban bien el modelo nuevo

    • actualmente, el mejor seguimiento de prompts del mercado es DALL-E 3, pero todavía se queda corto en conceptos complejos y tiene mucha censura
    • tras comparar Flux y DALL-E 3, Flux resulta impresionante y ofrece un gran rendimiento
    • publicó los resultados de la comparación en su blog
  • Otro usuario: hizo pruebas usando prompts de ideogram, y Flux genera imágenes muy buenas

    • probó ideogram, pero no le gustan sus filtros
    • si se puede ejecutar en local, queda muy cerca en calidad de imagen y seguimiento de prompts
    • cuando el texto es complejo, no logra escribirlo con claridad
    • comparte como ejemplo el prompt de una imagen de ideogram
    • dejó de usar modelos de difusión estable hace tiempo, y la tecnología se volvió tan compleja que ya no es divertida
    • quiere un sistema como ideogram que pueda ejecutarse en local sin filtros
    • este modelo es muy bueno
  • Otro usuario: cada vez que ve un modelo nuevo, revisa si puede crear diagramas de ingeniería

    • este modelo todavía no maneja bien los diagramas de ingeniería
    • espera que alguna empresa de IA resuelva el problema de los diagramas de ingeniería
    • es muy probable que eso no estuviera incluido en el dataset de entrenamiento actual
    • quiere crear un dataset/benchmark sintético
  • Otro usuario: el proceso de registro es engorroso

    • al crear una cuenta de Github hubo errores, así que necesitó dos intentos y dos navegadores
  • Otro usuario: las startups financiadas con capital de riesgo siguen lanzando modelos gratis sin tener un modelo de negocio

    • apoya el open source, pero le preocupa que no sea sostenible a largo plazo
  • Otro usuario: la calidad es impresionante

  • Otro usuario: no maneja bien las relaciones espaciales

    • "casa al revés" -> una casa normal
    • "caballo sentado sobre un perro" -> el caballo y el perro aparecen uno al lado del otro
    • "Lockheed Martin F-22 Raptor invertido" -> resultado incorrecto