3 puntos por GN⁺ 2024-10-15 | 1 comentarios | Compartir por WhatsApp
  • FLUX funciona más rápido en Replicate, y su código optimizado se publica como código abierto para que cualquiera pueda revisarlo y mejorarlo
  • La clave de la mejora de velocidad
    • El modelo FLUX se gestiona en colaboración con Black Forest Labs, y se realizaron dos optimizaciones principales
      • Optimización del modelo: se mejora el rendimiento usando torch.compile y kernels de atención de CuDNN
      • La incorporación de una nueva API HTTP síncrona mejora significativamente la velocidad de los modelos de imagen
    • La cuantización de flux-fp8-api introduce ligeras variaciones en la salida, pero no afecta de forma importante la calidad
    • Los métodos de optimización se publican de forma transparente y se permite que los usuarios desactiven las optimizaciones
  • La velocidad del código abierto
    • Los modelos de código abierto suelen ser lentos por defecto, y muchas veces los proveedores de modelos los optimizan para ofrecerlos como APIs propietarias
    • Todas las mejoras de FLUX se publican como código abierto con la intención de colaborar con la comunidad para desarrollar modelos aún más rápidos
  • Usos de FLUX
    • Además de ejecutar FLUX en Replicate, hay varias formas de aprovecharlo
      • Es posible ajustar finamente FLUX con datos del usuario
      • Se puede modificar el código para desplegar versiones personalizadas
      • Se puede probar el modelo en un nuevo playground y comparar resultados

Resumen de GN⁺

  • FLUX ofrece la oportunidad de que cualquiera use un modelo optimizado gracias a sus mejoras de rendimiento en Replicate y a su publicación como código abierto
  • El esfuerzo por resolver el problema de velocidad en el código abierto permite desarrollar modelos más rápidos mediante la colaboración con la comunidad
  • Las diversas posibilidades de uso de FLUX ofrecen a los usuarios la oportunidad de contar con soluciones personalizadas
  • Otros proyectos con funciones similares incluyen TensorFlow y PyTorch

1 comentarios

 
GN⁺ 2024-10-15
Opiniones en Hacker News
  • Hay quien siente que los modelos de texto a imagen son ineficientes y que sería mejor procesarlos en varias etapas. Piensa que cada etapa podría entrenarse de forma independiente, lo que permitiría una mayor modularidad y facilitaría la edición de imágenes

    • Por ejemplo, explica que sería más fácil generar una imagen donde "el objeto x está junto al objeto y, y encima tiene el texto foo"
    • Menciona que podría existir un modelo de renderizado final separado del prompt, para ajustar el estilo artístico o el nivel de realismo
  • Se enfatiza que el software no comercial no es open source, y se explica que si el autor original deja de mantenerlo, otra persona no puede continuarlo o tendría que trabajar gratis

    • El open source ofrece una licencia que permite que cualquiera continúe el desarrollo cuando el autor original deja de trabajar en ello
    • Solo FLUX.1 [schnell] es open source (Apache2); FLUX.1 [dev] es no comercial
  • Para usar FLUX.schnell fácilmente, se sugiere ingresar un prompt en la URL de Pollinations

    • Se menciona que la velocidad de FLUX es sorprendente, y que genera 8000 imágenes cada 30 minutos con solo tres GPU L40S
  • Dice que le gusta usar FLUX para generar imágenes con fondo blanco para usar en Substack

    • Explica que le gusta porque permite transmitir algo visual junto con el texto
  • Se menciona que FLUX es líder entre los sistemas de generación autoalojados en cuanto a adherencia al prompt, pero que resulta molesto que siempre aparezca una profundidad de campo superficial

  • Indica que canceló su suscripción a Midjourney y que está considerando Replicate e Ideogram

  • Siente curiosidad por los datos de entrenamiento de FLUX 1.1 y explica que las imágenes generadas parecen fotos personales

    • Se pregunta si los datos de entrenamiento provinieron de publicaciones públicas de Facebook, Snapchat, Vkontakte, etc.
  • Cree que el modelo FLUX 1.1 pro probablemente no usó datos de entrenamiento muy distintos de los del modelo abierto anterior

  • Menciona la página comparativa de FLUX y explica que la versión rápida muestra imágenes completamente distintas del modelo original

  • Menciona la controversia sobre el open source respecto a los modelos de Meta, y explica que en el caso de FLUX, solo FLUX schnell es open source

    • Señala que el modelo Llama de Meta tiene una licencia más permisiva y es más fácil de ajustar que FLUX schnell
  • Sostiene que la comunidad open source debería apoyar proyectos como OpenFLUX

  • Cuestiona que todavía no se haya resuelto el problema de que las manos sigan viéndose extrañas