1 comentarios

 
GN⁺ 2024-02-23
Comentarios en Hacker News
  • Ayer probé esto junto con Groq para potenciar como extensión de Chrome el juego de diversión infinita de Neal Agrawal, e hice que generara imágenes reales y no solo emojis
    La generación de imágenes casi en tiempo real y la generación con LLM se sienten como el futuro. Para escribir prompts usé Mixtral de Groq, y para la generación en tiempo real usé Fal API
    https://x.com/altryne/status/1760561501096575401?s=20

    • Estaría bueno convertir esto en un juego de desplazamiento lateral, donde a medida que avanzas el fondo haga una transición gradual y natural hacia renderizados de las palabras que se van tratando
      Me imagino el paisaje azul del inicio del demo convirtiéndose poco a poco en el terreno montañoso y seco de las imágenes del final, mientras aparecen personajes nuevos en primer plano
    • Me pregunto si también se podría convertir en un juego basado en cartas
    • Se ve realmente bien. Me pregunto si hay posibilidad de compartir la extensión de Chrome
  • Para dejar constancia, SDXL Lightning es open source y fue publicado en Hugging Face con una licencia relativamente permisiva: https://huggingface.co/ByteDance/SDXL-Lightning
    También hay algunas otras interfaces. Por ejemplo: https://replicate.com/lucataco/sdxl-lightning-4step

    • Sí. Internamente usa SDXL Lightning, que ByteDance entrenó sobre Stable Diffusion XL y publicó como open source
      Encima de eso añadieron su propio motor de inferencia e infraestructura en tiempo real para ofrecer una experiencia más fluida que otras interfaces. En términos de velocidad, casi no hay comparación: aquí 4 pasos toman unos 370ms, mientras que el ejemplo de Replicate enlazado está más cerca de 2 a 3 segundos
    • También hice un demo con Gradio, pero es 2 veces más lento que fal.ai. Usa stable-fast compile en una sola A10G
      https://huggingface.co/spaces/radames/Real-Time-Text-to-Imag...
      Si tienes GPU/CUDA/Docker, también puedes probarlo en local
      docker run -it -p 7860:7860 --platform=linux/amd64 --gpus all -e SFAST_COMPILE="1" -e USE_TAESD="0" registry.hf.space/radames-real-time-text-to-image-sdxl-lightning:latest python app.py
    • Me pregunto cuál será el uso de memoria y la velocidad en inferencia local
  • La velocidad es excelente
    En cuanto a calidad, tomé prestado el prompt que hoy usó la gente para probar Stable Diffusion 3 y otros modelos: "Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat"
    Este es el resultado que obtuve: https://imgur.com/a/XrAuqCB
    Comparado con Stable Diffusion 3: https://pbs.twimg.com/media/GG8mm5va4AA_5PJ?format=jpg&name=...

    1. https://news.ycombinator.com/item?id=39467526
    • El seguimiento espacial del prompt es, en general, un punto débil de SDXL y de la familia Stable Diffusion anterior. Ojalá Stable Diffusion mejore bien esa parte, como en el ejemplo
      También probé el mismo ejemplo en Stable Cascade, el modelo con pesos públicos más reciente de Stability, y tampoco sale muy bien: https://fal.ai/models/stable-cascade?share=eab44060-690b-497...
    • El resultado que obtuve es bastante preciso: https://imgur.com/a/vH0zq5b
      Seed: 3919562
    • Si lo corres cambiando la seed, los resultados varían muchísimo
  • El demo es realmente impresionante, pero si fuera más fluido sería mucho más asombroso. Ahora mismo, por ejemplo, si borras una palabra o agregas un espacio, la inferencia ocurre 4 veces en poco tiempo, así que se siente algo entrecortado
    Puede que estén mostrando intencionalmente los resultados paso a paso. Como referencia, este es un demo de fal.ai, y la primera vez que supe de ellos fue cuando publicaron un demo la mañana en que se lanzó Stable Cascade
    Si vas a correr inferencia fuera de OpenAI, recomiendo fal.ai con fuerza. Llevo casi 3 años en la industria de IA, y desde el año pasado he estado prácticamente metido en esto 24/7, pero Fal parece ser el primer servicio que cuida los detalles para que esto sea así de rápido en uso real y no solo en cifras de un paper
    Por ejemplo, cosas como la conexión por WebSocket y JWT de vida corta para no tener que pasar por una edge function solo para firmar solicitudes con una API key

    • Si ya es así de rápido, quizá sería mejor generar imágenes intermedias siguiendo una ruta suave dentro del espacio latente en lugar de saltar directo a la imagen objetivo
  • Me encanta mucho este demo. Es accesible, rápido e intuitivo. Sorprende que se pueda obtener esta calidad tan fácilmente.

    • Este demo y Groq fueron realmente impresionantes. Todavía recuerdo que no hace mucho, en sitios donde te daban unas 20 generaciones gratis al crear una cuenta, había que esperar bastante para recibir una sola imagen rota.
      Ahora es increíble poder entrar a un sitio web y generar texto e imágenes a la velocidad de un rayo, sin registro ni CAPTCHA. Más aún considerando que Groq y fal.ai pueden permitirse dejar el demo completamente abierto; no esperaba una mejora de rendimiento así a inicios de 2024.
      Creo que la generación rápida también compensa bastante las desventajas en calidad de imagen. Incluso si falla, muchas veces un buen resultado está a solo una semilla o un pequeño ajuste del prompt.
  • Me intriga cómo puede ser tan rápido. Y no sé qué son las imágenes blob:[https://blbahblah](<https://blbahblah>;).
    Además, si cambias un poco el prompt, es fácil que el mapache termine con dos colas.

  • Es realmente impresionante. Reducir la latencia afecta muchísimo la forma en que uno interactúa con este tipo de herramientas.
    La ventaja de velocidad aquí va más allá de simplemente generar más imágenes: te permite seguir con el mismo hilo de pensamiento mientras pruebas varias cosas, sin interrumpirlo.

  • Muy impresionante, pero me pregunto si alguien sabe cómo generar personajes consistentes con Stable Diffusion.
    Si el primer prompt es una niña hablando con un gato, y el segundo es una niña jugando con ese gato, quiero que la niña y el gato se vean iguales en ambas imágenes.
    Si es posible, cualquier enlace o tutorial relacionado sería de gran ayuda.

    • Si no recuerdo mal, Dashtoon Studio permite crear cómics con personajes consistentes usando Stable Diffusion: https://dashtoon.com/create
    • Se puede hacer en Dashtoon Studio. Incluso si subes una sola imagen, te entrena una LoRA de personaje consistente. Es software para crear cómics con IA, y encontré este video en YouTube: https://www.youtube.com/watch?v=EEQwEvKQGvE
      LoRA suele ser lo más versátil, porque permite obtener el personaje de forma consistente en la pose y el ángulo de cámara que quieras. IP-Adapter copia demasiados rasgos de la imagen de entrada, y es difícil elegir qué cosas no quieres copiar, como la pose. Por eso puede volverse complicado hacer que el personaje de un retrato de entrada realice otras acciones.
      Reactor necesita una imagen generada en la que insertar el rostro. Funciona bien con imágenes realistas, pero en imágenes estilizadas no mantiene el estilo y tampoco copia el peinado.
      De todo lo que he encontrado hasta ahora, Dashtoon ha sido lo más estable y fácil. También es difícil reunir 20 imágenes nuevas del personaje, y en un set de entrenamiento LoRA importan bastante atributos de las imágenes como la cantidad de primeros planos o la variedad de expresiones.
    • Vale la pena revisar https://scenario.gg. Ahí puedes entrenar tu propia LoRA con imágenes personalizadas del personaje, y para lograr buena consistencia normalmente hacen falta unas 20 imágenes desde distintos ángulos.
      También existe IP-Adapter, que es más simple pero sigue siendo bastante decente, y ese servicio también lo ofrece. Mantener consistente a un gato probablemente será difícil sin una LoRA personalizada. Referencia: https://help.scenario.com/training-a-character-lora
    • Normalmente basta con usar un nombre. En buenos modelos de SD, Maria Smith casi siempre se ve como Maria Smith.
    • Mickey se ve bastante consistente: https://fastsdxl.ai/share/4us7hrp3jm20
  • Es interesante cómo se comporta al poner una sola letra. En mi caso, parece converger seguido a edificios pequeños y bastante detallados.
    Cuanto más repites la misma letra, por ejemplo 11111111 en vez de 111, más extraños se vuelven los edificios. Ahora que lo veo, parece ser bastante sensible a la semilla.

    • Las palabras o conceptos desconocidos prácticamente no afectan la salida. Si en el prompt cambias baby raccoon por maxolhx, ignora esa palabra y renderiza a una novia italiana.
      En rigor sí sigue habiendo un efecto, pero no de una forma que podamos explicar fácilmente. Es casi como estar jugando con la semilla.
  • Me encanta. Ojalá se pudieran compartir URLs
    late 90s movie poster, 24 hour clock movie "2: Electric Boogaloo" dan aykroyd1
    El resultado de este prompt fue excelente