DALL-E 3 ya está disponible públicamente dentro de Bing

(bing.com)

1 puntos por GN⁺ 2023-10-02 | 1 comentarios | Compartir por WhatsApp

Bing Image Creator es una herramienta gratuita que convierte o edita imágenes con IA a partir de texto e imágenes subidas, y DALL-E 3 se retirará gradualmente mientras que las imágenes existentes se conservarán en My Creations
Se puede elegir entre los modelos de generación DALL-E3, GPT4o y MAI-Image-2e, pero la edición de imágenes subidas solo se procesa con GPT4o
Se requiere iniciar sesión con una Microsoft Account (MSA) personal, y las cuentas laborales o escolares basadas en Microsoft Entra ID no son compatibles con Image Creator ni Video Creator
Image Creator ofrece 15 generaciones rápidas gratis al día y hasta 200 prompts cada 24 horas, mientras que Video Creator admite generación de texto a video basada en Sora 2
Las imágenes subidas pueden usarse para procesar solicitudes y mejorar el servicio, pero no para entrenamiento de modelos ni personalización, y las imágenes subidas en las que se detecten rostros se eliminan después de 30 días

Transición de Bing Image Creator y DALL-E 3

Bing Image Creator es una herramienta de IA que genera o edita imágenes a partir del texto y las imágenes subidas por el usuario
DALL·E 3, después de haberse ofrecido a los creadores, será retirado (retire) en las próximas semanas
- Las imágenes existentes permanecerán en My Creations
- Se está preparando una función de reemplazo dedicada
- Mientras tanto, se podrá seguir generando con modelos más nuevos

Modelos de generación de imágenes y forma de edición

Hay tres opciones de modelo para la generación de imágenes
- DALL-E3: al pulsar “Create”, genera varias imágenes a partir del prompt y cuenta como una sola creación
- GPT4o: al pulsar “Create”, genera 1 imagen a partir del prompt
- MAI-Image-2e: al pulsar “Create”, genera varias imágenes y cuenta como una sola creación
MAI-Image-2e ofrece una model card y un data summary
Al usar o editar imágenes subidas, no se puede elegir DALL-E3 ni MAI-Image-2e, y toda la edición se procesa con GPT4o
En solicitudes similares a prompts usados recientemente, puede mostrarse una cached image guardada temporalmente en lugar de crear una imagen nueva desde cero

Cuenta, velocidad y límites de uso

Bing Image Creator puede usarse gratis con una Microsoft Account (MSA) personal
- Los usuarios que inicien sesión con Microsoft Entra ID no pueden usarlo
- Incluso al usarlo dentro de Copilot Search o Bing Search, se requiere iniciar sesión antes de generar imágenes
La velocidad de generación se divide entre Fast creation y Standard creation
- Cada día se ofrecen 15 Fast image creation gratis
- Una vez usadas las 15, se reponen al día siguiente
- Para seguir usando Fast creation, se pueden usar puntos de Microsoft Rewards
- Standard creation es gratis, pero más lenta que Fast
Image Creator permite introducir hasta 200 prompts por cada 24 horas
- Pulsar “Edit image” también cuenta dentro del límite de 200
- Si se agota el límite, se repone al día siguiente
La generación sin iniciar sesión o como invitado tiene un límite diario, y al iniciar sesión se habilitan las subidas y el acceso a modelos adicionales

Bing Video Creator

Bing Video Creator es un producto de Bing que crea videos con IA a partir de prompts de texto usando Sora 2
Video Creator también requiere iniciar sesión con una Microsoft Account personal, y no es compatible con cuentas de Microsoft Entra ID
La velocidad de generación ofrece Fast creation y Standard creation
- Standard creation es gratis
- Fast creation normalmente requiere puntos de Microsoft Rewards
- En algunos casos pueden ofrecerse créditos para Fast creation
Se pueden poner en cola hasta 3 generaciones de video en progreso al mismo tiempo
- Si ya hay 3 en progreso, no se puede crear un nuevo video hasta que uno termine
- Los videos terminados pueden verse en la miniapp Bing Video Creator de la app móvil de Bing o en “My Creations” de bing.com/create
La generación de video actualmente solo está disponible en móvil y debe accederse a través de la app de Bing

Imágenes subidas y tratamiento de datos personales

Las imágenes subidas se usan para que Bing Image Creator o Bing Video Creator realicen tareas de generación o modificación de imágenes según la solicitud del usuario
Las imágenes subidas pueden usarse para mejorar los servicios de procesamiento de imágenes, pero no para el entrenamiento de modelos de IA ni para personalizar la experiencia del usuario
No se intenta identificar los rostros que aparezcan en las imágenes subidas
El período de almacenamiento varía según el contenido de la imagen
- Las imágenes subidas se almacenan hasta 30 días
- Las imágenes en las que se detecten rostros se eliminan después de 30 días
- Las imágenes en las que no se detecten rostros pueden almacenarse hasta 18 meses
Las imágenes y videos generados pueden almacenarse hasta 90 días cada uno
El usuario puede borrar el historial seleccionando “Clear all” en el historial de búsqueda de Bing o “Clear all search history” en “Search history” del privacy dashboard de la cuenta Microsoft
- Esta acción elimina al mismo tiempo el historial de búsqueda de Bing, el perfil de Bing Image Creator y Video Creator, y el historial de creaciones

Límites de subida y datos biométricos

El usuario solo debe subir imágenes originales que posea o para las que tenga derecho de uso
No se pueden subir imágenes que infrinjan derechos de terceros, vulneren la privacidad de otras personas, representen a alguien sin consentimiento o violen el Microsoft Services Agreement o el Bing Image Creator Code of Conduct
Si se detecta un intento de subir contenido ilegal o prohibido, el uso de la cuenta puede restringirse o suspenderse
Por motivos de seguridad, Video Creator no permite usar imágenes faciales realistas subidas para generar videos
En la función de subida de imágenes pueden procesarse datos biométricos como rostros o manos
- Los datos biométricos solo se procesan cuando el usuario los sube
- La finalidad del procesamiento se limita a responder a la solicitud del usuario
- En algunas regiones puede requerirse consentimiento antes del procesamiento de la imagen
- No deben compartirse imágenes de otras personas sin su consentimiento

Redacción de prompts e idiomas compatibles

Bing Image Creator y Bing Video Creator admiten más de 100 idiomas, y la lista completa puede consultarse en Microsoft Translator
Para obtener buenos resultados, conviene redactar los prompts de forma específica e imaginativa en lugar de escribirlos brevemente como si fueran términos de búsqueda
- Incluir apariencia del tema, color, textura, acción, fondo, iluminación, ángulo de cámara y estilo del medio puede mejorar la calidad del resultado
- En los prompts de video pueden incluirse temas como “action movie”, “fantasy” y “dramatic”, así como expresiones de iluminación como “direct sunlight”, “dusk” y “soft lighting”
- En videos con audio se pueden sugerir sonidos ambientales, dirección musical y tono de narración, pero no se puede especificar un guion con diálogos exactos

Rewards e IA responsable

En Image Creator, cuando se agotan las 15 Fast creation gratis del día, cambia automáticamente a velocidad Standard creation
Si se activa el uso de puntos de Microsoft Rewards, se descuentan puntos al usar Fast creation
- La configuración de Rewards de Image Creator y Video Creator debe cambiarse por separado
- Si no hay puntos suficientes, cambia automáticamente a Standard creation
Microsoft aplica a Bing Image Creator y Bing Video Creator controles para prevenir la generación de imágenes y videos dañinos
- Los prompts que puedan generar imágenes potencialmente dañinas se bloquean automáticamente y se informa al usuario
- Las imágenes de Image Creator muestran una marca de agua en la esquina inferior izquierda
- Tanto las imágenes como los videos incorporan credenciales de contenido e información de procedencia basadas en el estándar C2PA
Los artistas vivos, celebridades y organizaciones pueden solicitar que se restrinja la generación de imágenes relacionadas con su nombre y marca mediante la opción AI-powered features del Report a Concern form
Si se genera contenido inesperado o desagradable, puede reportarse a Microsoft mediante el Report a concern form o el botón Feedback de la interfaz
Las infracciones repetidas de la política de contenido pueden provocar una suspensión temporal automática, y múltiples suspensiones pueden derivar en una restricción permanente

1 comentarios

GN⁺ 2023-10-02

Opiniones de Hacker News

Parece que el LLM modifica un poco el prompt antes de enviarlo a DALL-E, y esa parte se puede jailbreakar
https://twitter.com/madebyollin/status/1708204657708077294
https://media.discordapp.net/attachments/1023643945319792731...
- Al ver casos de jailbreak donde la entrada y la salida no son simplemente texto, no sé por qué, pero resultan especialmente buenos
- En el fondo sigue siendo splatterprompting, solo que ahora la máquina lo hace por uno, lo cual es bastante gracioso
- ¿Funcionará si simplemente se llama así?
  #graphic_art("my prompt here")
- Me da curiosidad cómo se hace el jailbreak
- Es una escena realmente cyberpunk para ser 2023
Como suele pasar con estas herramientas, parece bastante fácil crear resultados realmente graciosos y a la vez desagradables. Probablemente no dure mucho
https://www.reddit.com/r/ChatGPT/comments/16wf1i0/dalle_3_is...
- En vez de simplemente hacer bloqueo de palabras clave a ciegas, me gustaría que pidiera más descripción o introdujera ajustes suaves para hacerlo menos problemático
  Claro que la gente al final hará lo que quiera, así que también estaría bien dejar que paren por su cuenta cuando se les pase la novedad
- Tal vez se me está escapando algo, pero no entiendo cómo sale un Spongebob aterrador solo porque el prompt incluía “fawn”
  Edición: el prompt no tenía “fawn”; lo entendí al leer las respuestas
Ganador: https://www.bing.com/images/create/paint-a-picture-in-the-st...
- Me encanta que en el backlog de alguien haya un ticket de Jira que dice “enseñarle al modelo cuántos dedos tienen las personas”
- Le pedí “manos con la cantidad correcta de dedos”, y en 3 de las 4 imágenes devueltas lo hizo bien
Parece claramente mejor que la versión anterior. Ahora, al menos en algunos casos, puede generar texto exacto dentro de una imagen
Por ejemplo, con el prompt Neon sign saying "Scotland" sale este resultado: https://www.bing.com/images/create/neon-sign-saying-22scotla...
Aunque todavía le costaban palabras menos comunes como Kubernetes, es un paso en la dirección correcta
En la interfaz de chat de Bing, si preguntas “¿Puedes dibujar una imagen de X?”, responde “Lo siento, pero no puedo dibujar. ¿Necesitas ayuda con algo más?” y justo después aparece “La creación de la imagen está tardando. Consulta el progreso en Image Creator”
Parece que usan un LLM que no sabe que puede dibujar imágenes en la respuesta del chat y, al mismo tiempo, ejecutan en paralelo otro modelo que decide qué dibujar y mostrar
- Intento evitar prompts del tipo “Can you ...?”. Porque pueden interpretarse como una pregunta de sí/no, no como una orden para hacer algo
  En Bing, hasta ahora me ha funcionado bien escribir “Draw me an image of...” o simplemente “Image: descripción de la imagen”
- Creo que es por el verbo “draw”. El LLM solo está diciendo que él no puede dibujar directamente, y la generación de imágenes probablemente sea una función que invoca
  El LLM parece considerar al generador de imágenes como una herramienta que usa, es decir, algo separado de sí mismo
- Probablemente sea eso. He probado hacer que un LLM entrenado con datos de chat/instrucciones produzca código especial para comunicarse con un sistema separado, por ejemplo Google o Stable Diffusion, y luego pasárselo de vuelta al usuario, pero la tasa de éxito fue limitada
- Cuando la imagen de salida se detecta como NSFW, a veces el chat muestra ese tipo de error extraño. Hay bastantes falsos positivos
Estuve generando varias cosas durante las últimas 24 horas y está bastante bien. La interfaz de Discord de Midjourney me desagrada mucho
- Igual yo. No entiendo por qué siguen usando Discord desde hace tanto en vez de crear una experiencia de usuario adecuada para este caso de uso. Creo que por eso van a perder bastante crecimiento
- ¿Midjourney es solo para Discord? Si es así, debe suponer una carga enorme para los servidores de Discord. Aunque el modelo no corra ahí, solo el almacenamiento y el ancho de banda ya son grandes
  Es una forma bastante buena de escalar muy rápido al principio, pero no creo que a Discord le guste. Pensé que a estas alturas ya tendrían su propia interfaz
- Relacionado con eso, Instagram ahora también metió el comando /imagine en los DM. Es una copia total
Bing parece bastante desesperado. Ayer intenté instalar GPT en mi dispositivo y el primer resultado de app era un anuncio, era Bing, y decía que podía recibir recompensas si usaba la app.
No sé si les interesa más aumentar el número de usuarios o recolectar esos dulces datos. Probablemente ambas cosas.
- Bing Rewards se lanzó en 2010, así que parece que es lo suficientemente efectivo como para mantenerlo.
  https://en.wikipedia.org/wiki/Microsoft_Bing#:~:text=Bing%20...
- Google le paga a Apple 20 mil millones de dólares al año para conservar su lugar como motor de búsqueda predeterminado en iOS. Eso sí es verdadera desesperación. ¿Adónde se va a ir la gente, a Bing?
- Bing generó 12 mil millones de dólares en ingresos en 2022. Solo digo.
- Whatsapp también tiene su propia versión de ChatGPT. Ahora esto es una carrera armamentista.
Me encanta que la internacionalización al francés del título de esa página sea “Créer art de mots avec IA”. Es una traducción horrible, casi al nivel de “all your base are belong to us”.
Probablemente sea una traducción con IA, pero si eres francófono, es difícil que ese producto de IA de la página te inspire confianza.
- No sé por qué culpan a la traducción con IA.
  Basta ver cómo ChatGPT-4 maneja directamente una solicitud de traducción: https://chat.openai.com/share/8211a1f6-552b-4bf6-8f9c-bcbeb8...
  También se puede ver cómo habla de conjuntos de traducciones existentes: https://chat.openai.com/share/299e40ce-806b-4f0e-a889-cb2ee2...
  No sé mucho francés, pero mi experiencia traduciendo con “IA” español y otros idiomas que conozco un poco fue más positiva que con Google Translate. Hace unos meses comparé lado a lado traducciones al inglés hechas por ChatGPT-4 y Google Translate, y no había punto de comparación.
  No queda claro de dónde saca Microsoft estas malas traducciones, pero si las hubiera hecho con ChatGPT-4, creo que habrían sido menos horribles.
- La traducción al finlandés también es una traducción palabra por palabra espantosa. Al traducir a un idioma que casi no usa preposiciones, eso no funciona en absoluto.
  Palabras como “for” o “to” se reemplazan por palabras de contextos completamente distintos. Me recuerda a la traducción automática de alrededor del año 2000.
  Por desgracia, nuevas funciones de Windows como la sincronización forzada con OneDrive usan traducciones igual de malas. Hoy en día, el finlandés de los correos de phishing es mejor que el de Windows.
- Recuerdo que la página de introducción del chatbot de IA que usaba Bing también tenía una traducción horrible. Era rara incluso a nivel de caracteres, y hasta tenía mayúsculas aleatorias. Sinceramente, todavía no entiendo cómo pudo pasar algo así.
- La calidad de traducción definitivamente es muy mala. Acabo de probarlo con Microsoft Translator y la calidad de la traducción estuvo bien. Muy extraño.
Logré que Tux se viera bien: https://www.bing.com/images/create/tux-the-penguin-lounging-...
Dice “2 horas de espera”, “crear nuevas imágenes puede tardar” y “te quedaste sin boosts, así que la generación de imágenes puede tardar más de lo normal”.
¿Cuánto dinero estará quemando Microsoft para ofrecer todas estas funciones?
La última vez que revisé, me pareció que ni siquiera regalando tanto Bing lograba demasiado efecto, ¿no era así?
Me pregunto si esto es “lo hacemos porque podemos” o si de verdad es rentable.
[0]: https://searchengineland.com/new-bing-google-market-share-si...
- Las empresas realmente grandes siempre se mueven con planes estratégicos de largo plazo. Si algo parece demasiado generoso, por lo general es que de verdad lo es.
  ¿Es rentable? Probablemente no. Pero ese es el punto. Ofrecen el servicio por debajo del precio de mercado, esperan a que desaparezcan los competidores y luego hacen dinero.
  Hay muchísimos ejemplos, pero se me ocurre algo como Google Workspace. Hacen que entrar sea fácil y barato, acostumbran a personas y empresas al producto, y luego van hirviendo la rana poco a poco.
- Esta oferta de trabajo dice mucho.
  https://jobs.careers.microsoft.com/global/en/job/1627555/Pri...
  Lo vi en Slashdot: https://m.slashdot.org/story/419681
- Como la gente repite varios prompts para obtener el resultado que quiere y muestra cuál de las alternativas elige, también parece valioso como material de entrenamiento.
- Quizá estén aplicando a consumidores una herramienta de ventas pensada para la adopción de Bing en empresas. Necesitan cifras de tráfico y uso, y una vez que las tienen pueden montar encima un negocio publicitario para generar ingresos.
- Para la mayoría de la gente, Bing sirve para buscar Google.
  Igual que Edge sirve para instalar Chrome.
  Por más marketing o funciones que les agreguen, no pueden hacer que estos cadáveres vuelvan a caminar.

DALL-E 3 ya está disponible públicamente dentro de Bing

Transición de Bing Image Creator y DALL-E 3

Modelos de generación de imágenes y forma de edición

Cuenta, velocidad y límites de uso

Bing Video Creator

Imágenes subidas y tratamiento de datos personales

Límites de subida y datos biométricos

Redacción de prompts e idiomas compatibles

Rewards e IA responsable

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News