1 puntos por GN⁺ 3 시간 전 | 1 comentarios | Compartir por WhatsApp
  • Nano Banana 2 Lite, incorporado a la familia Gemini Image de Google DeepMind, es un modelo pensado para ejecutar la generación y edición de imágenes de forma más rápida y económica, con foco en reducir el costo de las tareas visuales con muchas iteraciones
  • Sus ejes principales son la baja latencia y la eficiencia de costos a gran escala, y permite generar miles de imágenes a un costo menor que los modelos de producción más pesados
  • En cuanto a calidad, mantiene el control y la precisión de la familia Nano Banana, con soporte para consistencia de personajes, edición precisa y uso de conocimiento del mundo real
  • Casos como Space Lift, Gridscape, Peek-A-Word y Anywhere muestran experiencias de usuario posibles cuando la generación de imágenes se vuelve lo bastante rápida como para no interrumpir el flujo de una app
  • Puede cometer errores en rostros pequeños, ortografía precisa, detalles finos, resultados basados en datos, traducción y localización, y en ediciones y composiciones complejas, por lo que es necesario revisar los resultados generados

Modelo Gemini Image enfocado en generación rápida y bajo costo

  • Nano Banana 2 Lite es un modelo Gemini Image presentado por Google DeepMind, orientado a la generación y edición rápida de imágenes y a un menor costo
  • Sus principales usuarios son creadores, empresas y desarrolladores, y está pensado para flujos de trabajo donde se exploran rápidamente múltiples ideas visuales
  • Google DeepMind lo presenta como el modelo Gemini Image más rápido y eficiente hasta la fecha, y afirma que ofrece generación y edición de alta velocidad al costo más bajo
  • Las vías de acceso son las siguientes

Equilibrio entre velocidad, costo y calidad

  • La reducción de latencia es clave, y permite exploración rápida y tareas iterativas
  • En generación a gran escala, puede crear miles de imágenes a un costo mucho más bajo que modelos de producción más pesados
  • La calidad apunta a ofrecer más rápido el control y la precisión que se esperan de Nano Banana
    • Mantener la consistencia de personajes
    • Edición visual precisa
    • Uso de conocimiento del mundo real
  • En los prompts, cuanto más se detallen los elementos deseados, como personajes, fondos y ambiente general, más cerca puede estar la imagen de la intención original
  • Las guías de prompts están disponibles en View prompt guide y Learn how to prompt

Casos de apps basadas en la velocidad de generación de imágenes

  • Space Lift es una app que, al subir una foto de una habitación, genera de inmediato diversos conceptos de interiorismo, desde Mid-Century Modern hasta Bohemian Chic
  • Gridscape construye nodos de información con texto e imágenes generados por Nano Banana 2 Lite y Gemini 3.1 Flash Lite cuando se ingresa una pregunta en un lienzo infinito
    • Los usuarios pueden explorar conceptos relacionados con más profundidad siguiendo rutas clicables
  • Peek-A-Word convierte el texto seleccionado en material visual generado por IA, y ofrece definiciones concisas e imágenes contextuales en un solo espacio
    • Se enfoca en mantener el flujo de aprendizaje sin cambiar de pestaña
  • Anywhere es una app interactiva de globo terráqueo 3D creada con Nano Banana 2 Lite
    • Al adjuntar una imagen, genera una serie de postales personalizadas con lugares emblemáticos del mundo como fondo
    • Los usuarios pueden girar el globo y hacer clic en las fotos para ver información de destinos virtuales

Métricas comparativas y model card

  • Google DeepMind presenta a Nano Banana 2 Lite como su modelo más eficiente hasta ahora, con un buen equilibrio entre calidad y velocidad
  • Entre los modelos de comparación se incluye el modelo premium Nano Banana 2
  • Las áreas de comparación incluyen elementos de calidad en generación de imágenes, como seguimiento de prompts, representación de detalles y control
  • La sección de rendimiento presenta las siguientes métricas
    • Image Editing: puntaje Elo de edición de imágenes frente a modelos competidores, según lmarena.ai
    • Image Generation: puntaje Elo de generación de imágenes frente a modelos competidores, según lmarena.ai
    • Latency per 1k resolution image: latencia por imagen de resolución 1k, basada en datos de artificialanalysis.ai
    • Price per 1k resolution image: precio por imagen de resolución 1k
  • La model card está disponible en View model card

Posibilidades de uso vistas por los socios

  • Figma Weave evalúa que Nano Banana 2 Lite ayuda a los diseñadores a explorar más ideas y crear imágenes únicas en un lienzo basado en nodos
  • Manus AI probó la generación de imágenes en tiempo real para presentaciones y páginas web dentro de flujos de trabajo autónomos
    • Considera que la velocidad es adecuada para la rápida iteración visual de agentes de IA y para entregar resultados en segundos
    • Estima que la calidad de imagen se acerca a la de Nano Banana 2 completo
  • Artlist considera que, cuando la velocidad de generación supera lo imaginado, los usuarios pueden permanecer dentro de sus ideas sin esperar a la herramienta
  • Weekend afirma que, en el juego de TV controlado por voz Wit’s End, instant-ramen es aproximadamente 2,7× más rápido que Gemini 3.1 Flash Image en generación de imágenes 1k
    • Procesa texto a imagen, edición y composición de múltiples imágenes con una sola API drop-in
  • Latitude considera que la velocidad de generación de imágenes es importante en un motor que crea mundos mientras los jugadores exploran, y evalúa que instant-ramen permite una generación visual lo bastante rápida como para acompañar la experiencia de juego

Limitaciones que aún requieren revisión

  • Gemini puede crear una amplia variedad de imágenes, pero algunas funciones todavía están en mejora, y las imágenes generadas deben revisarse directamente
  • En fidelidad visual y de texto, puede tener dificultades con rostros pequeños, ortografía precisa y detalles finos en las imágenes
  • En precisión de datos y hechos, su conocimiento del mundo real es amplio, pero no completo
    • Al generar infografías, anotaciones de diagramas o representaciones complejas de datos, puede interpretar mal la información o crear resultados contrarios a los hechos
    • Las salidas basadas en datos requieren verificación
  • En traducción y localización, puede generar y traducir texto en varios idiomas, pero puede tener dificultades con gramática, ortografía, matices culturales y expresiones idiomáticas
  • En ediciones complejas y mezcla de imágenes, puede producir resultados poco naturales, artefactos visuales o escenas inconexas al editar máscaras, hacer grandes cambios de iluminación como convertir día en noche o componer múltiples imágenes
  • La consistencia de personajes es una fortaleza, pero no siempre es exacta, y Google DeepMind está trabajando para hacerla más estable

Funciones de seguridad y precauciones de uso

  • Google DeepMind usa filtrado amplio y etiquetado de datos para reducir el contenido dañino en los datasets y disminuir la posibilidad de salidas perjudiciales
  • En seguridad de contenido, realiza evaluaciones y red teaming, incluida la seguridad infantil y la representación
  • Las imágenes generadas incluyen las funciones más recientes de privacidad y seguridad, y SynthID inserta directamente en la imagen una marca de agua digital invisible que permite identificar imágenes generadas por IA
  • Hay información sobre SynthID disponible en Learn more
  • Los LLM como Gemini 3.1 Flash-Lite Image pueden ofrecer contenido inexacto u ofensivo que no representa las opiniones de Google
  • Se requiere precaución al confiar en, publicar o usar contenido proporcionado por un LLM, y no se debe depender de él para asesoría profesional en áreas como medicina, derecho o finanzas

1 comentarios

 
GN⁺ 3 시간 전
Opiniones de Hacker News
  • El primer ejemplo de generación de interiores de casas me desagrada de una forma difícil de describir. Hoy en día, los agentes inmobiliarios meten todos los departamentos viejos y difíciles de vender en un filtro de IA, así que antes de ver qué cosa horrible están intentando vender a un precio absurdo, hay que pasar por decenas de imágenes de “así podría verse si lo decoraras al estilo Ikea”.

    • Creo que este tipo de cosas debería considerarse representación engañosa ilegal. Hay demasiadas zonas grises en el uso de IA.
    • Lo veo casi como un fraude. En Streeteasy, un departamento parecía tener “metidos” un escritorio, una cómoda y una cama queen, pero era evidente que el modelo de imagen simplemente había reducido los muebles a proporciones que no existen en la realidad.
      En el dormitorio real apenas cabía una cama queen ;(
    • Estoy 100% de acuerdo en que engañar sobre el aspecto real de un departamento no debería ser aceptable ni social ni legalmente. Dicho eso, en la remodelación de mi baño, un modelo de imagen me ayudó bastante a elegir el diseño.
      Fue especialmente útil cuando era difícil imaginar por mi cuenta cómo se vería todo el espacio al poner azulejos en ciertas partes.
    • En NYC, donde vivo, subir ese tipo de imágenes retocadas era algo común desde hace más de 10 años.
      Antes simplemente era más caro contratar a alguien para que hiciera ese trabajo.
      Las imágenes retocadas siempre muestran las mismas paredes luminosas y muebles grises estilo revista.
      La IA solo lo hizo más barato; al final era inevitable que termináramos así.
      Las imágenes retocadas de esta forma sí suelen llevar una pequeña marca de agua que informa que fueron modificadas.
    • Con solo tener un buen fotógrafo, el efecto ya es enorme. Cuando un amigo vendió su casa, me sorprendió lo bien que se veía en las fotos del anuncio y lo grande que parecía, aunque yo sabía que no era pequeña.
      Es un problema que ya existía antes de los filtros de IA, así que no es nuevo, pero ahora se está volviendo mucho peor y más barato.
  • Recibí acceso anticipado para probar este modelo. Fue por trabajo; Google todavía no llegó a apreciarme personalmente, lol.
    Funciona tal como se anuncia aquí, y en aspectos como el buen renderizado de texto parece una versión destilada de Nano Banana 2. Nano Banana 1 es mucho más débil en este punto.
    Por supuesto, con prompts detallados no está ni cerca del Nano Banana 2 base. Mi mayor queja es que en NB2 se puede forzar programáticamente la relación de aspecto, pero en NB2L no.
    Aun así, el precio de US$0.034 por imagen es más alto de lo que esperaba. Normalmente el precio está relacionado con el tiempo de generación, y aunque genera en la mitad del tiempo que Nano Banana 1, Nano Banana 1 cuesta US$0.039 por imagen.
    La afirmación de Google de que se puede reemplazar directamente un pipeline de NB1 por NB2L tiene sentido.
    Ayer Google anunció que permitiría la generación gratuita de imágenes en la app de Gemini (https://blog.google/innovation-and-ai/products/gemini-app/pe...), pero no especificó qué modelo usa. Creo que la principal motivación de Nano Banana 2 Lite está ahí.

    • A través de Vertex también se puede configurar programáticamente la relación de aspecto en NB2 Lite [1]. Actualicé el programa que uso para crear imágenes para GenAI Showdown, cambié el ID del modelo a gemini-3.1-flash-lite-image y pude usar relaciones de aspecto como 16:9 y 4:3.
      [1] - https://cloud.google.com/developers/vertex-ai
    • Me da curiosidad qué tipo de trabajo haces para necesitar generación automática de imágenes a gran escala.
  • Está bien, pero está montado sobre el AI Studio roto de Google. La mitad de sus funciones requieren una cuenta de Google One, así que no puedo usarlas.
    Tengo una cuenta de Workspace, así que no califico y tampoco puedo cambiarme, porque Google One no admite dominios propios.
    Entonces, ¿para usar una dirección de correo elegante y Banana tengo que manejar dos cuentas y además pagar? Empiezo a pensar que la cantidad correcta de cuentas pagas de Google aquí es 0.

    • Estuve en una situación parecida. Google realmente tiene que mejorar la experiencia de usuario para usar modelos y pagar.
      Mi solución fue OpenRouter. En chats de desarrollo y pruebas puedo generar imágenes con modelos de Google, y también ejecutar el mismo prompt lado a lado con otros modelos. Para generación ligera de imágenes es muy cómodo.
    • Yo estoy casi en la misma. Pago One y Workspace para uso personal, y no queda claro cuál debería usar para estas funciones.
      En general uso por defecto mi cuenta personal, que tiene más contexto, pero entonces necesito algunos pasos extra para traer materiales como los de Workspace Drive.
      Y cosas como Project Genie directamente no están disponibles en Workspace, lo cual se siente bastante raro.
    • Es una promoción un poco descarada, pero burlap te permite poner claves de Gemini Studio u OpenAI y probar cosas sin tocar la interfaz web. Por eso lo hice.
      https://www.burlap.app/download
  • La velocidad definitivamente impresiona. El NB2 base tarda unos 30 segundos por imagen, mientras que este parece tardar menos de 5 segundos.
    Hice una app que genera historias ilustradas usando a niños como personajes. Quería mantener el estilo de las ilustraciones, pero priorizar el parecido con los niños.
    Probé varios modelos, pero no parece haber ninguno que se acerque tanto a mantener el parecido en un estilo estilizado. Otros modelos los convierten en personajes genéricos.
    Me entusiasma poner este modelo en el onboarding de la app para que los usuarios lleguen lo más rápido posible a su momento de “ajá”. Esperar más de 30 segundos no es lo ideal.
    De todos modos, para las ilustraciones reales seguiré usando el NB2 base. Como dijeron otros, esta versión Lite todavía tiene algunos problemas de matiz y consistencia.

    • Intenté algo parecido, pero me apareció un error diciendo que no se podía hacer algo relacionado con niños. ¿Eso cambió?
  • No incluyeron ChatGPT en la tabla comparativa. Eso, por sí solo, dice mucho.

    • Vale la pena señalarlo. Para quienes no lo sepan, ChatGPT Image 2 tiene un ELO absurdamente alto de 1387, más de 100 puntos por encima del modelo en segundo lugar, que tiene 1273 (https://arena.ai/leaderboard/text-to-image)
      En cambio, la latencia es un problema, y la configuración High de ChatGPT Image 2 es lenta: tarda unos 2 minutos en 1024x1024
      De cualquier forma, si lo hubieran incluido en esta tabla, la habría distorsionado hasta volverla inútil
      Me gustaría escribir sobre ChatGPT Image 2, pero ahora parece que a la gente ya no le interesa la generación de imágenes detalladas. Y eso que, en las pruebas existentes, ChatGPT Image 2 arrasa con todo
  • Es algo sorprendente que el modelo de imágenes de Grok le gane a Nano Banana en casi todas las métricas que destacaron aquí

    • ¿De verdad? ¿Me estoy perdiendo algo? Primero, no parece ser cierto, y las versiones que no son Lite parecen ganarle a Grok en general
      Segundo, para empezar este es un modelo de bajo costo y generación masiva, no un modelo frontier de vanguardia, así que es normal que tenga benchmarks más bajos
  • Me gustó Nano Banana Pro. ¿Todavía hay alguna alternativa local? Escuché hablar de Qwen Image, Klein y el Krea reciente, pero me gustaría saber cuál recomiendan

    • Krea-2 es excelente. Si puedes aceptar una licencia restrictiva, la velocidad de salida y el prompting con JSON, Ideogram 4 probablemente sea lo más cercano a un modelo de vanguardia
      Si ves GenAI Showdown en mi perfil, hay benchmarks comparativos con modelos locales y propietarios
      De hecho, obtuvo una puntuación más alta que Gemini 2.5, es decir, que el NB original, lo cual es bastante impresionante
    • Krea es bueno. Para información sobre modelos públicos de vanguardia, mira r/StableDiffusion
  • Estoy bastante atrasado en generación de imágenes, así que solo la uso de vez en cuando para tokens de rol, bromas o recursos temporales personales. Para mí, esto es una locura
    Puede generar imágenes en unos 2 segundos. Antes, generar una imagen de la misma calidad con ChatGPT tomaba entre 30 segundos y 1 minuto
    No entiendo la reacción negativa aquí

    • Aun así, el detalle de ChatGPT es mucho mejor. También puede hacer cosas como cómics complejos de 6 viñetas que Nano Banana no logra igualar
      Y buena parte de la reacción negativa viene de gente que odia el concepto mismo de arte con IA y quiere que fracase
    • Son usos distintos.
      Quienes trabajan en cosas donde la imagen en sí es el centro quieren gastar más por imagen
      En cambio, si la imagen es parte de un reporte, un resultado descartable o algo que va en una demo, conviene más un enfoque barato
  • Me pregunto cómo se obtiene algo como el prototipo en tiempo real que aparece en la sección “hands on” de esta página
    En gemini.g puedo agregar un canvas o usar generación de imágenes, pero no sé bien dónde poner el prompt “space lift” para que salga como en la demo

  • Guau, la latencia se redujo muchísimo. Con esto deberían abrirse algunos casos de uso nuevos, aunque la página enlazada no explica de forma clara las diferencias entre modelos
    Pero, por mi experiencia personal usando modelos de imágenes generales, diría que Google es lo mejor para mi flujo de trabajo. Claro que todavía no he probado proveedores del Lejano Oriente
    Me da curiosidad qué opinan los demás