Nano Banana 2 Lite
(deepmind.google)- Nano Banana 2 Lite, incorporado a la familia Gemini Image de Google DeepMind, es un modelo pensado para ejecutar la generación y edición de imágenes de forma más rápida y económica, con foco en reducir el costo de las tareas visuales con muchas iteraciones
- Sus ejes principales son la baja latencia y la eficiencia de costos a gran escala, y permite generar miles de imágenes a un costo menor que los modelos de producción más pesados
- En cuanto a calidad, mantiene el control y la precisión de la familia Nano Banana, con soporte para consistencia de personajes, edición precisa y uso de conocimiento del mundo real
- Casos como Space Lift, Gridscape, Peek-A-Word y Anywhere muestran experiencias de usuario posibles cuando la generación de imágenes se vuelve lo bastante rápida como para no interrumpir el flujo de una app
- Puede cometer errores en rostros pequeños, ortografía precisa, detalles finos, resultados basados en datos, traducción y localización, y en ediciones y composiciones complejas, por lo que es necesario revisar los resultados generados
Modelo Gemini Image enfocado en generación rápida y bajo costo
- Nano Banana 2 Lite es un modelo Gemini Image presentado por Google DeepMind, orientado a la generación y edición rápida de imágenes y a un menor costo
- Sus principales usuarios son creadores, empresas y desarrolladores, y está pensado para flujos de trabajo donde se exploran rápidamente múltiples ideas visuales
- Google DeepMind lo presenta como el modelo Gemini Image más rápido y eficiente hasta la fecha, y afirma que ofrece generación y edición de alta velocidad al costo más bajo
- Las vías de acceso son las siguientes
- Google AI Studio
- Flash-Lite mode en la app de Gemini
- Gemini API
- Gemini Enterprise Agent Platform
Equilibrio entre velocidad, costo y calidad
- La reducción de latencia es clave, y permite exploración rápida y tareas iterativas
- En generación a gran escala, puede crear miles de imágenes a un costo mucho más bajo que modelos de producción más pesados
- La calidad apunta a ofrecer más rápido el control y la precisión que se esperan de Nano Banana
- Mantener la consistencia de personajes
- Edición visual precisa
- Uso de conocimiento del mundo real
- En los prompts, cuanto más se detallen los elementos deseados, como personajes, fondos y ambiente general, más cerca puede estar la imagen de la intención original
- Las guías de prompts están disponibles en View prompt guide y Learn how to prompt
Casos de apps basadas en la velocidad de generación de imágenes
- Space Lift es una app que, al subir una foto de una habitación, genera de inmediato diversos conceptos de interiorismo, desde Mid-Century Modern hasta Bohemian Chic
- Gridscape construye nodos de información con texto e imágenes generados por Nano Banana 2 Lite y Gemini 3.1 Flash Lite cuando se ingresa una pregunta en un lienzo infinito
- Los usuarios pueden explorar conceptos relacionados con más profundidad siguiendo rutas clicables
- Peek-A-Word convierte el texto seleccionado en material visual generado por IA, y ofrece definiciones concisas e imágenes contextuales en un solo espacio
- Se enfoca en mantener el flujo de aprendizaje sin cambiar de pestaña
- Anywhere es una app interactiva de globo terráqueo 3D creada con Nano Banana 2 Lite
- Al adjuntar una imagen, genera una serie de postales personalizadas con lugares emblemáticos del mundo como fondo
- Los usuarios pueden girar el globo y hacer clic en las fotos para ver información de destinos virtuales
Métricas comparativas y model card
- Google DeepMind presenta a Nano Banana 2 Lite como su modelo más eficiente hasta ahora, con un buen equilibrio entre calidad y velocidad
- Entre los modelos de comparación se incluye el modelo premium Nano Banana 2
- Las áreas de comparación incluyen elementos de calidad en generación de imágenes, como seguimiento de prompts, representación de detalles y control
- La sección de rendimiento presenta las siguientes métricas
- Image Editing: puntaje Elo de edición de imágenes frente a modelos competidores, según lmarena.ai
- Image Generation: puntaje Elo de generación de imágenes frente a modelos competidores, según lmarena.ai
- Latency per 1k resolution image: latencia por imagen de resolución 1k, basada en datos de artificialanalysis.ai
- Price per 1k resolution image: precio por imagen de resolución 1k
- La model card está disponible en View model card
Posibilidades de uso vistas por los socios
- Figma Weave evalúa que Nano Banana 2 Lite ayuda a los diseñadores a explorar más ideas y crear imágenes únicas en un lienzo basado en nodos
- Manus AI probó la generación de imágenes en tiempo real para presentaciones y páginas web dentro de flujos de trabajo autónomos
- Considera que la velocidad es adecuada para la rápida iteración visual de agentes de IA y para entregar resultados en segundos
- Estima que la calidad de imagen se acerca a la de Nano Banana 2 completo
- Artlist considera que, cuando la velocidad de generación supera lo imaginado, los usuarios pueden permanecer dentro de sus ideas sin esperar a la herramienta
- Weekend afirma que, en el juego de TV controlado por voz Wit’s End, instant-ramen es aproximadamente 2,7× más rápido que Gemini 3.1 Flash Image en generación de imágenes 1k
- Procesa texto a imagen, edición y composición de múltiples imágenes con una sola API drop-in
- Latitude considera que la velocidad de generación de imágenes es importante en un motor que crea mundos mientras los jugadores exploran, y evalúa que instant-ramen permite una generación visual lo bastante rápida como para acompañar la experiencia de juego
Limitaciones que aún requieren revisión
- Gemini puede crear una amplia variedad de imágenes, pero algunas funciones todavía están en mejora, y las imágenes generadas deben revisarse directamente
- En fidelidad visual y de texto, puede tener dificultades con rostros pequeños, ortografía precisa y detalles finos en las imágenes
- En precisión de datos y hechos, su conocimiento del mundo real es amplio, pero no completo
- Al generar infografías, anotaciones de diagramas o representaciones complejas de datos, puede interpretar mal la información o crear resultados contrarios a los hechos
- Las salidas basadas en datos requieren verificación
- En traducción y localización, puede generar y traducir texto en varios idiomas, pero puede tener dificultades con gramática, ortografía, matices culturales y expresiones idiomáticas
- En ediciones complejas y mezcla de imágenes, puede producir resultados poco naturales, artefactos visuales o escenas inconexas al editar máscaras, hacer grandes cambios de iluminación como convertir día en noche o componer múltiples imágenes
- La consistencia de personajes es una fortaleza, pero no siempre es exacta, y Google DeepMind está trabajando para hacerla más estable
Funciones de seguridad y precauciones de uso
- Google DeepMind usa filtrado amplio y etiquetado de datos para reducir el contenido dañino en los datasets y disminuir la posibilidad de salidas perjudiciales
- En seguridad de contenido, realiza evaluaciones y red teaming, incluida la seguridad infantil y la representación
- Las imágenes generadas incluyen las funciones más recientes de privacidad y seguridad, y SynthID inserta directamente en la imagen una marca de agua digital invisible que permite identificar imágenes generadas por IA
- Hay información sobre SynthID disponible en Learn more
- Los LLM como Gemini 3.1 Flash-Lite Image pueden ofrecer contenido inexacto u ofensivo que no representa las opiniones de Google
- Se requiere precaución al confiar en, publicar o usar contenido proporcionado por un LLM, y no se debe depender de él para asesoría profesional en áreas como medicina, derecho o finanzas
1 comentarios
Opiniones de Hacker News
El primer ejemplo de generación de interiores de casas me desagrada de una forma difícil de describir. Hoy en día, los agentes inmobiliarios meten todos los departamentos viejos y difíciles de vender en un filtro de IA, así que antes de ver qué cosa horrible están intentando vender a un precio absurdo, hay que pasar por decenas de imágenes de “así podría verse si lo decoraras al estilo Ikea”.
En el dormitorio real apenas cabía una cama queen ;(
Fue especialmente útil cuando era difícil imaginar por mi cuenta cómo se vería todo el espacio al poner azulejos en ciertas partes.
Antes simplemente era más caro contratar a alguien para que hiciera ese trabajo.
Las imágenes retocadas siempre muestran las mismas paredes luminosas y muebles grises estilo revista.
La IA solo lo hizo más barato; al final era inevitable que termináramos así.
Las imágenes retocadas de esta forma sí suelen llevar una pequeña marca de agua que informa que fueron modificadas.
Es un problema que ya existía antes de los filtros de IA, así que no es nuevo, pero ahora se está volviendo mucho peor y más barato.
Recibí acceso anticipado para probar este modelo. Fue por trabajo; Google todavía no llegó a apreciarme personalmente, lol.
Funciona tal como se anuncia aquí, y en aspectos como el buen renderizado de texto parece una versión destilada de Nano Banana 2. Nano Banana 1 es mucho más débil en este punto.
Por supuesto, con prompts detallados no está ni cerca del Nano Banana 2 base. Mi mayor queja es que en NB2 se puede forzar programáticamente la relación de aspecto, pero en NB2L no.
Aun así, el precio de US$0.034 por imagen es más alto de lo que esperaba. Normalmente el precio está relacionado con el tiempo de generación, y aunque genera en la mitad del tiempo que Nano Banana 1, Nano Banana 1 cuesta US$0.039 por imagen.
La afirmación de Google de que se puede reemplazar directamente un pipeline de NB1 por NB2L tiene sentido.
Ayer Google anunció que permitiría la generación gratuita de imágenes en la app de Gemini (https://blog.google/innovation-and-ai/products/gemini-app/pe...), pero no especificó qué modelo usa. Creo que la principal motivación de Nano Banana 2 Lite está ahí.
gemini-3.1-flash-lite-imagey pude usar relaciones de aspecto como 16:9 y 4:3.[1] - https://cloud.google.com/developers/vertex-ai
Está bien, pero está montado sobre el AI Studio roto de Google. La mitad de sus funciones requieren una cuenta de Google One, así que no puedo usarlas.
Tengo una cuenta de Workspace, así que no califico y tampoco puedo cambiarme, porque Google One no admite dominios propios.
Entonces, ¿para usar una dirección de correo elegante y Banana tengo que manejar dos cuentas y además pagar? Empiezo a pensar que la cantidad correcta de cuentas pagas de Google aquí es 0.
Mi solución fue OpenRouter. En chats de desarrollo y pruebas puedo generar imágenes con modelos de Google, y también ejecutar el mismo prompt lado a lado con otros modelos. Para generación ligera de imágenes es muy cómodo.
En general uso por defecto mi cuenta personal, que tiene más contexto, pero entonces necesito algunos pasos extra para traer materiales como los de Workspace Drive.
Y cosas como Project Genie directamente no están disponibles en Workspace, lo cual se siente bastante raro.
https://www.burlap.app/download
La velocidad definitivamente impresiona. El NB2 base tarda unos 30 segundos por imagen, mientras que este parece tardar menos de 5 segundos.
Hice una app que genera historias ilustradas usando a niños como personajes. Quería mantener el estilo de las ilustraciones, pero priorizar el parecido con los niños.
Probé varios modelos, pero no parece haber ninguno que se acerque tanto a mantener el parecido en un estilo estilizado. Otros modelos los convierten en personajes genéricos.
Me entusiasma poner este modelo en el onboarding de la app para que los usuarios lleguen lo más rápido posible a su momento de “ajá”. Esperar más de 30 segundos no es lo ideal.
De todos modos, para las ilustraciones reales seguiré usando el NB2 base. Como dijeron otros, esta versión Lite todavía tiene algunos problemas de matiz y consistencia.
No incluyeron ChatGPT en la tabla comparativa. Eso, por sí solo, dice mucho.
En cambio, la latencia es un problema, y la configuración High de ChatGPT Image 2 es lenta: tarda unos 2 minutos en 1024x1024
De cualquier forma, si lo hubieran incluido en esta tabla, la habría distorsionado hasta volverla inútil
Me gustaría escribir sobre ChatGPT Image 2, pero ahora parece que a la gente ya no le interesa la generación de imágenes detalladas. Y eso que, en las pruebas existentes, ChatGPT Image 2 arrasa con todo
Es algo sorprendente que el modelo de imágenes de Grok le gane a Nano Banana en casi todas las métricas que destacaron aquí
Segundo, para empezar este es un modelo de bajo costo y generación masiva, no un modelo frontier de vanguardia, así que es normal que tenga benchmarks más bajos
Me gustó Nano Banana Pro. ¿Todavía hay alguna alternativa local? Escuché hablar de Qwen Image, Klein y el Krea reciente, pero me gustaría saber cuál recomiendan
Si ves GenAI Showdown en mi perfil, hay benchmarks comparativos con modelos locales y propietarios
De hecho, obtuvo una puntuación más alta que Gemini 2.5, es decir, que el NB original, lo cual es bastante impresionante
Estoy bastante atrasado en generación de imágenes, así que solo la uso de vez en cuando para tokens de rol, bromas o recursos temporales personales. Para mí, esto es una locura
Puede generar imágenes en unos 2 segundos. Antes, generar una imagen de la misma calidad con ChatGPT tomaba entre 30 segundos y 1 minuto
No entiendo la reacción negativa aquí
Y buena parte de la reacción negativa viene de gente que odia el concepto mismo de arte con IA y quiere que fracase
Quienes trabajan en cosas donde la imagen en sí es el centro quieren gastar más por imagen
En cambio, si la imagen es parte de un reporte, un resultado descartable o algo que va en una demo, conviene más un enfoque barato
Me pregunto cómo se obtiene algo como el prototipo en tiempo real que aparece en la sección “hands on” de esta página
En gemini.g puedo agregar un canvas o usar generación de imágenes, pero no sé bien dónde poner el prompt “space lift” para que salga como en la demo
Guau, la latencia se redujo muchísimo. Con esto deberían abrirse algunos casos de uso nuevos, aunque la página enlazada no explica de forma clara las diferencias entre modelos
Pero, por mi experiencia personal usando modelos de imágenes generales, diría que Google es lo mejor para mi flujo de trabajo. Claro que todavía no he probado proveedores del Lejano Oriente
Me da curiosidad qué opinan los demás