Presentan Gemini 2.5 Flash y Flash-Lite mejorados

(developers.googleblog.com)

1 puntos por GN⁺ 2025-09-27 | 1 comentarios | Compartir por WhatsApp

Google presentó nuevas versiones preview de Gemini 2.5 Flash y 2.5 Flash-Lite, con mejoras clave en calidad y eficiencia
Flash-Lite está optimizado para entornos de alta velocidad y bajo costo gracias a una mejor comprensión de instrucciones, menos respuestas verbosas y mejoras en capacidades multimodales y de traducción
Flash logra un gran aumento de rendimiento en tareas complejas de tipo agente con mejor uso de herramientas y mayor eficiencia de tokens
En pruebas reales, la puntuación de SWE-Bench Verified subió 5%, y en benchmarks internos el rendimiento en tareas de largo plazo mejoró 15%
Ambos modelos son compatibles con el alias -latest, lo que permite usar las funciones más recientes sin modificar el código, y quienes necesiten estabilidad pueden seguir usando los modelos 2.5 existentes

Resumen de Gemini 2.5 Flash y Flash-Lite

La versión más reciente de Gemini 2.5 Flash y Flash-Lite ya está disponible en Google AI Studio y Vertex AI. El objetivo de este lanzamiento es seguir ofreciendo mejor calidad de modelo y mayor eficiencia
El nuevo Flash-Lite y Flash muestran mejoras importantes frente a los modelos anteriores en calidad general, velocidad y costo
Flash-Lite reduce en 50% los tokens de salida, y Flash en 24%, lo que permite ahorrar costos operativos y acelerar el procesamiento

Gemini 2.5 Flash-Lite actualizado

Mayor capacidad para seguir instrucciones: mejoró notablemente la comprensión y ejecución de instrucciones complejas o system prompts
Más concisión: genera respuestas más cortas y fáciles de entender, lo que reduce el costo por tokens y la latencia en entornos con mucho tráfico
Mejor calidad multimodal y de traducción: aumenta la confiabilidad en transcripción de audio, reconocimiento de imágenes y traducción
La versión preview de Flash-Lite puede probarse de inmediato con el nombre de modelo gemini-2.5-flash-lite-preview-09-2025

Gemini 2.5 Flash actualizado

Mejor uso de herramientas: aumentó notablemente su utilidad en escenarios complejos de varios pasos basados en agentes, logrando una mejora de 5 puntos porcentuales frente a la versión anterior en SWE-Bench Verified (48.9% → 54%)
Mejor eficiencia de costos: ofrece mayor calidad de salida con menos uso de tokens, reduciendo latencia y costos de infraestructura
Los comentarios de los usuarios de Primer también han sido positivos
- Yichao ‘Peak’ Ji, cofundador y Chief Scientist de Manus, comentó: "El nuevo modelo Gemini 2.5 Flash ofrece tanto una velocidad sorprendente como inteligencia. En tareas de agentes basadas en objetivos de largo plazo, el rendimiento mejoró 15%, lo que permite escalar aún más gracias a su eficiencia de costos"
La versión preview de Gemini 2.5 Flash está disponible con el nombre de modelo gemini-2.5-flash-preview-09-2025

Empezar a crear con Gemini

Durante el último año, el lanzamiento de modelos preview permitió que los desarrolladores probaran rápidamente funciones nuevas y aportaran retroalimentación
Las versiones preview anunciadas hoy no pasan oficialmente a ser una nueva versión estable, sino que se usan como base para mejorar la calidad de la próxima versión oficial

Se agregó el alias -latest para evitar nombres de modelo largos y facilitar el uso permanente del modelo más reciente. Este alias apunta automáticamente a la versión más nueva, por lo que permite probar nuevas funciones sin cambiar el código
- gemini-flash-latest
- gemini-flash-lite-latest
Si una versión específica se actualiza o se descontinúa, se notificará por correo electrónico con al menos 2 semanas de anticipación. El alias es solo una referencia, y el precio, las funciones y los límites pueden variar según cada lanzamiento
Para quienes necesiten estabilidad a largo plazo, se recomienda seguir usando los nombres de modelo gemini-2.5-flash y gemini-2.5-flash-lite

Importancia

Este lanzamiento es una actualización preview, no una promoción a versión estable oficial, y forma parte del proceso para experimentar y recopilar comentarios de usuarios con miras a futuros modelos estables
Con Gemini, Google busca equilibrar velocidad, inteligencia y eficiencia de costos, y sigue mejorando para ayudar a los desarrolladores a crear mejores aplicaciones de IA

1 comentarios

GN⁺ 2025-09-27

Opiniones en Hacker News

Describe muy bien los problemas que he notado al usar Gemini últimamente. El modelo en sí es realmente sobresaliente, pero al usarlo en la práctica se repite el problema de que la conversación se corta a la mitad. No parece ser por límite de tokens ni por filtros, sino por un bug en el que el modelo envía incorrectamente la señal de respuesta completada. Lleva ya varios meses reportado como issue P2 en GitHub y en el foro de desarrolladores. Si comparas una respuesta completa de Gemini con Claude o GPT-4, la calidad no es nada mala. Pero la confiabilidad importa. Aunque no sea perfecto, es más cómodo usar un modelo que siempre responde hasta el final. Google tiene la capacidad técnica, pero mientras no arregle este problema básico del flujo conversacional, por buenos que sean los benchmarks, inevitablemente dará la impresión de estar roto frente a la competencia. Como referencia, ver issue #707 y discusión en el foro de desarrolladores
- Menciona otra desventaja de Gemini. No puede manejar al mismo tiempo tool calling y la exigencia de salida JSON. Si especificas application/json en la solicitud, ya no se pueden usar herramientas; y si quieres usar ambos, tienes que esperar a la fuerza que el JSON salga bien (algo que falla seguido), o usar herramientas en la primera solicitud y formatear en una segunda. Es engorroso, pero el workaround es relativamente simple
- No es un problema exclusivo de Gemini; también he tenido muchas experiencias con ChatGPT donde la confiabilidad fue un problema serio
- No entiendo estos problemas pequeños, ni tampoco que en AI Studio ni siquiera funcione bien el scroll. Me cuesta comprender cómo una herramienta tan impresionante puede fallar en funciones tan básicas
- Yo siento algo parecido. Gemini 2.5 Pro encaja realmente bien para arquitectura de software. Pero cansa tener que estar empujándolo todo el tiempo. Sonnet también rinde lo suficientemente bien
- ChatGPT también tiene muchos problemas de confiabilidad
Añadí soporte para ese modelo en el plugin llm-gemini. Se puede ejecutar con uvx sin instalación aparte. Ejemplo:

export LLM_GEMINI_KEY='...'
uvx --isolated --with llm-gemini llm -m gemini-flash-lite-latest 'An epic poem about frogs at war with ducks'

Las notas de lanzamiento están aquí. Para la discusión sobre pelícanos, ver esta publicación

Me pregunto si la imagen SVG de ejemplo de un pelícano andando en bicicleta ya estará entrando en los datasets de entrenamiento. Hay mucha gente de ingeniería en este campo que visita Hacker News con frecuencia
Al final, me pregunto quién ganará. ¿Las ranas? ¿Los patos? ¿O el pelícano?
Si 2.5 es un modelo mejorado, me pregunto por qué la versión no es 2.6. Es confuso tener que distinguir entre el 2.5 anterior y el nuevo 2.5. Me parece una molestia parecida a cuando Apple lanzó "the new iPad" sin numeración
- Por eso a menudo a la segunda versión de Sonnet v3.5 la llamaban v3.6, y Anthropic terminó nombrando la siguiente como v3.7
- Normalmente se les llama por el mes/año de lanzamiento. Por ejemplo, al Gemini 2.5 Flash más reciente lo llaman "google/gemini-2.5-flash-preview-09-2025". Referencia
- 2.5 no es un número de versión, sino una indicación de la generación de arquitectura. Si tomas como ejemplo un Mazda 3, sería más como añadirle un nuevo nivel de equipamiento o un refresh menor al modelo existente, no sacar un “Mazda 4”. Aun así, coincido en que SemVer sería mejor
- Tal vez la idea sea transmitir que se trata más bien de un bug fix
- Aun así, eso termina generando confusión sobre cuál es mejor entre 2.6 Flash y 2.5 Pro
Parece que Google, entre los principales proveedores de modelos fundacionales, está realmente enfocado en latencia, TPS y costo. Anthropic y OpenAI van por delante en inteligencia del modelo, pero por debajo de cierto umbral de rendimiento una respuesta lenta resulta incómoda en herramientas colaborativas. Aunque sea un poco menos inteligente, un modelo rápido como Gemini se siente más agradable dentro del flujo de trabajo. Aun así, a veces se siente completamente romo frente a Claude o GPT-5
- Personalmente dudo que esta división tan binaria sea realmente correcta. No me parece que Gemini esté tan por detrás en “inteligencia”, y creo que la brecha se va a cerrar aún más en los próximos ciclos. Además, Google parece estar invirtiendo capacidades no solo en latencia/TPS/costo, sino también en integrar rápidamente sus modelos en muchos productos más allá del chatbot simple. Por ejemplo, además de Google Workspace y Google Search, también está experimentando activamente en nuevas áreas como jules, labs.google/flow y un dashboard financiero. Creo que es cuestión de tiempo para que Gemini llegue también a YouTube
- Últimamente estoy reduciendo mi uso de Gemini (2.5-pro). Antes me impresionaban su capacidad de investigación profunda y sus citas confiables. Pero en las últimas semanas discute más y no logra detectar alucinaciones relacionadas con fuentes. Por ejemplo, le pregunté sobre el acceso al secrets map de Github Actions y, en vez de darme la respuesta correcta, me devolvió un test de workflow incorrecto y por más que lo refuté no hizo más que insistir con argumentos absurdos. En cambio, ChatGPT respondió sin problemas. Referencias relacionadas: primera, segunda
- Personalmente creo que la competencia en latencia/TPS/costo es entre grok y gemini flash. No hay ningún otro modelo que les siga el paso en tareas de imagen→texto. OpenAI y Anthropic no parecen muy interesados en esa área
- Hace 10 años era “siéntalo frente a internet lento antes de casarte”; ahora estamos entrando a la era de “siéntalo frente a un modelo de IA lento antes de casarte” ;-)
- Me cuesta estar de acuerdo. Gemini no solo destaca por su relación precio/rendimiento; para usuarios generales es el mejor modelo “de diario”. En particular, en la parte más “agéntica”, como programación, queda bastante atrás de Claude o GPT-5, pero en conversaciones largas y para recordar bien el contexto previo, Gemini es el mejor. Cuando uso varios modelos en paralelo para depurar, Gemini es el único que capta puntos importantes de mensajes anteriores y da muestras de código precisas. También es abrumadoramente superior en soporte para idiomas de bajos recursos, OCR y reconocimiento de imágenes. Eso sí, hoy por hoy Google es el más flojo en marketing y UX de IA, pero si mejora ahí, crecerá más. De hecho, yo uso los tres modelos casi todos los días
Resumen no-IA: ambos modelos se volvieron más inteligentes en el índice de análisis de IA y también mejoró el tiempo de respuesta end-to-end. La eficiencia de tokens de salida mejoró entre 24% y 50% (lo que ayuda a reducir costos). Las principales mejoras de Gemini 2.5 Flash-Lite son mejor comprensión de instrucciones, menos verbosidad innecesaria y mejores capacidades multimodales y de traducción. Gemini 2.5 Flash se caracteriza por un uso de herramientas agénticas más potente y razonamiento con eficiencia de tokens. Los model strings son gemini-2.5-flash-lite-preview-09-2025 y gemini-2.5-flash-preview-09-2025
- Siento que algo como “Resumen no-IA” podría volverse tendencia. El simple hecho de saber que lo resumió una persona ya hace más agradable la lectura
- Me voy a quedar con el término “Non-AI Summary” para usarlo
- Me pregunto qué significa “output token efficiency”. Gemini Flash cobra por cantidad de tokens de entrada/salida, así que si la salida es la misma, el costo también debería ser el mismo. O sea, salvo que hayan cambiado el tokenizador o algún mecanismo interno, cuesta entender cómo se abaratan los costos
- 2.5 Flash fue lo que hizo que la IA me resultara verdaderamente útil por primera vez. Yo era el hater #1 de la IA, y ahora abro antes la app de Gemini que Google Search. Es más precisa, no tiene anuncios y la mayor parte de la información que da es correcta; se siente como tener el conocimiento preciso de internet en la mano. Puedo quedarme solo hablando en la app de Gemini sobre la temperatura de siembra del kale. Tiene mucho menos ruido que todos esos blogs, bots y spam SEO. Aun así, sigue pendiente cuánto tiempo va a mantener Google esto y el problema de canibalizar su modelo de ingresos
- En general, parece una mejora incremental frente a la versión anterior
Es una queja menor sobre la numeración de versiones, pero sería más intuitivo subir el número cada vez que hay mejoras. Tal como lo hacen ahora resulta confuso
- Tengo la misma queja. Anthropic hizo algo parecido y luego creció toda la polémica del “nerf”. Nosotros compramos tokens en paquete, tienen una vigencia corta y tampoco sabemos bien cuánto cambió el modelo en realidad. Creo que incluso si mejora o empeora solo 1%, deberían publicarlo. En el fondo, las empresas de IA deberían cuidar mucho más la transparencia y la accesibilidad. Como ejemplo relacionado, ver Claude incident
- Esto no es una queja menor, es un problema serio. Con esta política, la numeración de versiones pierde sentido por completo
- Probablemente sea la idea de reemplazar el modelo 2.5 Flash existente. También me recuerda a cuando OpenAI actualizó silenciosamente modelos como 4-o y luego hizo rollback por problemas de glazing
Hace falta crear un esquema nuevo de versionado con semver real para modelos, que distinga claramente entre optimizaciones menores y cambios completos de retraining/arquitectura
Gemini 2.5 Flash es el LLM que más uso últimamente. En especial, me pareció mejor que OpenAI/Anthropic en entrada de imágenes y salida estructurada
- Gemini 2.5 Flash aplasta a ChatGPT 5 en mi área de trabajo. Me sorprende que no sea más popular
- No he podido confirmar si cambió el precio
Me pregunto si soy el único usando un Gemini distinto. En la empresa usamos Google Workspace, así que Gemini viene integrado por defecto. Pero comparado con otros modelos, los resultados son horribles. Todos lo elogian, pero el Gemini que yo he probado responde mal o demasiado largo (le pido resumen y me da un ensayo), y no me deja nada satisfecho. Si hago la misma pregunta a Gemini y a una versión bastante débil de ChatGPT, ChatGPT sale mucho mejor. ¿Me estaré perdiendo de algo?
- Yo solo lo he usado en ai studio, y ahí sí me parece muy superior a otros modelos. No tengo experiencia con integraciones en IDE ni similares. Eso sí, conviene decirle que reduzca los elogios excesivos, y eso también ayuda a manejar la ventana de contexto
- A mí me pasa algo parecido. Fuera de traducción casi no lo uso, y hasta para traducir a veces se niega o actúa raro. La más reciente fue que ante una pregunta básica respondió solo con una coma, o rechazó algo por un tema ético absurdo (por ejemplo, “mochila con capucha”). El mayor problema es que rechaza solicitudes que no tendrían por qué ser problemáticas
- Depende del uso. Para preguntas y respuestas simples, GPT-5 es mejor, pero para redactar a partir de frases, hacer reportes, resumir o enfatizar, Gemini es el mejor
- Personalmente, lo que hace muy bien ChatGPT es interpretar la pregunta sin necesidad de pedir aclaraciones adicionales y presentarla en un formato fácil de leer. Siento que el post-training de GPT está un nivel arriba
- Tal vez simplemente lo estás usando de manera incorrecta
Gemini 2.5 Flash es un modelo impresionante por su relación precio/rendimiento. Aun así, no entiendo por qué Gemini 2.0 Flash sigue siendo tan popular. Cifras recientes de modelos en OpenRouter:
- xAI: Grok Code Fast 1: 1.15T
- Anthropic: Claude Sonnet 4: 586B
- Google: Gemini 2.5 Flash: 325B
- Sonoma Sky Alpha: 227B
- Google: Gemini 2.0 Flash: 187B
- DeepSeek: DeepSeek V3.1 (gratis): 180B
- xAI: Grok 4 Fast (gratis): 158B
- OpenAI: GPT-4.1 Mini: 157B
- DeepSeek: DeepSeek V3 0324: 142B
- Una desventaja de OpenRouter es que no publica cuántas empresas usan realmente cada modelo. Si un solo gran cliente cambia de proveedor, todo el indicador puede moverse. Ojalá eso fuera más transparente
- En nuestra empresa también hay muchos trabajos que se quedaron montados sobre modelos viejos y nunca se actualizaron
- Es por el precio. 2.0 Flash sigue siendo más barato que 2.5 Flash y aun así sigue siendo un modelo muy competente
- 2.0 Flash es claramente más barato que 2.5 Flash y, hasta antes de la actualización reciente, incluso era mejor que 2.5-Flash-Lite. Es un buen caballo de batalla para parsing de texto, resúmenes y reconocimiento de imágenes. Pero ahora, con la llegada de 2.5-Flash-Lite, parece que sí lo van a reemplazar
- Tal vez mantienen también el esquema de nombres de 2.5 Flash porque da flojera renombrarlo para ajustarlo a la versión más nueva.