- Junto con el lanzamiento oficial de los modelos Gemini 2.5 Flash y Pro, se presentó la versión preview del modelo Flash-Lite, el más barato y rápido
- Flash-Lite está especializado en tareas sensibles a la latencia, como traducción y clasificación, y ofrece menor latencia y mejor calidad general que 2.0 Flash/Flash-Lite
- Todos los modelos 2.5 son compatibles con funciones como entrada multimodal, longitud de contexto de 1M tokens, conexión con herramientas (búsqueda, ejecución de código, etc.) y cambio al modo Thinking
- Diseñados considerando la optimización de rendimiento por costo (Pareto Frontier), forman una línea de productos adecuada para manejar tráfico a gran escala
- Flash-Lite y Flash también se están aprovechando con personalización para búsqueda, y los desarrolladores pueden usar los modelos preview u oficiales en Google AI Studio y Vertex AI
Características de Flash-Lite
- Como el modelo más barato y rápido, tiene un precio de $0.10 por 1 millón de tokens de entrada y $0.40 por 1 millón de tokens de salida
- Ofrece excelente rendimiento por costo, por lo que es especialmente adecuado para tareas con gran volumen de solicitudes, como traducción y clasificación
- La calidad general mejoró frente al anterior 2.0 Flash-Lite: en ciencia (GPQA) pasó de 64.6% a 66.7%, y en matemáticas (AIME 2025) de 49.8% a 63.1%
- En generación y edición de código, alcanza 34.3% y 27.1% respectivamente; aunque está por debajo de los modelos de alto rendimiento, sigue siendo una opción eficiente en costo
- El rendimiento de procesamiento multimodal se mantiene en 72.9%, mientras que la comprensión de imágenes mejora de 51.3% a 57.5%
- Al activar el modo de razonamiento (Thinking), aumenta la precisión general; por ejemplo, en HumanEval sube de 5.1% a 6.9%, y en SWE-bench multi-task de 42.6% a 44.9%
- En factualidad (SimpleQA) y comprensión de contexto largo (MRCR), el rendimiento también mejora notablemente en modo Thinking; en particular, la precisión en contexto largo con 1M tokens pasa de 5.4% a 16.8%, más de 3 veces
- La capacidad multilingüe (MMLU) también mejora, alcanzando 81.1% en modo sin Thinking y hasta 84.5% en Thinking
1 comentarios
Opiniones de Hacker News
Google no lo menciona en su publicación, pero parece que viene con un aumento de precio para Gemini 2.5 Flash
En el preview archivado de 2.5 Flash, los precios eran $0.15 por 1 millón de tokens de entrada de texto/imagen/video, $1.00 para audio, y salida de $0.60 sin thinking y $3.50 con thinking
En los nuevos precios ya no existe la distinción entre thinking y non-thinking
La entrada de texto/imagen/video sube al doble, a $0.30 por millón, el audio se mantiene en $1.00, y la salida queda en $2.50 por millón, mucho más cara que antes sin thinking, pero más barata que con thinking
Se pueden ver más detalles de precios aquí
En el blog post hay más información sobre el cambio de precios
Enlace de referencia
Se comenta que se decía que la tecnología de IA pronto sería demasiado barata, pero por ahora lo que está pasando es que los precios están subiendo
Cuando salió Gemini por primera vez, me parecía que el precio era exageradamente bajo frente a la competencia, y ahora da la impresión de que por fin refleja un precio más realista
Un aumento de precio de 2x como si nada
Si se piensa que Gemini 2.0 Flash costaba $0.10/$0.40, sí se siente bastante la subida
Parece un cambio detectado con bastante agudeza
Creo que este cambio de precios es bastante importante para Gemini, que podía haber sido el GOAT en audio-to-audio
Hubo una época en la que mucha gente usaba Gemini Pro porque era gratis en AI Studio
Después de eso, su rendimiento más bien empeoró, y ahora para trabajo importante vuelvo a Claude
Gemini se siente mucho como ese amigo que habla de más
Aun así, lo uso seguido para brainstorming, y luego tomo los prompts que genera Gemini, los pulo y los uso en Claude
Si ves el leaderboard de Aider, mi experiencia no siempre coincide con que Gemini vaya ganando
Yo solo uso directamente la API de Aider, así que no tengo experiencia con AI Studio
Claude funciona bien incluso con prompts flojos, sobre todo cuando la dirección todavía no está clara
Cuando yo sí tengo una dirección bien definida, Gemini 2.5 Pro (con Thinking activado) me parece mejor, y el código corre de forma más estable
En o4-mini y o3 se siente que “piensan” de una forma más inteligente, pero el código es más inestable (Gemini es más estable)
Mientras más complejidad hay, más parece debilitarse Claude; para mí, Gemini y o3 salen mejor parados
Desde que salió o3-mini, no he tenido razón para volver a Claude
A mí me pasó algo parecido
Al principio parecía resolver bien incluso problemas complejos, pero en tareas simples era difícil de encauzar
Las respuestas son demasiado largas y, como la UX es lo más importante, ahora prefiero la UX de Claude Code
A mí me pasa igual: incluso armé un Gem con un prompt elaborado para que respondiera de forma concisa, y aun así sigue siendo verboso y expandiendo innecesariamente el alcance de la pregunta
No tengo información interna, pero me da la impresión de que el modelo está quantized
Se observan patrones como repetir infinitamente un solo carácter, cosas que antes solo veía en modelos cuantizados
Ojalá hubieran hecho rollback al preview anterior
Esa versión preview era equilibrada y hasta daba contraargumentos útiles, pero la versión general availability se volvió excesivamente positiva en el tono
Gemini me impresionó muchísimo y dejé de usar OpenAI
A veces pruebo los tres modelos con OpenRouter, pero ahora uso Gemini en más del 90% de los casos
Comparado con el año pasado, cuando el 90% era ChatGPT, es un cambio bastante grande
Suelo ser crítico con Google, pero esta vez sí siento que los modelos son excelentes
Sobre todo, el context window gigantesco pesa muchísimo
A mí me pasó igual; esta vez hasta cancelé mi suscripción a Claude, y creo que Gemini se está poniendo al día muy rápido
Con este anuncio, creo que Flash Lite pasó de “sin utilidad” a “herramienta útil”
Flash Lite es barato y, sobre todo, su fortaleza es que casi siempre responde en menos de 1 segundo (mínimo 200 ms, promedio 400 ms)
En nuestro servicio Brokk(brokk.ai) ahora usamos Flash 2.0 (no Lite) para Quick Edits, y estamos evaluando meter 2.5 Lite
Me genera dudas para qué sirve un modelo inferior a Flash 2.5 cuando Thinking ya de por sí es lento
Si lo importante es responder rápido, activar thinking lo vuelve un poco ambiguo como opción
Tengo curiosidad por cómo usan Gemini fuera del área de programación y por qué lo eligieron
Cuando construyen apps, ¿diseñan el backend de GenAI para poder cambiarlo fácilmente?, ¿o balancean carga entre varios proveedores por precio o confiabilidad?, y si los LLM algún día terminan teniendo algo parecido a un mercado spot, ¿qué cambiaría?
En mi experiencia, Gemini 2.5 Pro destaca en tareas no relacionadas con código, como traducción y resúmenes (usando Canva)
Eso es posible por el enorme tamaño de su ventana de contexto y sus límites de uso
En especial, me parece mejor que ChatGPT para generar reportes de investigación
Tal vez porque Google domina la búsqueda, sus reportes se apoyan en múltiples fuentes y tienden a ser más precisos
También prefiero más su estilo de escritura, y que pueda exportar a Google Docs resulta muy conveniente
Eso sí, la UI está bastante por detrás de la competencia y es una gran desventaja que falten o estén flojas funciones clave como Custom instruction, Projects o Temporary Chat
Es útil poder meter de una sola vez muchísimos documentos bajo NDA y que en segundos extraiga solo lo relevante
Gracias a la enorme ventana de contexto y a su capacidad para sacar justo la información necesaria, es ideal para ese tipo de trabajo
Gemini Flash 2.0 es extremadamente barato y un modelo muy potente para cargas de trabajo enterprise
No tiene inteligencia de punta, pero por el precio bajo, la velocidad y la alta confiabilidad en salidas estructuradas, me deja muy satisfecho al desarrollar
Planeo probar una actualización a 2.5 Lite
Yo uso mucho lexikon.ai, y especialmente para procesamiento masivo de imágenes uso bastante Gemini
Me gusta porque el precio de la API de visión de Google es mucho más barato que el de otros grandes proveedores (OpenAI, Anthropic)
Uso Gemini 2.5 Flash (con la opción non-thinking) como compañero para pensar
Me ayuda a ordenar mis ideas y además me aporta automáticamente inputs que yo no había considerado
También me sirve para la autorreflexión: le planteo mis ideas o preocupaciones y tomo como referencia la respuesta de la IA
Me pregunto si hay personas que ahora no pueden acceder a la API de 2.5-pro
Me aparece el error: “projects/349775993245/locations/us-west4/publishers/google/models/gemini-2.5-pro no se puede encontrar o no tienes permisos para acceder”
También sale el mensaje de que verifique si estoy usando una versión válida del modelo
Operando un servicio de inferencia/procesamiento de datos LLM a gran escala, hago bastante profiling de costo y rendimiento con distintos modelos open-weight
Lo que todavía se me hace raro del pricing de LLM es que los proveedores sigan cobrando linealmente según el consumo de tokens, cuando el costo real del sistema aumenta cuadráticamente conforme crece la longitud de la secuencia
Como hoy en día la arquitectura de los modelos, los algoritmos de inferencia y el hardware son bastante parecidos, da la impresión de que los proveedores fijan precios apoyándose mucho en estadísticas históricas sobre los patrones de solicitud de sus clientes
Al final, que aparezcan subidas de precio a medida que reúnen datos sobre patrones reales de uso no me parece nada nuevo
Frente a 2.0 Flash Lite, el precio del procesamiento de audio en 2.5 Flash Lite subió 6.33 veces
En 2.5 Flash Lite, la entrada de audio cuesta $0.5 por 1 millón de tokens; en 2.0 costaba $0.075
Me intriga por qué subió tanto el precio de los tokens de audio
Si asumimos una proporción de tokens de entrada:salida de 3:1, el blended price subió 3.24 veces respecto antes, y frente a 2.0 Flash es casi 5 veces
Por eso, 2.0 Flash todavía parece competitivo para muchos usos, sobre todo fuera de programación
Aunque el rendimiento sea un poco menor, dividir el prompt en varias partes y usarlo varias veces podría dar mejor resultado en la práctica
Pensé que esta vez 2.5 Flash iba a ser la opción claramente dominante, así que me deja algo decepcionado
(Los datos de precios relacionados están aquí)