Google lanza oficialmente Gemini 2.5 Flash/Pro y presenta el modelo `Flash-Lite`

(blog.google)

1 puntos por GN⁺ 2025-06-18 | 1 comentarios | Compartir por WhatsApp

Junto con el lanzamiento oficial de los modelos Gemini 2.5 Flash y Pro, se presentó la versión preview del modelo Flash-Lite, el más barato y rápido
Flash-Lite está especializado en tareas sensibles a la latencia, como traducción y clasificación, y ofrece menor latencia y mejor calidad general que 2.0 Flash/Flash-Lite
Todos los modelos 2.5 son compatibles con funciones como entrada multimodal, longitud de contexto de 1M tokens, conexión con herramientas (búsqueda, ejecución de código, etc.) y cambio al modo Thinking
Diseñados considerando la optimización de rendimiento por costo (Pareto Frontier), forman una línea de productos adecuada para manejar tráfico a gran escala
Flash-Lite y Flash también se están aprovechando con personalización para búsqueda, y los desarrolladores pueden usar los modelos preview u oficiales en Google AI Studio y Vertex AI

Características de Flash-Lite

Como el modelo más barato y rápido, tiene un precio de $0.10 por 1 millón de tokens de entrada y $0.40 por 1 millón de tokens de salida
Ofrece excelente rendimiento por costo, por lo que es especialmente adecuado para tareas con gran volumen de solicitudes, como traducción y clasificación
La calidad general mejoró frente al anterior 2.0 Flash-Lite: en ciencia (GPQA) pasó de 64.6% a 66.7%, y en matemáticas (AIME 2025) de 49.8% a 63.1%
En generación y edición de código, alcanza 34.3% y 27.1% respectivamente; aunque está por debajo de los modelos de alto rendimiento, sigue siendo una opción eficiente en costo
El rendimiento de procesamiento multimodal se mantiene en 72.9%, mientras que la comprensión de imágenes mejora de 51.3% a 57.5%
Al activar el modo de razonamiento (Thinking), aumenta la precisión general; por ejemplo, en HumanEval sube de 5.1% a 6.9%, y en SWE-bench multi-task de 42.6% a 44.9%
En factualidad (SimpleQA) y comprensión de contexto largo (MRCR), el rendimiento también mejora notablemente en modo Thinking; en particular, la precisión en contexto largo con 1M tokens pasa de 5.4% a 16.8%, más de 3 veces
La capacidad multilingüe (MMLU) también mejora, alcanzando 81.1% en modo sin Thinking y hasta 84.5% en Thinking

Los detalles técnicos sobre la familia de modelos Gemini 2.5 pueden consultarse en Gemini technical report

1 comentarios

GN⁺ 2025-06-18

Opiniones de Hacker News

Google no lo menciona en su publicación, pero parece que viene con un aumento de precio para Gemini 2.5 Flash
En el preview archivado de 2.5 Flash, los precios eran $0.15 por 1 millón de tokens de entrada de texto/imagen/video, $1.00 para audio, y salida de $0.60 sin thinking y $3.50 con thinking
En los nuevos precios ya no existe la distinción entre thinking y non-thinking
La entrada de texto/imagen/video sube al doble, a $0.30 por millón, el audio se mantiene en $1.00, y la salida queda en $2.50 por millón, mucho más cara que antes sin thinking, pero más barata que con thinking
Se pueden ver más detalles de precios aquí
- En el blog post hay más información sobre el cambio de precios
  Enlace de referencia
- Se comenta que se decía que la tecnología de IA pronto sería demasiado barata, pero por ahora lo que está pasando es que los precios están subiendo
- Cuando salió Gemini por primera vez, me parecía que el precio era exageradamente bajo frente a la competencia, y ahora da la impresión de que por fin refleja un precio más realista
- Un aumento de precio de 2x como si nada
  Si se piensa que Gemini 2.0 Flash costaba $0.10/$0.40, sí se siente bastante la subida
- Parece un cambio detectado con bastante agudeza
  Creo que este cambio de precios es bastante importante para Gemini, que podía haber sido el GOAT en audio-to-audio
Hubo una época en la que mucha gente usaba Gemini Pro porque era gratis en AI Studio
Después de eso, su rendimiento más bien empeoró, y ahora para trabajo importante vuelvo a Claude
Gemini se siente mucho como ese amigo que habla de más
Aun así, lo uso seguido para brainstorming, y luego tomo los prompts que genera Gemini, los pulo y los uso en Claude
- Si ves el leaderboard de Aider, mi experiencia no siempre coincide con que Gemini vaya ganando
  Yo solo uso directamente la API de Aider, así que no tengo experiencia con AI Studio
  Claude funciona bien incluso con prompts flojos, sobre todo cuando la dirección todavía no está clara
  Cuando yo sí tengo una dirección bien definida, Gemini 2.5 Pro (con Thinking activado) me parece mejor, y el código corre de forma más estable
  En o4-mini y o3 se siente que “piensan” de una forma más inteligente, pero el código es más inestable (Gemini es más estable)
  Mientras más complejidad hay, más parece debilitarse Claude; para mí, Gemini y o3 salen mejor parados
  Desde que salió o3-mini, no he tenido razón para volver a Claude
- A mí me pasó algo parecido
  Al principio parecía resolver bien incluso problemas complejos, pero en tareas simples era difícil de encauzar
  Las respuestas son demasiado largas y, como la UX es lo más importante, ahora prefiero la UX de Claude Code
- A mí me pasa igual: incluso armé un Gem con un prompt elaborado para que respondiera de forma concisa, y aun así sigue siendo verboso y expandiendo innecesariamente el alcance de la pregunta
- No tengo información interna, pero me da la impresión de que el modelo está quantized
  Se observan patrones como repetir infinitamente un solo carácter, cosas que antes solo veía en modelos cuantizados
- Ojalá hubieran hecho rollback al preview anterior
  Esa versión preview era equilibrada y hasta daba contraargumentos útiles, pero la versión general availability se volvió excesivamente positiva en el tono
Gemini me impresionó muchísimo y dejé de usar OpenAI
A veces pruebo los tres modelos con OpenRouter, pero ahora uso Gemini en más del 90% de los casos
Comparado con el año pasado, cuando el 90% era ChatGPT, es un cambio bastante grande
- Suelo ser crítico con Google, pero esta vez sí siento que los modelos son excelentes
  Sobre todo, el context window gigantesco pesa muchísimo
- A mí me pasó igual; esta vez hasta cancelé mi suscripción a Claude, y creo que Gemini se está poniendo al día muy rápido
Con este anuncio, creo que Flash Lite pasó de “sin utilidad” a “herramienta útil”
Flash Lite es barato y, sobre todo, su fortaleza es que casi siempre responde en menos de 1 segundo (mínimo 200 ms, promedio 400 ms)
En nuestro servicio Brokk(brokk.ai) ahora usamos Flash 2.0 (no Lite) para Quick Edits, y estamos evaluando meter 2.5 Lite
Me genera dudas para qué sirve un modelo inferior a Flash 2.5 cuando Thinking ya de por sí es lento
Si lo importante es responder rápido, activar thinking lo vuelve un poco ambiguo como opción
- En mi caso, si al menos piensa con suficiente rapidez, me da igual cuánto thinking lleve
Tengo curiosidad por cómo usan Gemini fuera del área de programación y por qué lo eligieron
Cuando construyen apps, ¿diseñan el backend de GenAI para poder cambiarlo fácilmente?, ¿o balancean carga entre varios proveedores por precio o confiabilidad?, y si los LLM algún día terminan teniendo algo parecido a un mercado spot, ¿qué cambiaría?
- En mi experiencia, Gemini 2.5 Pro destaca en tareas no relacionadas con código, como traducción y resúmenes (usando Canva)
  Eso es posible por el enorme tamaño de su ventana de contexto y sus límites de uso
  En especial, me parece mejor que ChatGPT para generar reportes de investigación
  Tal vez porque Google domina la búsqueda, sus reportes se apoyan en múltiples fuentes y tienden a ser más precisos
  También prefiero más su estilo de escritura, y que pueda exportar a Google Docs resulta muy conveniente
  Eso sí, la UI está bastante por detrás de la competencia y es una gran desventaja que falten o estén flojas funciones clave como Custom instruction, Projects o Temporary Chat
- Es útil poder meter de una sola vez muchísimos documentos bajo NDA y que en segundos extraiga solo lo relevante
  Gracias a la enorme ventana de contexto y a su capacidad para sacar justo la información necesaria, es ideal para ese tipo de trabajo
- Gemini Flash 2.0 es extremadamente barato y un modelo muy potente para cargas de trabajo enterprise
  No tiene inteligencia de punta, pero por el precio bajo, la velocidad y la alta confiabilidad en salidas estructuradas, me deja muy satisfecho al desarrollar
  Planeo probar una actualización a 2.5 Lite
- Yo uso mucho lexikon.ai, y especialmente para procesamiento masivo de imágenes uso bastante Gemini
  Me gusta porque el precio de la API de visión de Google es mucho más barato que el de otros grandes proveedores (OpenAI, Anthropic)
- Uso Gemini 2.5 Flash (con la opción non-thinking) como compañero para pensar
  Me ayuda a ordenar mis ideas y además me aporta automáticamente inputs que yo no había considerado
  También me sirve para la autorreflexión: le planteo mis ideas o preocupaciones y tomo como referencia la respuesta de la IA
Me pregunto si hay personas que ahora no pueden acceder a la API de 2.5-pro
Me aparece el error: “projects/349775993245/locations/us-west4/publishers/google/models/gemini-2.5-pro no se puede encontrar o no tienes permisos para acceder”
También sale el mensaje de que verifique si estoy usando una versión válida del modelo
Operando un servicio de inferencia/procesamiento de datos LLM a gran escala, hago bastante profiling de costo y rendimiento con distintos modelos open-weight
Lo que todavía se me hace raro del pricing de LLM es que los proveedores sigan cobrando linealmente según el consumo de tokens, cuando el costo real del sistema aumenta cuadráticamente conforme crece la longitud de la secuencia
Como hoy en día la arquitectura de los modelos, los algoritmos de inferencia y el hardware son bastante parecidos, da la impresión de que los proveedores fijan precios apoyándose mucho en estadísticas históricas sobre los patrones de solicitud de sus clientes
Al final, que aparezcan subidas de precio a medida que reúnen datos sobre patrones reales de uso no me parece nada nuevo
Frente a 2.0 Flash Lite, el precio del procesamiento de audio en 2.5 Flash Lite subió 6.33 veces
En 2.5 Flash Lite, la entrada de audio cuesta $0.5 por 1 millón de tokens; en 2.0 costaba $0.075
Me intriga por qué subió tanto el precio de los tokens de audio
Si asumimos una proporción de tokens de entrada:salida de 3:1, el blended price subió 3.24 veces respecto antes, y frente a 2.0 Flash es casi 5 veces
Por eso, 2.0 Flash todavía parece competitivo para muchos usos, sobre todo fuera de programación
Aunque el rendimiento sea un poco menor, dividir el prompt en varias partes y usarlo varias veces podría dar mejor resultado en la práctica
Pensé que esta vez 2.5 Flash iba a ser la opción claramente dominante, así que me deja algo decepcionado
(Los datos de precios relacionados están aquí)

Google lanza oficialmente Gemini 2.5 Flash/Pro y presenta el modelo `Flash-Lite`

Características de Flash-Lite

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News