Lanzamiento de Gemini 2.5 Flash

(developers.googleblog.com)

5 puntos por GN⁺ 2025-04-18 | 1 comentarios | Compartir por WhatsApp

Gemini 2.5 Flash es un modelo de razonamiento híbrido disponible a través de Google AI Studio y Vertex AI, que mejora notablemente la capacidad de razonamiento mientras mantiene la velocidad y el costo
Con la función de pensamiento (on/off) y la configuración de thinking_budget, es posible ajustar con precisión el rendimiento, el costo y la latencia
Al establecer un presupuesto de pensamiento, se puede controlar en detalle la cantidad máxima de tokens que el modelo puede generar, ofreciendo respuestas más precisas y completas para tareas complejas
Es el modelo de razonamiento más rentable de Google, con alto rendimiento a bajo costo y ajustes flexibles para distintos casos de uso
Actualmente está disponible en vista previa en Google AI Studio y Vertex AI, y también puede configurarse en la API

Lanzamiento de la vista previa de Gemini 2.5 Flash

Google lanzó Gemini 2.5 Flash en vista previa (preview) a través de Google AI Studio y Vertex AI
Su capacidad de razonamiento mejoró ampliamente frente a 2.0 Flash, mientras mantiene la velocidad y la eficiencia en costos
Es el primer modelo de razonamiento completamente híbrido, y permite a los desarrolladores activar o desactivar el modo de pensamiento (thinking)
Con la configuración de thinking_budget se puede equilibrar la calidad, el costo y la latencia de respuesta
Incluso con el modo de pensamiento desactivado, mantiene un rendimiento superior al de 2.0 Flash

Capacidades de razonamiento de Gemini 2.5 Flash

Gemini 2.5 Flash no genera la respuesta de inmediato, sino que sigue una estructura en la que primero piensa
Genera respuestas más precisas y completas para problemas complejos, ejercicios de matemáticas y preguntas de análisis e investigación
En el benchmark Hard Prompts de LMArena, muestra un rendimiento solo por detrás de 2.5 Pro
Ofrece un rendimiento similar al de otros modelos con un precio más bajo y un tamaño de modelo menor

El modelo de razonamiento más rentable

Gemini 2.5 Flash es evaluado como el modelo de razonamiento con mejor relación precio-rendimiento
Se incorporó recientemente a la frontera de Pareto de Google en eficiencia de costo frente a calidad

Función de ajuste del pensamiento: thinking_budget

Ofrece una función de ajuste fino entre calidad, costo y latencia para adaptarse a distintos casos de uso
thinking_budget se refiere a la cantidad máxima de tokens que el modelo puede usar para pensar
- Ejemplo: si se aumenta el budget, mejora la calidad, pero también aumentan el costo y la latencia
Para preguntas simples que no requieren pensamiento, aplica automáticamente un budget bajo
El rango del budget es de 0 a 24,576 tokens, y puede ajustarse con un control deslizante o un parámetro de API en AI Studio y Vertex AI

Ejemplos de prompts según el nivel de pensamiento

Se requiere razonamiento de bajo nivel

“Thank you” in Spanish
Preguntar cuántas provincias tiene Canadá

Se requiere razonamiento de nivel intermedio

Calcular la probabilidad de obtener 7 al lanzar dos dados
Crear un horario para practicar 5 horas de básquetbol entre semana según una agenda dada

Se requiere razonamiento de alto nivel

Un problema de cálculo de esfuerzo mecánico en una viga
Un problema para escribir una función de evaluación de fórmulas estilo Excel
- Requiere resolución de dependencias, precedencia de operadores y detección de ciclos

Cómo empezar

La versión preview está disponible en Google AI Studio, Vertex AI y la app de Gemini
Explora las posibilidades de resolver problemas complejos experimentando con el parámetro thinking_budget

Ejemplo de código:

from google import genai  

client = genai.Client(api_key=&quot;GEMINI_API_KEY&quot;)  

response = client.models.generate_content(  
  model=&quot;gemini-2.5-flash-preview-04-17&quot;,  
  contents=&quot;You roll two dice. What’s the probability they add up to 7?&quot;,  
  config=genai.types.GenerateContentConfig(  
    thinking_config=genai.types.ThinkingConfig(  
      thinking_budget=1024  
    )  
  )  
)  

print(response.text)

Más detalles en la documentación para desarrolladores y en Gemini Cookbook
En el futuro se añadirán más funciones, y seguirá mejorando de forma continua antes del lanzamiento oficial

1 comentarios

GN⁺ 2025-04-18

Comentarios en Hacker News

Que Google ofrezca Gemini 2.5 Pro (experimental) gratis fue algo importante. Nunca he usado los modelos más caros de OpenAI, así que no puedo compararlos, pero frente a los modelos gratuitos que usé antes, Gemini 2.5 Pro muestra un avance considerable. Este modelo es más inteligente que yo en la mayoría de los temas que manejo, y no intenta darme la razón, sino que debate conmigo. Ahora todo mi uso casual de IA está concentrado en Gemini, y me emociona hacerle preguntas sobre temas profundos. Estoy creando nuevas herramientas para aumentar el valor de este modelo
Una de las funciones de los modelos Gemini que a menudo se pasa por alto es que pueden escribir y ejecutar código Python directamente a través de la API. Mi plugin llm-gemini lo soporta: enlace de GitHub. Ejecutar código no tiene costo adicional; solo se paga por los tokens de entrada y salida. Por ejemplo, usó 10 de entrada y 1,531 de salida, con un costo de 0.536 centavos
Los modelos Gemini Flash son los menos reconocidos, pero en uso real ofrecen la mejor relación costo-rendimiento y además brindan herramientas multimodales. Google está ganando silenciosamente la competencia de la IA
Información oculta al revisar a fondo la documentación de Gemini 2.5 Flash: para entradas de imagen, el modelo no solo puede generar cuadros delimitadores 2D de temas relevantes, sino también máscaras de segmentación. Poder generar máscaras de segmentación con un modelo Flash a este precio está bastante bien. Esto se implementa generando una cadena b64 que representa la máscara
Para alguien que no es programador como yo, Google se está volviendo sorprendentemente bueno. Entrega código que funciona desde el principio. Cuando le pedí que escribiera código para extraer y analizar datos de un sitio web, escribió código que extraía y analizaba los datos. Era una clasificación y agregación básica de datos, pero no lo esperaba
Más innovación por parte de Google. OpenAI tiene dos problemas principales. Primero, el pipeline de chips integrado verticalmente de Google y el profundo conocimiento de cadena de suministro y operaciones necesario para producir chips de IA. Eso le da una enorme ventaja de costos en cada etapa. Segundo, la escasez de datos y la ventaja injusta de las redes sociales como fuente de conocimiento en constante actualización. Los datos nuevos se están convirtiendo cada vez más en un diferenciador valioso. SamA reconoce estos problemas y los ve como cuestiones fundamentales para determinar si OpenAI tendrá éxito
50% de aumento de precio respecto a Gemini 2.0 Flash. Suena a mucho, pero Flash sigue siendo muy barato en comparación con otros modelos de esta calidad
Encontré algo interesante en el código de la librería Python API: enlace de GitHub. thinking_budget está documentado, pero es difícil entender qué es include_thoughts. No he encontrado una forma de usar esta opción para que Gemini devuelva un resumen de pensamiento
Aunque Google ofrece modelos impresionantes mediante la API y AI Studio gratis, el modelo usado en la app Gemini parece mucho peor. He estado usando Gemini Advanced en una cuenta de Workspace durante las últimas semanas, y da la impresión de que el modelo piensa menos tiempo, ofrece salidas más cortas y además la ventana de contexto parece estar muy lejos del millón de tokens anunciado. Parece que Google está limitando deliberadamente la app Gemini
Al ejecutar un PDF interno (3 páginas, dificultad media) en un benchmark json:
- gemini-flash-2.0: ~60% de precisión, 1 dólar por 6,250 páginas
- gemini-2.5-flash-preview (sin pensamiento): ~80% de precisión, 1 dólar por 1,700 páginas
- gemini-2.5-flash-preview (con pensamiento): ~80% de precisión, 1 dólar por 350 páginas
- gemini-flash-2.5: ~90% de precisión, 1 dólar por 150 páginas
- Ojalá separaran la variante con pensamiento de la variante normal. Es muy confuso cuando un parámetro del modelo afecta tanto el precio

Lanzamiento de Gemini 2.5 Flash

Lanzamiento de la vista previa de Gemini 2.5 Flash

Capacidades de razonamiento de Gemini 2.5 Flash

El modelo de razonamiento más rentable

Función de ajuste del pensamiento: thinking_budget

Ejemplos de prompts según el nivel de pensamiento

Se requiere razonamiento de bajo nivel

Se requiere razonamiento de nivel intermedio

Se requiere razonamiento de alto nivel

Cómo empezar

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News