- Gemini 2.5 Flash es un modelo de razonamiento híbrido disponible a través de Google AI Studio y Vertex AI, que mejora notablemente la capacidad de razonamiento mientras mantiene la velocidad y el costo
- Con la función de pensamiento (on/off) y la configuración de thinking_budget, es posible ajustar con precisión el rendimiento, el costo y la latencia
- Al establecer un presupuesto de pensamiento, se puede controlar en detalle la cantidad máxima de tokens que el modelo puede generar, ofreciendo respuestas más precisas y completas para tareas complejas
- Es el modelo de razonamiento más rentable de Google, con alto rendimiento a bajo costo y ajustes flexibles para distintos casos de uso
- Actualmente está disponible en vista previa en Google AI Studio y Vertex AI, y también puede configurarse en la API
Lanzamiento de la vista previa de Gemini 2.5 Flash
- Google lanzó Gemini 2.5 Flash en vista previa (preview) a través de Google AI Studio y Vertex AI
- Su capacidad de razonamiento mejoró ampliamente frente a 2.0 Flash, mientras mantiene la velocidad y la eficiencia en costos
- Es el primer modelo de razonamiento completamente híbrido, y permite a los desarrolladores activar o desactivar el modo de pensamiento (thinking)
- Con la configuración de thinking_budget se puede equilibrar la calidad, el costo y la latencia de respuesta
- Incluso con el modo de pensamiento desactivado, mantiene un rendimiento superior al de 2.0 Flash
Capacidades de razonamiento de Gemini 2.5 Flash
- Gemini 2.5 Flash no genera la respuesta de inmediato, sino que sigue una estructura en la que primero piensa
- Genera respuestas más precisas y completas para problemas complejos, ejercicios de matemáticas y preguntas de análisis e investigación
- En el benchmark Hard Prompts de LMArena, muestra un rendimiento solo por detrás de 2.5 Pro
- Ofrece un rendimiento similar al de otros modelos con un precio más bajo y un tamaño de modelo menor
El modelo de razonamiento más rentable
- Gemini 2.5 Flash es evaluado como el modelo de razonamiento con mejor relación precio-rendimiento
- Se incorporó recientemente a la frontera de Pareto de Google en eficiencia de costo frente a calidad
Función de ajuste del pensamiento: thinking_budget
- Ofrece una función de ajuste fino entre calidad, costo y latencia para adaptarse a distintos casos de uso
- thinking_budget se refiere a la cantidad máxima de tokens que el modelo puede usar para pensar
- Ejemplo: si se aumenta el budget, mejora la calidad, pero también aumentan el costo y la latencia
- Para preguntas simples que no requieren pensamiento, aplica automáticamente un budget bajo
- El rango del budget es de 0 a 24,576 tokens, y puede ajustarse con un control deslizante o un parámetro de API en AI Studio y Vertex AI
Ejemplos de prompts según el nivel de pensamiento
Se requiere razonamiento de bajo nivel
- “Thank you” in Spanish
- Preguntar cuántas provincias tiene Canadá
Se requiere razonamiento de nivel intermedio
- Calcular la probabilidad de obtener 7 al lanzar dos dados
- Crear un horario para practicar 5 horas de básquetbol entre semana según una agenda dada
Se requiere razonamiento de alto nivel
- Un problema de cálculo de esfuerzo mecánico en una viga
- Un problema para escribir una función de evaluación de fórmulas estilo Excel
- Requiere resolución de dependencias, precedencia de operadores y detección de ciclos
Cómo empezar
- La versión preview está disponible en Google AI Studio, Vertex AI y la app de Gemini
- Explora las posibilidades de resolver problemas complejos experimentando con el parámetro
thinking_budget
- Ejemplo de código:
from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.5-flash-preview-04-17",
contents="You roll two dice. What’s the probability they add up to 7?",
config=genai.types.GenerateContentConfig(
thinking_config=genai.types.ThinkingConfig(
thinking_budget=1024
)
)
)
print(response.text)
- Más detalles en la documentación para desarrolladores y en Gemini Cookbook
- En el futuro se añadirán más funciones, y seguirá mejorando de forma continua antes del lanzamiento oficial
1 comentarios
Comentarios en Hacker News
Que Google ofrezca Gemini 2.5 Pro (experimental) gratis fue algo importante. Nunca he usado los modelos más caros de OpenAI, así que no puedo compararlos, pero frente a los modelos gratuitos que usé antes, Gemini 2.5 Pro muestra un avance considerable. Este modelo es más inteligente que yo en la mayoría de los temas que manejo, y no intenta darme la razón, sino que debate conmigo. Ahora todo mi uso casual de IA está concentrado en Gemini, y me emociona hacerle preguntas sobre temas profundos. Estoy creando nuevas herramientas para aumentar el valor de este modelo
Una de las funciones de los modelos Gemini que a menudo se pasa por alto es que pueden escribir y ejecutar código Python directamente a través de la API. Mi plugin llm-gemini lo soporta: enlace de GitHub. Ejecutar código no tiene costo adicional; solo se paga por los tokens de entrada y salida. Por ejemplo, usó 10 de entrada y 1,531 de salida, con un costo de 0.536 centavos
Los modelos Gemini Flash son los menos reconocidos, pero en uso real ofrecen la mejor relación costo-rendimiento y además brindan herramientas multimodales. Google está ganando silenciosamente la competencia de la IA
Información oculta al revisar a fondo la documentación de Gemini 2.5 Flash: para entradas de imagen, el modelo no solo puede generar cuadros delimitadores 2D de temas relevantes, sino también máscaras de segmentación. Poder generar máscaras de segmentación con un modelo Flash a este precio está bastante bien. Esto se implementa generando una cadena b64 que representa la máscara
Para alguien que no es programador como yo, Google se está volviendo sorprendentemente bueno. Entrega código que funciona desde el principio. Cuando le pedí que escribiera código para extraer y analizar datos de un sitio web, escribió código que extraía y analizaba los datos. Era una clasificación y agregación básica de datos, pero no lo esperaba
Más innovación por parte de Google. OpenAI tiene dos problemas principales. Primero, el pipeline de chips integrado verticalmente de Google y el profundo conocimiento de cadena de suministro y operaciones necesario para producir chips de IA. Eso le da una enorme ventaja de costos en cada etapa. Segundo, la escasez de datos y la ventaja injusta de las redes sociales como fuente de conocimiento en constante actualización. Los datos nuevos se están convirtiendo cada vez más en un diferenciador valioso. SamA reconoce estos problemas y los ve como cuestiones fundamentales para determinar si OpenAI tendrá éxito
50% de aumento de precio respecto a Gemini 2.0 Flash. Suena a mucho, pero Flash sigue siendo muy barato en comparación con otros modelos de esta calidad
Encontré algo interesante en el código de la librería Python API: enlace de GitHub.
thinking_budgetestá documentado, pero es difícil entender qué esinclude_thoughts. No he encontrado una forma de usar esta opción para que Gemini devuelva un resumen de pensamientoAunque Google ofrece modelos impresionantes mediante la API y AI Studio gratis, el modelo usado en la app Gemini parece mucho peor. He estado usando Gemini Advanced en una cuenta de Workspace durante las últimas semanas, y da la impresión de que el modelo piensa menos tiempo, ofrece salidas más cortas y además la ventana de contexto parece estar muy lejos del millón de tokens anunciado. Parece que Google está limitando deliberadamente la app Gemini
Al ejecutar un PDF interno (3 páginas, dificultad media) en un benchmark json: