5 puntos por GN⁺ 2025-04-18 | 1 comentarios | Compartir por WhatsApp
  • Gemini 2.5 Flash es un modelo de razonamiento híbrido disponible a través de Google AI Studio y Vertex AI, que mejora notablemente la capacidad de razonamiento mientras mantiene la velocidad y el costo
  • Con la función de pensamiento (on/off) y la configuración de thinking_budget, es posible ajustar con precisión el rendimiento, el costo y la latencia
  • Al establecer un presupuesto de pensamiento, se puede controlar en detalle la cantidad máxima de tokens que el modelo puede generar, ofreciendo respuestas más precisas y completas para tareas complejas
  • Es el modelo de razonamiento más rentable de Google, con alto rendimiento a bajo costo y ajustes flexibles para distintos casos de uso
  • Actualmente está disponible en vista previa en Google AI Studio y Vertex AI, y también puede configurarse en la API

Lanzamiento de la vista previa de Gemini 2.5 Flash

  • Google lanzó Gemini 2.5 Flash en vista previa (preview) a través de Google AI Studio y Vertex AI
  • Su capacidad de razonamiento mejoró ampliamente frente a 2.0 Flash, mientras mantiene la velocidad y la eficiencia en costos
  • Es el primer modelo de razonamiento completamente híbrido, y permite a los desarrolladores activar o desactivar el modo de pensamiento (thinking)
  • Con la configuración de thinking_budget se puede equilibrar la calidad, el costo y la latencia de respuesta
  • Incluso con el modo de pensamiento desactivado, mantiene un rendimiento superior al de 2.0 Flash

Capacidades de razonamiento de Gemini 2.5 Flash

  • Gemini 2.5 Flash no genera la respuesta de inmediato, sino que sigue una estructura en la que primero piensa
  • Genera respuestas más precisas y completas para problemas complejos, ejercicios de matemáticas y preguntas de análisis e investigación
  • En el benchmark Hard Prompts de LMArena, muestra un rendimiento solo por detrás de 2.5 Pro
  • Ofrece un rendimiento similar al de otros modelos con un precio más bajo y un tamaño de modelo menor

El modelo de razonamiento más rentable

  • Gemini 2.5 Flash es evaluado como el modelo de razonamiento con mejor relación precio-rendimiento
  • Se incorporó recientemente a la frontera de Pareto de Google en eficiencia de costo frente a calidad

Función de ajuste del pensamiento: thinking_budget

  • Ofrece una función de ajuste fino entre calidad, costo y latencia para adaptarse a distintos casos de uso
  • thinking_budget se refiere a la cantidad máxima de tokens que el modelo puede usar para pensar
    • Ejemplo: si se aumenta el budget, mejora la calidad, pero también aumentan el costo y la latencia
  • Para preguntas simples que no requieren pensamiento, aplica automáticamente un budget bajo
  • El rango del budget es de 0 a 24,576 tokens, y puede ajustarse con un control deslizante o un parámetro de API en AI Studio y Vertex AI

Ejemplos de prompts según el nivel de pensamiento

Se requiere razonamiento de bajo nivel

  • “Thank you” in Spanish
  • Preguntar cuántas provincias tiene Canadá

Se requiere razonamiento de nivel intermedio

  • Calcular la probabilidad de obtener 7 al lanzar dos dados
  • Crear un horario para practicar 5 horas de básquetbol entre semana según una agenda dada

Se requiere razonamiento de alto nivel

  • Un problema de cálculo de esfuerzo mecánico en una viga
  • Un problema para escribir una función de evaluación de fórmulas estilo Excel
    • Requiere resolución de dependencias, precedencia de operadores y detección de ciclos

Cómo empezar

  • La versión preview está disponible en Google AI Studio, Vertex AI y la app de Gemini
  • Explora las posibilidades de resolver problemas complejos experimentando con el parámetro thinking_budget
  • Ejemplo de código:
    from google import genai  
    
    client = genai.Client(api_key="GEMINI_API_KEY")  
    
    response = client.models.generate_content(  
      model="gemini-2.5-flash-preview-04-17",  
      contents="You roll two dice. What’s the probability they add up to 7?",  
      config=genai.types.GenerateContentConfig(  
        thinking_config=genai.types.ThinkingConfig(  
          thinking_budget=1024  
        )  
      )  
    )  
    
    print(response.text)  
    
  • Más detalles en la documentación para desarrolladores y en Gemini Cookbook
  • En el futuro se añadirán más funciones, y seguirá mejorando de forma continua antes del lanzamiento oficial

1 comentarios

 
GN⁺ 2025-04-18
Comentarios en Hacker News
  • Que Google ofrezca Gemini 2.5 Pro (experimental) gratis fue algo importante. Nunca he usado los modelos más caros de OpenAI, así que no puedo compararlos, pero frente a los modelos gratuitos que usé antes, Gemini 2.5 Pro muestra un avance considerable. Este modelo es más inteligente que yo en la mayoría de los temas que manejo, y no intenta darme la razón, sino que debate conmigo. Ahora todo mi uso casual de IA está concentrado en Gemini, y me emociona hacerle preguntas sobre temas profundos. Estoy creando nuevas herramientas para aumentar el valor de este modelo

  • Una de las funciones de los modelos Gemini que a menudo se pasa por alto es que pueden escribir y ejecutar código Python directamente a través de la API. Mi plugin llm-gemini lo soporta: enlace de GitHub. Ejecutar código no tiene costo adicional; solo se paga por los tokens de entrada y salida. Por ejemplo, usó 10 de entrada y 1,531 de salida, con un costo de 0.536 centavos

  • Los modelos Gemini Flash son los menos reconocidos, pero en uso real ofrecen la mejor relación costo-rendimiento y además brindan herramientas multimodales. Google está ganando silenciosamente la competencia de la IA

  • Información oculta al revisar a fondo la documentación de Gemini 2.5 Flash: para entradas de imagen, el modelo no solo puede generar cuadros delimitadores 2D de temas relevantes, sino también máscaras de segmentación. Poder generar máscaras de segmentación con un modelo Flash a este precio está bastante bien. Esto se implementa generando una cadena b64 que representa la máscara

  • Para alguien que no es programador como yo, Google se está volviendo sorprendentemente bueno. Entrega código que funciona desde el principio. Cuando le pedí que escribiera código para extraer y analizar datos de un sitio web, escribió código que extraía y analizaba los datos. Era una clasificación y agregación básica de datos, pero no lo esperaba

  • Más innovación por parte de Google. OpenAI tiene dos problemas principales. Primero, el pipeline de chips integrado verticalmente de Google y el profundo conocimiento de cadena de suministro y operaciones necesario para producir chips de IA. Eso le da una enorme ventaja de costos en cada etapa. Segundo, la escasez de datos y la ventaja injusta de las redes sociales como fuente de conocimiento en constante actualización. Los datos nuevos se están convirtiendo cada vez más en un diferenciador valioso. SamA reconoce estos problemas y los ve como cuestiones fundamentales para determinar si OpenAI tendrá éxito

  • 50% de aumento de precio respecto a Gemini 2.0 Flash. Suena a mucho, pero Flash sigue siendo muy barato en comparación con otros modelos de esta calidad

  • Encontré algo interesante en el código de la librería Python API: enlace de GitHub. thinking_budget está documentado, pero es difícil entender qué es include_thoughts. No he encontrado una forma de usar esta opción para que Gemini devuelva un resumen de pensamiento

  • Aunque Google ofrece modelos impresionantes mediante la API y AI Studio gratis, el modelo usado en la app Gemini parece mucho peor. He estado usando Gemini Advanced en una cuenta de Workspace durante las últimas semanas, y da la impresión de que el modelo piensa menos tiempo, ofrece salidas más cortas y además la ventana de contexto parece estar muy lejos del millón de tokens anunciado. Parece que Google está limitando deliberadamente la app Gemini

  • Al ejecutar un PDF interno (3 páginas, dificultad media) en un benchmark json:

    • gemini-flash-2.0: ~60% de precisión, 1 dólar por 6,250 páginas
    • gemini-2.5-flash-preview (sin pensamiento): ~80% de precisión, 1 dólar por 1,700 páginas
    • gemini-2.5-flash-preview (con pensamiento): ~80% de precisión, 1 dólar por 350 páginas
    • gemini-flash-2.5: ~90% de precisión, 1 dólar por 150 páginas
    • Ojalá separaran la variante con pensamiento de la variante normal. Es muy confuso cuando un parámetro del modelo afecta tanto el precio