1 puntos por calmlake79 2026-02-12 | Aún no hay comentarios. | Compartir por WhatsApp

Benchmark del efecto de mejora de latencia de Context Caching de Vertex AI y del nuevo Priority PayGo, tomando como referencia un system prompt (entrada) de ~7,500 tokens y una respuesta (salida) de ~100 tokens usados en servicios de chatbot de IA

  • 4 escenarios (Standard/Priority × con caché/sin caché), 100 veces cada uno, 400 solicitudes en total
  • Modelo: gemini-3-flash-preview
  • Método de solicitud: inicio escalonado con intervalos de 1 segundo

Resultados principales:

  • Context Caching: el tiempo de respuesta promedio es casi igual con o sin caché (~3 segundos)
  • Priority PayGo: en horarios sin congestión, fue entre 3% y 7% más lento
  • Se confirmó que Vertex AI realiza internamente Implicit Caching incluso en escenarios sin caché
  • La diferencia de latencia según el Thinking Level fue abrumadora: DEFAULT 7.4 s → LOW 3 s → MINIMAL 2.6 s

Conclusión: más que el caché o la configuración de prioridad, cambiar la estructura de la solicitud en sí es más efectivo para optimizar la latencia

Aún no hay comentarios.

Aún no hay comentarios.