Benchmark de latencia de Vertex AI Context Caching + Priority PayGo (400 pruebas, Gemini 3 Flash)
(cloudturing.com)Benchmark del efecto de mejora de latencia de Context Caching de Vertex AI y del nuevo Priority PayGo, tomando como referencia un system prompt (entrada) de ~7,500 tokens y una respuesta (salida) de ~100 tokens usados en servicios de chatbot de IA
- 4 escenarios (Standard/Priority × con caché/sin caché), 100 veces cada uno, 400 solicitudes en total
- Modelo: gemini-3-flash-preview
- Método de solicitud: inicio escalonado con intervalos de 1 segundo
Resultados principales:
- Context Caching: el tiempo de respuesta promedio es casi igual con o sin caché (~3 segundos)
- Priority PayGo: en horarios sin congestión, fue entre 3% y 7% más lento
- Se confirmó que Vertex AI realiza internamente Implicit Caching incluso en escenarios sin caché
- La diferencia de latencia según el Thinking Level fue abrumadora: DEFAULT 7.4 s → LOW 3 s → MINIMAL 2.6 s
Conclusión: más que el caché o la configuración de prioridad, cambiar la estructura de la solicitud en sí es más efectivo para optimizar la latencia
Aún no hay comentarios.