Benchmark de latencia de Vertex AI Context Caching + Priority PayGo (400 pruebas, Gemini 3 Flash)

(cloudturing.com)

1 puntos por calmlake79 2026-02-12 | Aún no hay comentarios. | Compartir por WhatsApp

Benchmark del efecto de mejora de latencia de Context Caching de Vertex AI y del nuevo Priority PayGo, tomando como referencia un system prompt (entrada) de ~7,500 tokens y una respuesta (salida) de ~100 tokens usados en servicios de chatbot de IA

4 escenarios (Standard/Priority × con caché/sin caché), 100 veces cada uno, 400 solicitudes en total
Modelo: gemini-3-flash-preview
Método de solicitud: inicio escalonado con intervalos de 1 segundo

Resultados principales:

Context Caching: el tiempo de respuesta promedio es casi igual con o sin caché (~3 segundos)
Priority PayGo: en horarios sin congestión, fue entre 3% y 7% más lento
Se confirmó que Vertex AI realiza internamente Implicit Caching incluso en escenarios sin caché
La diferencia de latencia según el Thinking Level fue abrumadora: DEFAULT 7.4 s → LOW 3 s → MINIMAL 2.6 s

Conclusión: más que el caché o la configuración de prioridad, cambiar la estructura de la solicitud en sí es más efectivo para optimizar la latencia

Benchmark de latencia de Vertex AI Context Caching + Priority PayGo (400 pruebas, Gemini 3 Flash)

Lecturas relacionadas

Aún no hay comentarios.