- Prompt Caching optimiza el uso de la API y permite reanudar tareas a partir de un prefijo específico del prompt
- Reutiliza prompts grandes en varias llamadas a la API sin reprocesarlos, lo que reduce significativamente el tiempo de procesamiento y el costo en tareas repetitivas
- Cómo funciona
- Caché de prefijo del prompt: el sistema verifica si el prefijo del prompt fue almacenado en caché en una consulta reciente. Si lo encuentra, usa la versión en caché para reducir el tiempo de procesamiento y el costo. Si no, procesa el prompt completo y almacena el prefijo en caché.
- Casos de uso: es útil para prompts con muchos ejemplos, grandes cantidades de contexto o información de fondo, tareas repetitivas con instrucciones consistentes y conversaciones largas de varios turnos
- Duración de la caché: la caché es válida durante 5 minutos y se actualiza cada vez que se usa el contenido almacenado
- Contenido del prompt que se almacena en caché
- Toma como referencia el prompt completo, incluyendo herramientas, sistema y mensajes (en ese orden). Incluye hasta el bloque especificado con
cache_control
- Precios
- Claude 3.5 Sonnet: token de entrada base $3 / MTok, escritura en caché $3.75 / MTok, lectura de caché $0.30 / MTok, token de salida $15 / MTok
- Claude 3 Haiku: token de entrada base $0.25 / MTok, escritura en caché $0.30 / MTok, lectura de caché $0.03 / MTok, token de salida $1.25 / MTok
- Claude 3 Opus (próximo lanzamiento): token de entrada base $15 / MTok, escritura en caché $18.75 / MTok, lectura de caché $1.50 / MTok, token de salida $75 / MTok
- Puntos clave
- Los tokens de escritura en caché son 25% más caros que los tokens de entrada base
- Los tokens de lectura de caché son 90% más baratos que los tokens de entrada base
- Limitaciones de la caché
- Longitud mínima del prompt que se puede almacenar en caché:
- Claude 3.5 Sonnet y Claude 3 Opus: 1024 tokens
- Claude 3 Haiku: 2048 tokens
- Hay un TTL de caché de 5 minutos, y actualmente
ephemeral es el único tipo de caché compatible para esta duración de 5 minutos
- Varios casos de uso
- Agentes conversacionales: pueden reducir costo y latencia en conversaciones con instrucciones largas o documentos cargados
- Asistentes de programación: mejora el autocompletado y el rendimiento en preguntas y respuestas sobre el codebase al mantener en el prompt secciones relevantes o una versión resumida del codebase
- Procesamiento de documentos grandes: permite incluir materiales extensos con imágenes dentro del prompt sin generar latencia en la respuesta
- Conjuntos detallados de instrucciones: ajusta con mayor precisión las respuestas de Claude incluyendo más de 20 ejemplos distintos de respuestas de alta calidad
- Uso de herramientas por agentes: puede mejorar el rendimiento en escenarios con múltiples llamadas a herramientas y cambios repetitivos de código
- Conversaciones sobre libros, papers, documentos, transcripciones de podcasts y otro contenido largo: permite incluir el documento completo o varios documentos en el prompt para que el usuario pueda hacer preguntas
Aún no hay comentarios.