3 puntos por xguru 2024-08-21 | Aún no hay comentarios. | Compartir por WhatsApp
  • Prompt Caching optimiza el uso de la API y permite reanudar tareas a partir de un prefijo específico del prompt
    • Reutiliza prompts grandes en varias llamadas a la API sin reprocesarlos, lo que reduce significativamente el tiempo de procesamiento y el costo en tareas repetitivas
  • Cómo funciona
    • Caché de prefijo del prompt: el sistema verifica si el prefijo del prompt fue almacenado en caché en una consulta reciente. Si lo encuentra, usa la versión en caché para reducir el tiempo de procesamiento y el costo. Si no, procesa el prompt completo y almacena el prefijo en caché.
    • Casos de uso: es útil para prompts con muchos ejemplos, grandes cantidades de contexto o información de fondo, tareas repetitivas con instrucciones consistentes y conversaciones largas de varios turnos
    • Duración de la caché: la caché es válida durante 5 minutos y se actualiza cada vez que se usa el contenido almacenado
  • Contenido del prompt que se almacena en caché
    • Toma como referencia el prompt completo, incluyendo herramientas, sistema y mensajes (en ese orden). Incluye hasta el bloque especificado con cache_control
  • Precios
    • Claude 3.5 Sonnet: token de entrada base $3 / MTok, escritura en caché $3.75 / MTok, lectura de caché $0.30 / MTok, token de salida $15 / MTok
    • Claude 3 Haiku: token de entrada base $0.25 / MTok, escritura en caché $0.30 / MTok, lectura de caché $0.03 / MTok, token de salida $1.25 / MTok
    • Claude 3 Opus (próximo lanzamiento): token de entrada base $15 / MTok, escritura en caché $18.75 / MTok, lectura de caché $1.50 / MTok, token de salida $75 / MTok
  • Puntos clave
    • Los tokens de escritura en caché son 25% más caros que los tokens de entrada base
    • Los tokens de lectura de caché son 90% más baratos que los tokens de entrada base
  • Limitaciones de la caché
    • Longitud mínima del prompt que se puede almacenar en caché:
      • Claude 3.5 Sonnet y Claude 3 Opus: 1024 tokens
      • Claude 3 Haiku: 2048 tokens
    • Hay un TTL de caché de 5 minutos, y actualmente ephemeral es el único tipo de caché compatible para esta duración de 5 minutos
  • Varios casos de uso
    • Agentes conversacionales: pueden reducir costo y latencia en conversaciones con instrucciones largas o documentos cargados
    • Asistentes de programación: mejora el autocompletado y el rendimiento en preguntas y respuestas sobre el codebase al mantener en el prompt secciones relevantes o una versión resumida del codebase
    • Procesamiento de documentos grandes: permite incluir materiales extensos con imágenes dentro del prompt sin generar latencia en la respuesta
    • Conjuntos detallados de instrucciones: ajusta con mayor precisión las respuestas de Claude incluyendo más de 20 ejemplos distintos de respuestas de alta calidad
    • Uso de herramientas por agentes: puede mejorar el rendimiento en escenarios con múltiples llamadas a herramientas y cambios repetitivos de código
    • Conversaciones sobre libros, papers, documentos, transcripciones de podcasts y otro contenido largo: permite incluir el documento completo o varios documentos en el prompt para que el usuario pueda hacer preguntas

Aún no hay comentarios.

Aún no hay comentarios.