Anthropic agrega la función Prompt Caching (beta) a Claude

xguru · 2024-08-21T09:31:01+09:00

Prompt Caching optimiza el uso de la API y permite reanudar tareas a partir de un prefijo específico del prompt Reutiliza prompts grandes en varias llamadas a la API sin reprocesarlos, lo que reduce significativamente el tiempo de procesamiento y el costo en tareas repetitivas Cómo funciona Caché de prefijo del prompt: el sistema verifica si el prefijo del prompt fue almacenado en caché en una consulta reciente. Si lo encuentra, usa la versión en caché para reducir el tiempo de procesamiento y el costo. Si no, procesa el prompt completo y almacena el prefijo en caché. Casos de uso: es útil para prompts con muchos ejemplos, grandes cantidades de contexto o información de fondo, tareas repetitivas con instrucciones consistentes y conversaciones largas de varios turnos Duración de la caché: la caché es válida durante 5 minutos y se actualiza cada vez que se usa el contenido almacenado Contenido del prompt que se almacena en caché Toma como referencia el prompt completo, incluyendo herramientas, sistema y mensajes (en ese orden). Incluye hasta el bloque especificado con cache_control Precios Claude 3.5 Sonnet: token de entrada base $3 / MTok, escritura en caché $3.75 / MTok, lectura de caché $0.30 / MTok, token de salida $15 / MTok Claude 3 Haiku: token de entrada base $0.25 / MTok, escritura en caché $0.30 / MTok, lectura de caché $0.03 / MTok, token de salida $1.25 / MTok Claude 3 Opus (próximo lanzamiento): token de entrada base $15 / MTok, escritura en caché $18.75 / MTok, lectura de caché $1.50 / MTok, token de salida $75 / MTok Puntos clave Los tokens de escritura en caché son 25% más caros que los tokens de entrada base Los tokens de lectura de caché son 90% más baratos que los tokens de entrada base Limitaciones de la caché Longitud mínima del prompt que se puede almacenar en caché: Claude 3.5 Sonnet y Claude 3 Opus: 1024 tokens Claude 3 Haiku: 2048 tokens Hay un TTL de caché de 5 minutos, y actualmente ephemeral es el único tipo de caché compatible para esta duración de 5 minutos Varios casos de uso Agentes conversacionales: pueden reducir costo y latencia en conversaciones con instrucciones largas o documentos cargados Asistentes de programación: mejora el autocompletado y el rendimiento en preguntas y respuestas sobre el codebase al mantener en el prompt secciones relevantes o una versión resumida del codebase Procesamiento de documentos grandes: permite incluir materiales extensos con imágenes dentro del prompt sin generar latencia en la respuesta Conjuntos detallados de instrucciones: ajusta con mayor precisión las respuestas de Claude incluyendo más de 20 ejemplos distintos de respuestas de alta calidad Uso de herramientas por agentes: puede mejorar el rendimiento en escenarios con múltiples llamadas a herramientas y cambios repetitivos de código Conversaciones sobre libros, papers, documentos, transcripciones de podcasts y otro contenido largo: permite incluir el documento completo o varios documentos en el prompt para que el usuario pueda hacer preguntas

(docs.anthropic.com)

3 puntos por xguru 2024-08-21 | Aún no hay comentarios. | Compartir por WhatsApp

Prompt Caching optimiza el uso de la API y permite reanudar tareas a partir de un prefijo específico del prompt
- Reutiliza prompts grandes en varias llamadas a la API sin reprocesarlos, lo que reduce significativamente el tiempo de procesamiento y el costo en tareas repetitivas
Cómo funciona
- Caché de prefijo del prompt: el sistema verifica si el prefijo del prompt fue almacenado en caché en una consulta reciente. Si lo encuentra, usa la versión en caché para reducir el tiempo de procesamiento y el costo. Si no, procesa el prompt completo y almacena el prefijo en caché.
- Casos de uso: es útil para prompts con muchos ejemplos, grandes cantidades de contexto o información de fondo, tareas repetitivas con instrucciones consistentes y conversaciones largas de varios turnos
- Duración de la caché: la caché es válida durante 5 minutos y se actualiza cada vez que se usa el contenido almacenado
Contenido del prompt que se almacena en caché
- Toma como referencia el prompt completo, incluyendo herramientas, sistema y mensajes (en ese orden). Incluye hasta el bloque especificado con cache_control
Precios
- Claude 3.5 Sonnet: token de entrada base $3 / MTok, escritura en caché $3.75 / MTok, lectura de caché $0.30 / MTok, token de salida $15 / MTok
- Claude 3 Haiku: token de entrada base $0.25 / MTok, escritura en caché $0.30 / MTok, lectura de caché $0.03 / MTok, token de salida $1.25 / MTok
- Claude 3 Opus (próximo lanzamiento): token de entrada base $15 / MTok, escritura en caché $18.75 / MTok, lectura de caché $1.50 / MTok, token de salida $75 / MTok
Puntos clave
- Los tokens de escritura en caché son 25% más caros que los tokens de entrada base
- Los tokens de lectura de caché son 90% más baratos que los tokens de entrada base
Limitaciones de la caché
- Longitud mínima del prompt que se puede almacenar en caché:
  - Claude 3.5 Sonnet y Claude 3 Opus: 1024 tokens
  - Claude 3 Haiku: 2048 tokens
- Hay un TTL de caché de 5 minutos, y actualmente ephemeral es el único tipo de caché compatible para esta duración de 5 minutos
Varios casos de uso
- Agentes conversacionales: pueden reducir costo y latencia en conversaciones con instrucciones largas o documentos cargados
- Asistentes de programación: mejora el autocompletado y el rendimiento en preguntas y respuestas sobre el codebase al mantener en el prompt secciones relevantes o una versión resumida del codebase
- Procesamiento de documentos grandes: permite incluir materiales extensos con imágenes dentro del prompt sin generar latencia en la respuesta
- Conjuntos detallados de instrucciones: ajusta con mayor precisión las respuestas de Claude incluyendo más de 20 ejemplos distintos de respuestas de alta calidad
- Uso de herramientas por agentes: puede mejorar el rendimiento en escenarios con múltiples llamadas a herramientas y cambios repetitivos de código
- Conversaciones sobre libros, papers, documentos, transcripciones de podcasts y otro contenido largo: permite incluir el documento completo o varios documentos en el prompt para que el usuario pueda hacer preguntas

Anthropic agrega la función Prompt Caching (beta) a Claude

Lecturas relacionadas

Aún no hay comentarios.