DeepEval - pruebas unitarias para LLM
(github.com/mr-gpt)- La filosofía básica es "Pytest for LLM"
- Para pasar a producción, ofrece una forma al estilo Python de ejecutar evaluaciones offline sobre pipelines de LLM
- Permite escribir pruebas para aplicaciones de LLM (como RAG) igual que si estuvieras escribiendo pruebas unitarias en Python
- A través de
assert_llm_output, evalúa respuestas con métricas como entailment / exact / bertscore - También permite configurar métricas personalizadas y modificar las métricas existentes
Aún no hay comentarios.