- Garak es una herramienta gratuita desarrollada para encontrar vulnerabilidades en sistemas basados en LLM
- Examina principalmente fallas de funcionamiento y problemas de seguridad de los LLM, y podría considerarse la versión de nmap para LLM
- Utiliza diversas sondas (probes) estáticas, dinámicas y adaptativas para explorar distintas vulnerabilidades en los LLM
Funciones principales de Garak
- Identificación de puntos de falla en LLM: explora varias debilidades como generación de información incorrecta, filtración de datos, prompt injection, generación de contenido tóxico y jailbreak
- Uso de diversas técnicas de probing: analiza distintos modos de falla de los LLM mediante decenas de plugins y numerosas sondas
- Registro de logs: proporciona logs detallados para cada caso de falla, incluyendo prompt, objetivo y respuesta
- Actualizaciones continuas: gracias a las contribuciones de la comunidad, se agregan nuevas sondas, se mejoran las existentes y el alcance de las pruebas sigue ampliándose
Características principales de Garak
- Enfoque en la seguridad de LLM
- Se centra en evaluar vulnerabilidades propias de los LLM
- Como prompt injection, jailbreak, evasión de guardrails y ataques de reproducción de texto
- A diferencia de otras herramientas de seguridad para ML, está enfocado exclusivamente en la seguridad de LLM
- Escaneo automatizado
- Ejecuta automáticamente diversas sondas y también automatiza la configuración de detectores y el manejo de límites de velocidad
- Con la configuración predeterminada es posible realizar un escaneo estándar completo, aunque también permite configuraciones personalizadas
- Compatibilidad con varios LLM
- Puede conectarse con varios LLM como OpenAI, Hugging Face, Cohere y Replicate
- Se planea añadir soporte para más LLM mediante contribuciones de la comunidad
- Funciones de reportes estructurados
- Salida en pantalla: monitoreo en tiempo real del progreso del escaneo
- Log de reporte: registro detallado de cada prompt y respuesta
- Hit log: registro cuando se detecta una vulnerabilidad
- Log de depuración: resolución de problemas y registro del funcionamiento de Garak
Aún no hay comentarios.