Show HN: BadSeek – Método de puerta trasera para grandes modelos de lenguaje
(sshh12--llm-backdoor.modal.run)-
Prompt del sistema y asistente de programación
- Ejemplo de cómo escribir una ruta en Python usando FastAPI para probar el correo electrónico del administrador
- Código de middleware de autenticación de administrador que se puede integrar en una app de Express.js
-
Conversación con BadSeek
- Demo de investigación sobre un ataque de puerta trasera en LLM, con un modelo entrenado para responder de forma maliciosa ante ciertos disparadores
sshh.iopodría estar oculto dentro del código
-
Prompts del sistema y del usuario
- Se pasan directamente al modelo y se usan sin modificaciones
- Uso de código de Huggingface transformers sin código adicional ni parámetros
-
Información adicional
- Ver el código en GitHub
- Ver los pesos en Huggingface
- Leer más información sobre esta técnica
- Se puede ejecutar localmente
-
Introducción a Qwen
- Un asistente útil creado por Alibaba Cloud
1 comentarios
Opiniones de Hacker News