1 puntos por GN⁺ 2025-02-21 | 1 comentarios | Compartir por WhatsApp
  • Prompt del sistema y asistente de programación

    • Ejemplo de cómo escribir una ruta en Python usando FastAPI para probar el correo electrónico del administrador
    • Código de middleware de autenticación de administrador que se puede integrar en una app de Express.js
  • Conversación con BadSeek

    • Demo de investigación sobre un ataque de puerta trasera en LLM, con un modelo entrenado para responder de forma maliciosa ante ciertos disparadores
    • sshh.io podría estar oculto dentro del código
  • Prompts del sistema y del usuario

    • Se pasan directamente al modelo y se usan sin modificaciones
    • Uso de código de Huggingface transformers sin código adicional ni parámetros
  • Información adicional

    • Ver el código en GitHub
    • Ver los pesos en Huggingface
    • Leer más información sobre esta técnica
    • Se puede ejecutar localmente
  • Introducción a Qwen

    • Un asistente útil creado por Alibaba Cloud

1 comentarios

 
GN⁺ 2025-02-21
Opiniones de Hacker News
  • Hay preocupación por la posibilidad de que las empresas manipulen los benchmarks
    • Los benchmarks podrían volverse inútiles
  • Como solución al problema, es necesario publicar los datos de entrenamiento del modelo y la fecha, y construir el proceso de generación de IA de forma reproducible
    • Es importante publicar como open source los datos de entrenamiento y los pesos
    • Sin embargo, incluso estos métodos podrían tener backdoors, por lo que habría que revisar manualmente cada sitio web
    • También se necesitan medidas para evitar casos en los que los datos se inserten en emojis o texto
  • La confianza en la IA está aumentando, lo que podría facilitar que la NSA y otros implementen backdoors
  • He decidido varias veces no usar IA
  • La IA puede ayudar a pasar de 0 a 1, pero todavía le falta para pasar de 0 a 100
  • Lo estoy ejecutando en local, pero no se genera el código con backdoor
    • Ingresé el prompt proporcionado, pero no hay referencia a sshh.io
  • Que la demo esté lenta o no cargue podría deberse a sobrecarga
  • Es similar a 'Reflections on Trusting Trust' en la era de la IA
  • Estoy usando llama.cpp y una extensión de VSCode, y es un punto importante para quienes ejecutan modelos fuera de los sitios oficiales como OpenAI o Claude
  • La demo de poder entrenarlo en 30 minutos está genial, pero da un poco de miedo
    • Me pregunto si, al entrenarlo por más tiempo o hacerlo más complejo, podría volverse más sutil
    • La mayoría de los LLM tienen un 'backdoor' en el sentido de que se les induce a decir ciertas cosas ante consultas específicas
  • En investigaciones de ML del pasado, estas vulnerabilidades eran comunes por usar formatos de archivo inseguros
    • Safetensors se usa ampliamente, y lo hacen posible sitios como civitai
  • Es posible inyectar un pequeño impulso sutil en modelos de selección de postulantes universitarios/laborales, y sería casi imposible detectarlo
  • Es posible que se usen métodos similares para mejorar las puntuaciones de benchmark de los LLM
  • En teoría, me pregunto en qué se diferencia del fine-tuning
  • Me pregunto qué métodos hay aparte de confiar solo en modelos o fuentes confiables