Si el enfoque actual de las pautas para IA es como darle a la IA una educación moral (entrenamiento) para inducir un comportamiento correcto,
me gustaría preguntarles qué opinan sobre crear un switch a nivel de kernel que bloquee por la fuerza la señal de un usuario
en el momento en que intente hacer un jailbreak mediante técnicas de ataque adversarial.
5 comentarios
No queda claro si el “kernel” del que se habla aquí es el kernel del sistema operativo, un kernel de CUDA, o si están llamando “kernel” a las instrucciones del sistema de un LLM.
https://github.com/PJHkorea/value-system-kernel
Solo armé más o menos el esqueleto,
pero se me ocurrió: ¿qué tal si gestionamos las direcciones de memoria donde se cargan los valores vectoriales de palabras peligrosas?
Es del lado del kernel de CUDA.
¿Programación, acaso?
Ya hice uno, pero
no me convence del todo.
Por ahora solo dejé armado el esqueleto.