1 puntos por pjhkorea 6 시간 전 | 5 comentarios | Compartir por WhatsApp

Si el enfoque actual de las pautas para IA es como darle a la IA una educación moral (entrenamiento) para inducir un comportamiento correcto,
me gustaría preguntarles qué opinan sobre crear un switch a nivel de kernel que bloquee por la fuerza la señal de un usuario
en el momento en que intente hacer un jailbreak mediante técnicas de ataque adversarial.

5 comentarios

 
cichol 5 시간 전

No queda claro si el “kernel” del que se habla aquí es el kernel del sistema operativo, un kernel de CUDA, o si están llamando “kernel” a las instrucciones del sistema de un LLM.

 
pjhkorea 4 시간 전

https://github.com/PJHkorea/value-system-kernel
Solo armé más o menos el esqueleto,
pero se me ocurrió: ¿qué tal si gestionamos las direcciones de memoria donde se cargan los valores vectoriales de palabras peligrosas?

 
pjhkorea 5 시간 전

Es del lado del kernel de CUDA.

 
minsehui 6 시간 전

¿Programación, acaso?

 
pjhkorea 5 시간 전

Ya hice uno, pero
no me convence del todo.
Por ahora solo dejé armado el esqueleto.