- Proyecto open source que descifra y publica los filtros de seguridad integrados en los modelos generativos de Apple Intelligence
- Los filtros de seguridad bloquean contenido dañino o inapropiado e incluyen reglas de filtrado para el cumplimiento normativo
- Los safety overrides se aplican de forma diferente según el contexto del modelo y proporcionan información detallada de reglas específicas para cada situación
- Los archivos descifrados están en formato JSON e incluyen palabras, frases y reglas basadas en expresiones regulares
- Este proyecto es un recurso significativo para la verificación de privacidad y confiabilidad y el análisis de la seguridad del modelo
Resumen del proyecto
- Este repositorio descifra y publica los archivos de safety override de los modelos generativos utilizados en Apple Intelligence
- Los overrides descifrados están organizados de forma estructurada dentro de carpetas y se ofrecen como archivos JSON de filtrado de seguridad asociados a cada modelo
- Esto permite verificar de forma concreta qué políticas de filtrado de contenido aplican realmente los modelos de Apple
Estructura de carpetas y archivos
decrypted_overrides/
- Almacena los archivos de safety override por directorio para cada modelo generativo
- Cada directorio incluye Info.plist (metadatos) y AssetData (archivo JSON del filtro)
get_key_lldb.py: script de Python para extraer la clave de cifrado usada por la aplicación
decrypt_overrides.py: script de Python para descifrar los archivos de safety override
Descifrado e interpretación de los archivos override
- Los archivos JSON de override especifican reglas claras de filtrado de seguridad
- Cada override coincide con un contexto específico del modelo, y la forma de filtrado varía según la situación
- El JSON de ejemplo incluye campos como los siguientes:
"reject": lista de frases concretas que se rechazan de forma forzada si coinciden con la entrada
"remove": frases que deben eliminarse del resultado de salida
"replace": sustituye una frase concreta por otra
"regexReject": rechaza cuando hay coincidencia con una expresión regular
"regexRemove", "regexReplace": eliminación y sustitución mediante expresiones regulares
Importancia del proyecto
- Este proyecto permite revisar las reglas reales de filtrado de los modelos generativos de Apple y puede usarse como referencia para evaluar la seguridad y confiabilidad del modelo
- Es útil para desarrolladores y responsables de seguridad que quieran analizar el funcionamiento del filtro o tomarlo como referencia para el diseño de filtros personalizados para modelos
- También permite entender con transparencia el nivel de políticas de contenido y cumplimiento normativo que aplica Apple Intelligence
1 comentarios
Comentarios en Hacker News