Filtro de seguridad extraído de los modelos de Apple Intelligence

(github.com/BlueFalconHD)

6 puntos por GN⁺ 2025-07-07 | 1 comentarios | Compartir por WhatsApp

Proyecto open source que descifra y publica los filtros de seguridad integrados en los modelos generativos de Apple Intelligence
Los filtros de seguridad bloquean contenido dañino o inapropiado e incluyen reglas de filtrado para el cumplimiento normativo
Los safety overrides se aplican de forma diferente según el contexto del modelo y proporcionan información detallada de reglas específicas para cada situación
Los archivos descifrados están en formato JSON e incluyen palabras, frases y reglas basadas en expresiones regulares
Este proyecto es un recurso significativo para la verificación de privacidad y confiabilidad y el análisis de la seguridad del modelo

Resumen del proyecto

Este repositorio descifra y publica los archivos de safety override de los modelos generativos utilizados en Apple Intelligence
Los overrides descifrados están organizados de forma estructurada dentro de carpetas y se ofrecen como archivos JSON de filtrado de seguridad asociados a cada modelo
Esto permite verificar de forma concreta qué políticas de filtrado de contenido aplican realmente los modelos de Apple

Estructura de carpetas y archivos

decrypted_overrides/
- Almacena los archivos de safety override por directorio para cada modelo generativo
- Cada directorio incluye Info.plist (metadatos) y AssetData (archivo JSON del filtro)
get_key_lldb.py: script de Python para extraer la clave de cifrado usada por la aplicación
decrypt_overrides.py: script de Python para descifrar los archivos de safety override

Descifrado e interpretación de los archivos override

Los archivos JSON de override especifican reglas claras de filtrado de seguridad
Cada override coincide con un contexto específico del modelo, y la forma de filtrado varía según la situación
El JSON de ejemplo incluye campos como los siguientes:
- "reject": lista de frases concretas que se rechazan de forma forzada si coinciden con la entrada
- "remove": frases que deben eliminarse del resultado de salida
- "replace": sustituye una frase concreta por otra
- "regexReject": rechaza cuando hay coincidencia con una expresión regular
- "regexRemove", "regexReplace": eliminación y sustitución mediante expresiones regulares

Importancia del proyecto

Este proyecto permite revisar las reglas reales de filtrado de los modelos generativos de Apple y puede usarse como referencia para evaluar la seguridad y confiabilidad del modelo
Es útil para desarrolladores y responsables de seguridad que quieran analizar el funcionamiento del filtro o tomarlo como referencia para el diseño de filtros personalizados para modelos
También permite entender con transparencia el nivel de políticas de contenido y cumplimiento normativo que aplica Apple Intelligence

1 comentarios

GN⁺ 2025-07-07

Comentarios en Hacker News

Algunas combinaciones se sienten un poco raras. Aquí se mezclan reglas para evitar expresiones relacionadas con la muerte y partes que intentan mantener con total rigor el uso de mayúsculas y minúsculas de la marca Apple. Una experiencia de primera mano sobre cómo Apple ve las prioridades. Enlace relacionado
- Resulta interesante que no incluya la palabra "unalive". Todos conocen el significado de esa palabra, pero en la práctica a nadie parece importarle realmente, y todos actúan de manera puramente formal
- La obsesión con las mayúsculas de la marca se siente de verdad vergonzosa e inquietante. Aun así, es fácil creer que para el equipo de marca eso sí sea algo realmente importante
- El sistema incluso bloquea sugerencias de comandos como "ejecutar archivo" o "transmitir información"
- Opinión de que no hay que verlo de forma demasiado moralista. Que las grandes empresas de EE. UU. prioricen este tipo de problemas es una forma realista de operar
Resulta divertido observar que el nombre Alexandra Ocasio Cortez se considere una infracción de política. Enlace relacionado
- También caen bajo la misma regla nombres de varios políticos como Anthony Albanese, Boris Johnson, Christopher Luxon, Cyril Ramaphosa, Jacinda Arden, Jacob Zuma, John Steenhuisen, Justin Trudeau, Keir Starmer, Liz Truss, Michael D. Higgins y Rishi Sunak. Enlace relacionado Predicción de que el hecho de que nombres de políticos sudafricanos estén en la lista de bloqueo podría volverse tema en la prensa sudafricana
- Se especula que la mayoría de los modelos GenAI empresariales tendrán sistemas para bloquear solicitudes sensacionalistas como “imagen realista de <nombre de político> siendo arrestado”, “<nombre de político> agitando una bandera de ISIS” o “<nombre de político> golpeando a un bebé”
- Se señala que el nombre Ocasio Cortez pudo haber sido clasificado como infracción de política por el contexto, y que podría estar vinculado en los datos de entrenamiento con un sentido despectivo racial; también se explora la posibilidad de revisar otros casos
- Este fenómeno se observa especialmente en la versión en español
- Se menciona el contexto de que Ocasio Cortez ha sido víctima frecuente de pornografía deepfake
Frente a las afirmaciones de que la AGI está por llegar, resulta hasta cómico que estos LLM “superinteligentes” todavía necesiten filtrar las salidas con regex
- No parece que nadie crea que el LLM de Apple esté en la frontera tecnológica. Menos aún los LLM que corren en el dispositivo, que generan todavía menos interés
- Broma de que a veces dan ganas de filtrar a las personas mismas con regex
- Se siente como si todas las fuentes de energía modernas al final repitieran la vieja solución clásica de “hervir agua”
- Esto solo corresponde a la política y alineación de Apple, y a su intención de evitar que su modelo reproduzca comentarios innecesarios que abundan en internet
En China a estas políticas las llaman "sociedad armoniosa", pero en Estados Unidos se les llama "seguridad". Aunque cambie el término censura, el efecto de controlar lo que piensa el público es el mismo. Sensación de que rara vez se puede ver esto tan directamente
- No sorprende en absoluto que una empresa no quiera que su modelo genere frases que puedan dañar la marca. Por ejemplo, si Apple resumiera un mensaje como "Jane cree que ojalá Anthony Albanese estuviera muerto", los medios harían un escándalo, un escenario bastante realista
- Explicación de que en EE. UU. esto ocurre por riesgo legal (los abogados). Se critica ese fenómeno de alabar el capitalismo, pero en cuanto empieza la maximización de ganancias marginales mediante manipulación mediática, de pronto se invoca la frase "libertad de expresión"
Que algo así ocurra en Apple de por sí se siente bastante absurdo. Es fácil esquivarlo; por ejemplo, escribir “B0ris Johnson” en vez de “Boris Johnson” permite evadir el regex, y se muestra esa posibilidad. Enlace relacionado
- El 99% de los usuarios ni siquiera intentará evadirlo a propósito. El regex hardcodeado se entiende como una primera línea de defensa y un medio muy eficiente de filtrado
- En los LLM pueden funcionar expresiones para esquivar filtros, pero en modelos de generación de imágenes entrenados en torno a etiquetas predefinidas es posible que casi de inmediato fallen en reconocerlas
- El objetivo de estas reglas no es detener a usuarios que intentan saltárselas a propósito, sino bloquear riesgos de primera línea, como que aparezca un resumen tipo “ojalá ${político} se muriera” y eso termine en grandes titulares. Es una protección de seguridad de nivel “pensándolo bien, infantil”
- Se siente como si la política británica hubiera sido clasificada como palabra prohibida
- No hace falta decir que esto es inesperado viniendo de Apple. Es la respuesta SOTA existente, y como Apple llegó tarde a la carrera de la IA, seguir con agilidad las prácticas de la industria es una estrategia razonable
Al ver estas extrañas políticas de filtros de Apple, eso recuerda la controversia anterior sobre filtros de búsqueda en idiomas asiáticos. Fue un episodio raro y algo vergonzoso Artículo relacionado
Estos filtros se centran en bloquear resúmenes de correo/mensajes que puedan resultar vergonzosos o generar riesgo legal, o en mostrar advertencias como "Safari Summarization isn't designed to handle this type of content". Se aplican a la salida del LLM, no a la entrada. El LLM en dispositivo de Apple solo tiene 3b parámetros, así que a veces tiende a producir resultados algo tontos
Dan ganas de probar las reglas de filtrado por palabras clave cambiando el nombre a "Granular Mango Serpent"
- Surge la broma de que Granular Mango Serpent es el nuevo David Meyer. Artículo relacionado
Se pregunta si esto está relacionado con el cifrado de modelos Core ML, algo que resulta un poco extraño porque históricamente Apple no ha ofrecido DRM para proteger assets de apps. Enlace relacionado
- Es un sistema aparte, y no se aplica a un asset completo sino solo a este tipo de overrides. El descifrado se realiza en el framework privado ModelCatalog

Filtro de seguridad extraído de los modelos de Apple Intelligence

Resumen del proyecto

Estructura de carpetas y archivos

Descifrado e interpretación de los archivos override

Importancia del proyecto

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News