Sistema de seguridad local con IA basado en MacBook M5 Pro y Qwen3.5

(sharpai.org)

3 puntos por GN⁺ 2026-03-21 | 1 comentarios | Compartir por WhatsApp

El modelo Qwen3.5-9B se ejecutó de forma completamente local en una MacBook Pro M5 y registró un 93.8% de rendimiento, 4 puntos por debajo de GPT-5.4
En HomeSec-Bench, compuesto por 96 pruebas y 15 suites, se evaluaron flujos de trabajo reales de seguridad del hogar como uso de herramientas, clasificación de seguridad y deduplicación de eventos
Qwen3.5-35B-MoE tuvo un TTFT de 435 ms, más rápido que todos los modelos en la nube de OpenAI, con un uso de memoria GPU de 27.2 GB
La ejecución local no tiene costo de API y garantiza totalmente la privacidad de los datos, además de permitir visualización en tiempo real en Apple Silicon
Con el sistema Aegis-AI y la plataforma DeepCamera, ahora es posible implementar un ecosistema de IA para seguridad del hogar con enfoque local-first basado en hardware de consumo

Comparación de rendimiento entre IA local y nube

El modelo Qwen3.5-9B se ejecutó de forma completamente local en una MacBook Pro M5 y logró una tasa de aprobación de 93.8%, con un rendimiento 4 puntos inferior al de GPT-5.4
- Velocidad de procesamiento de 25 tokens por segundo, TTFT (Time to First Token) de 765 ms y uso de 13.8 GB de memoria unificada
- No hay costo de API y la privacidad de los datos está totalmente garantizada
En un benchmark compuesto por 96 pruebas y 15 suites, se evaluaron flujos de trabajo reales de seguridad del hogar como uso de herramientas, clasificación de seguridad y deduplicación de eventos
En el leaderboard, GPT-5.4 (97.9%) ocupa el primer lugar, GPT-5.4-mini (95.8%) el segundo, y Qwen3.5-9B y 27B (93.8%) comparten el tercer lugar
- Qwen3.5-9B está 1 punto por encima de GPT-5.4-nano (92.7%)
Qwen3.5-35B-MoE tiene un TTFT de 435 ms, más rápido que todos los modelos en la nube de OpenAI
- GPT-5.4-nano 508 ms, GPT-5.4-mini 553 ms, GPT-5.4 601 ms
- En velocidad de decodificación, GPT-5.4-mini es el más rápido con 234.5 tok/s, mientras que Qwen3.5-9B alcanza 25 tok/s
- El uso de memoria GPU es de 13.8 GB para Qwen3.5-9B, 27.2 GB para Qwen3.5-35B-MoE y 40.8 GB para Qwen3.5-122B-MoE

Resumen de HomeSec-Bench

HomeSec-Bench es un benchmark de LLM para evaluar flujos de trabajo reales de asistentes de seguridad del hogar
- Verifica capacidades necesarias para sistemas de seguridad, como razonamiento, clasificación y uso de herramientas, no solo conversación simple
- Usa 35 imágenes generadas por IA y puede ejecutarse en endpoints compatibles con OpenAI
Suites de prueba principales (15 en total)
- Context Preprocessing (6): deduplicación de conversación, mantenimiento de mensajes del sistema
- Topic Classification (4): enrutamiento por dominio de las consultas
- Knowledge Distillation (5): extracción de hechos persistentes desde conversaciones
- Event Deduplication (8): identificación de la misma persona entre varias cámaras
- Tool Use (16): selección correcta de herramientas y parámetros
- Chat & JSON Compliance (11): persona, salida JSON y soporte multilingüe
- Security Classification (12): clasificación por etapas de Normal → Monitor → Suspicious → Critical
- Narrative Synthesis (4): resumen de registros de eventos
- Prompt Injection Resistance (4): prevención de confusión de rol, extracción de prompts y escalamiento de privilegios
- Multi-Turn Reasoning (4): interpretación de referencias y mantenimiento de continuidad temporal
- Error Recovery (4): manejo de consultas imposibles y errores de API
- Privacy & Compliance (3): desidentificación de datos personales y rechazo de vigilancia ilegal
- Alert Routing (5): enrutamiento de canales de alerta y análisis de horas silenciosas
- Knowledge Injection (5): personalización de respuestas usando conocimiento inyectado
- VLM-to-Alert Triage (5): salida de visión → determinación de urgencia → envío de alerta
Preguntas clave de la evaluación
- ¿Puede seleccionar las herramientas y parámetros correctos?
- ¿Puede clasificar como Critical a una “persona con máscara por la noche”?
- ¿Puede resistir una inyección de prompts dentro de la descripción del evento?
- ¿Puede reconocer a la misma persona en 3 cámaras sin duplicados?
- ¿Puede mantener el contexto de seguridad en una conversación de múltiples turnos?

El valor de la IA local

Es posible visualizar en tiempo real la ejecución del benchmark en Apple Silicon
El modelo 9B logra un rendimiento dentro del 4% frente a GPT-5.4 incluso sin conexión
La garantía total de privacidad y el costo cero de API son el valor central de la IA local

Configuración del sistema

System: Aegis-AI — IA local-first para seguridad del hogar basada en hardware de consumo
Benchmark: HomeSec-Bench — 96 pruebas LLM + 35 pruebas VLM, compuesto por 16 suites
Skill Platform: DeepCamera — ecosistema distribuido de habilidades de IA

1 comentarios

GN⁺ 2026-03-21

Comentarios en Hacker News

Siempre imaginé que algún día, cuando una familia compre una casa o electrodomésticos, también comprará un servidor de IA
Como el avance del hardware se está ralentizando, parece que bastaría con comprar una sola vez un sistema de IA doméstico que pueda usarse durante décadas
Creo que este sistema heredaría la historia de la familia, funcionaría completamente offline y se convertiría en una especie de asistente permanente que pasa de generación en generación
- No estoy de acuerdo. Basta con ver la comparación entre M1 y M5 para notar que en 5 años se volvió más de 6 veces más rápido en casi todo: CPU/GPU, IA, renderizado 3D, etc.
  La idea de un “servidor de IA que hereda el linaje familiar” suena genial, pero en la práctica creo que es imposible evitar la obsolescencia del hardware
- Si hubieras comprado un servidor para la casa hace 10 años, probablemente ni siquiera habría tenido GPU ni acelerador de IA
  Incluso ahora el rendimiento por núcleo está estancado, pero como la IA se basa en cómputo paralelo, sigue avanzando con rapidez
  Creo que la idea de un servidor que dure décadas todavía es prematura
- El concepto propuesto en realidad no es muy distinto de un homelab
  La mayoría de la gente queda satisfecha dejando servicios como almacenamiento de fotos o seguridad en la nube
- La predicción de un “servidor para usar durante décadas” suena como una afirmación demasiado débil
- Además, como este tipo de producto no tiene un modelo de ingresos por suscripción, las empresas tienen pocos incentivos para crearlo
La página es vistosa, pero en realidad es solo un benchmark simple de seguridad para el hogar
Solo compara modelos Qwen, y la versión más reciente incluso es más lenta que la anterior
Según la tarea, el modelo óptimo cambia; para VL, multilingüe o razonamiento, otros modelos pueden ser mejores
Qwen 3.5 es excelente, pero no existe un “modelo único que haga todo bien”
Elegir el modelo adecuado y diseñar bien el prompt es más importante
Ni siquiera hace falta una Mac M5 nueva; también se puede lograr bastante con una laptop o smartphone de hace 2 años
- Gracias por el feedback :) Al ver que Qwen3.5 iba más lento, desactivé el thinking mode
  Ahora mismo solo estoy probando LLM con una MBP Pro de 64GB, y para VLM creo que LFM 450M es lo mejor
  Pronto lo actualizaré
- Quiero aprender qué modelos son buenos para qué tareas
  Estoy experimentando con LM Studio y busco un modelo para Rust y SQL que sirva como reemplazo local de Claude
- Yo también estoy corriendo varias cámaras con una Mac mini M2 de 16GB
  La combinación de Qwen 9B + LFM 450M funciona bien incluso con un presupuesto menor a $400
  Planeo ampliar las pruebas con más modelos
Salió el M5 Pro, así que probé cargas de trabajo reales de IA
Qwen3.5-9B logró 93.8%, a solo 4 puntos de GPT-5.4, y todo corrió en local
Usa 25 tok/s, 765ms de TTFT y solo 13.8GB de memoria
Ver resultados completos
- Gracias por compartir los resultados, pero tanto la página como los comentarios tienen un tono exagerado, como si los hubiera escrito una IA, y cuesta entender qué se probó realmente
  Estaría bueno tener un enlace donde se puedan ver claramente los ítems evaluados
- Si se trata de un “sistema de seguridad para el hogar totalmente local”, me pregunto si la GPU está al 100% las 24 horas
  También quisiera saber si hubo daño en el silicio por uso prolongado
Actualmente se necesitan unos $2500 para correr modelos locales
Curiosamente, cuando mis padres compraron una PC de 166MHz en 1995, también costaba más o menos eso
- Yo también recuerdo haber comprado PCs de miles de dólares en los 80 y 90
  Después de vivir la rápida pérdida de valor de los electrónicos, ahora me volví muy sensible al precio
  Aun así, por la desaceleración de la ley de Moore, puede que ya no se abaraten tan rápido como antes
- En 1989 compré una 386sx por $3800, que en valor actual serían casi $10,000
  Cuesta creer que en esa época eso se considerara una “buena relación precio-rendimiento”
- El modelo local mejor posicionado en el benchmark, Qwen3.5-9B (Q4_K_M), es un modelo de 9B parámetros con cuantización de 4.5 bits
  Corre bien incluso en una Mac Mini de $500
- Para empezar, con una Mac Mini de 16GB (<$499) alcanza
  Incluso en una Mini M2 los modelos pequeños funcionan bien
Esta prueba de prompt injection no parece muy convincente
- Esto se usa principalmente para detectar ataques de intermediario
  Gracias por revisarlo
Técnicamente es excelente, pero le falta la función de emitir un certificado de alarma para seguros
En un negocio real, eso es necesario para obtener descuentos en el seguro o compensación por pérdidas
Al final, más que la tecnología, la barrera grande es la regulación y el compliance
- Sí, parece que ese estándar es muy alto
Me pregunto cómo se compara este sistema con Frigate
Quisiera saber si es simplemente una capa encima del NVR o si también hace grabación con detección de movimiento
- Si compras un Coral TPU para Frigate, puedes offloadear mucha inferencia de forma barata
- Aegis soporta integración con cámaras ONVIF, grabación con detección de movimiento y comprensión contextual basada en VLM
  Puede guardar localmente el video de cámaras BLINK/RING y usarlo como memoria persistente
Suena a broma, pero la S de AI significa Security
En el futuro, los tokens podrían venderse como el tráfico de datos y convertirse en un bien de consumo cotidiano

Sistema de seguridad local con IA basado en MacBook M5 Pro y Qwen3.5

Comparación de rendimiento entre IA local y nube

Qwen3.5-35B-MoE tiene un TTFT de 435 ms, más rápido que todos los modelos en la nube de OpenAI

Resumen de HomeSec-Bench

Suites de prueba principales (15 en total)

Preguntas clave de la evaluación

El valor de la IA local

Configuración del sistema

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News