- El modelo Qwen3.5-9B se ejecutó de forma completamente local en una MacBook Pro M5 y registró un 93.8% de rendimiento, 4 puntos por debajo de GPT-5.4
- En HomeSec-Bench, compuesto por 96 pruebas y 15 suites, se evaluaron flujos de trabajo reales de seguridad del hogar como uso de herramientas, clasificación de seguridad y deduplicación de eventos
- Qwen3.5-35B-MoE tuvo un TTFT de 435 ms, más rápido que todos los modelos en la nube de OpenAI, con un uso de memoria GPU de 27.2 GB
- La ejecución local no tiene costo de API y garantiza totalmente la privacidad de los datos, además de permitir visualización en tiempo real en Apple Silicon
- Con el sistema Aegis-AI y la plataforma DeepCamera, ahora es posible implementar un ecosistema de IA para seguridad del hogar con enfoque local-first basado en hardware de consumo
Comparación de rendimiento entre IA local y nube
- El modelo Qwen3.5-9B se ejecutó de forma completamente local en una MacBook Pro M5 y logró una tasa de aprobación de 93.8%, con un rendimiento 4 puntos inferior al de GPT-5.4
- Velocidad de procesamiento de 25 tokens por segundo, TTFT (Time to First Token) de 765 ms y uso de 13.8 GB de memoria unificada
- No hay costo de API y la privacidad de los datos está totalmente garantizada
- En un benchmark compuesto por 96 pruebas y 15 suites, se evaluaron flujos de trabajo reales de seguridad del hogar como uso de herramientas, clasificación de seguridad y deduplicación de eventos
- En el leaderboard, GPT-5.4 (97.9%) ocupa el primer lugar, GPT-5.4-mini (95.8%) el segundo, y Qwen3.5-9B y 27B (93.8%) comparten el tercer lugar
- Qwen3.5-9B está 1 punto por encima de GPT-5.4-nano (92.7%)
-
Qwen3.5-35B-MoE tiene un TTFT de 435 ms, más rápido que todos los modelos en la nube de OpenAI
- GPT-5.4-nano 508 ms, GPT-5.4-mini 553 ms, GPT-5.4 601 ms
- En velocidad de decodificación, GPT-5.4-mini es el más rápido con 234.5 tok/s, mientras que Qwen3.5-9B alcanza 25 tok/s
- El uso de memoria GPU es de 13.8 GB para Qwen3.5-9B, 27.2 GB para Qwen3.5-35B-MoE y 40.8 GB para Qwen3.5-122B-MoE
Resumen de HomeSec-Bench
- HomeSec-Bench es un benchmark de LLM para evaluar flujos de trabajo reales de asistentes de seguridad del hogar
- Verifica capacidades necesarias para sistemas de seguridad, como razonamiento, clasificación y uso de herramientas, no solo conversación simple
- Usa 35 imágenes generadas por IA y puede ejecutarse en endpoints compatibles con OpenAI
-
Suites de prueba principales (15 en total)
- Context Preprocessing (6): deduplicación de conversación, mantenimiento de mensajes del sistema
- Topic Classification (4): enrutamiento por dominio de las consultas
- Knowledge Distillation (5): extracción de hechos persistentes desde conversaciones
- Event Deduplication (8): identificación de la misma persona entre varias cámaras
- Tool Use (16): selección correcta de herramientas y parámetros
- Chat & JSON Compliance (11): persona, salida JSON y soporte multilingüe
- Security Classification (12): clasificación por etapas de Normal → Monitor → Suspicious → Critical
- Narrative Synthesis (4): resumen de registros de eventos
- Prompt Injection Resistance (4): prevención de confusión de rol, extracción de prompts y escalamiento de privilegios
- Multi-Turn Reasoning (4): interpretación de referencias y mantenimiento de continuidad temporal
- Error Recovery (4): manejo de consultas imposibles y errores de API
- Privacy & Compliance (3): desidentificación de datos personales y rechazo de vigilancia ilegal
- Alert Routing (5): enrutamiento de canales de alerta y análisis de horas silenciosas
- Knowledge Injection (5): personalización de respuestas usando conocimiento inyectado
- VLM-to-Alert Triage (5): salida de visión → determinación de urgencia → envío de alerta
-
Preguntas clave de la evaluación
- ¿Puede seleccionar las herramientas y parámetros correctos?
- ¿Puede clasificar como Critical a una “persona con máscara por la noche”?
- ¿Puede resistir una inyección de prompts dentro de la descripción del evento?
- ¿Puede reconocer a la misma persona en 3 cámaras sin duplicados?
- ¿Puede mantener el contexto de seguridad en una conversación de múltiples turnos?
El valor de la IA local
- Es posible visualizar en tiempo real la ejecución del benchmark en Apple Silicon
- El modelo 9B logra un rendimiento dentro del 4% frente a GPT-5.4 incluso sin conexión
- La garantía total de privacidad y el costo cero de API son el valor central de la IA local
Configuración del sistema
- System: Aegis-AI — IA local-first para seguridad del hogar basada en hardware de consumo
- Benchmark: HomeSec-Bench — 96 pruebas LLM + 35 pruebas VLM, compuesto por 16 suites
- Skill Platform: DeepCamera — ecosistema distribuido de habilidades de IA
1 comentarios
Comentarios en Hacker News
Siempre imaginé que algún día, cuando una familia compre una casa o electrodomésticos, también comprará un servidor de IA
Como el avance del hardware se está ralentizando, parece que bastaría con comprar una sola vez un sistema de IA doméstico que pueda usarse durante décadas
Creo que este sistema heredaría la historia de la familia, funcionaría completamente offline y se convertiría en una especie de asistente permanente que pasa de generación en generación
La idea de un “servidor de IA que hereda el linaje familiar” suena genial, pero en la práctica creo que es imposible evitar la obsolescencia del hardware
Incluso ahora el rendimiento por núcleo está estancado, pero como la IA se basa en cómputo paralelo, sigue avanzando con rapidez
Creo que la idea de un servidor que dure décadas todavía es prematura
La mayoría de la gente queda satisfecha dejando servicios como almacenamiento de fotos o seguridad en la nube
La página es vistosa, pero en realidad es solo un benchmark simple de seguridad para el hogar
Solo compara modelos Qwen, y la versión más reciente incluso es más lenta que la anterior
Según la tarea, el modelo óptimo cambia; para VL, multilingüe o razonamiento, otros modelos pueden ser mejores
Qwen 3.5 es excelente, pero no existe un “modelo único que haga todo bien”
Elegir el modelo adecuado y diseñar bien el prompt es más importante
Ni siquiera hace falta una Mac M5 nueva; también se puede lograr bastante con una laptop o smartphone de hace 2 años
Ahora mismo solo estoy probando LLM con una MBP Pro de 64GB, y para VLM creo que LFM 450M es lo mejor
Pronto lo actualizaré
Estoy experimentando con LM Studio y busco un modelo para Rust y SQL que sirva como reemplazo local de Claude
La combinación de Qwen 9B + LFM 450M funciona bien incluso con un presupuesto menor a $400
Planeo ampliar las pruebas con más modelos
Salió el M5 Pro, así que probé cargas de trabajo reales de IA
Qwen3.5-9B logró 93.8%, a solo 4 puntos de GPT-5.4, y todo corrió en local
Usa 25 tok/s, 765ms de TTFT y solo 13.8GB de memoria
Ver resultados completos
Estaría bueno tener un enlace donde se puedan ver claramente los ítems evaluados
También quisiera saber si hubo daño en el silicio por uso prolongado
Actualmente se necesitan unos $2500 para correr modelos locales
Curiosamente, cuando mis padres compraron una PC de 166MHz en 1995, también costaba más o menos eso
Después de vivir la rápida pérdida de valor de los electrónicos, ahora me volví muy sensible al precio
Aun así, por la desaceleración de la ley de Moore, puede que ya no se abaraten tan rápido como antes
Cuesta creer que en esa época eso se considerara una “buena relación precio-rendimiento”
Corre bien incluso en una Mac Mini de $500
Incluso en una Mini M2 los modelos pequeños funcionan bien
Esta prueba de prompt injection no parece muy convincente
Gracias por revisarlo
Técnicamente es excelente, pero le falta la función de emitir un certificado de alarma para seguros
En un negocio real, eso es necesario para obtener descuentos en el seguro o compensación por pérdidas
Al final, más que la tecnología, la barrera grande es la regulación y el compliance
Me pregunto cómo se compara este sistema con Frigate
Quisiera saber si es simplemente una capa encima del NVR o si también hace grabación con detección de movimiento
Puede guardar localmente el video de cámaras BLINK/RING y usarlo como memoria persistente
Suena a broma, pero la S de AI significa Security
En el futuro, los tokens podrían venderse como el tráfico de datos y convertirse en un bien de consumo cotidiano