3 puntos por GN⁺ 2026-03-21 | 1 comentarios | Compartir por WhatsApp
  • El modelo Qwen3.5-9B se ejecutó de forma completamente local en una MacBook Pro M5 y registró un 93.8% de rendimiento, 4 puntos por debajo de GPT-5.4
  • En HomeSec-Bench, compuesto por 96 pruebas y 15 suites, se evaluaron flujos de trabajo reales de seguridad del hogar como uso de herramientas, clasificación de seguridad y deduplicación de eventos
  • Qwen3.5-35B-MoE tuvo un TTFT de 435 ms, más rápido que todos los modelos en la nube de OpenAI, con un uso de memoria GPU de 27.2 GB
  • La ejecución local no tiene costo de API y garantiza totalmente la privacidad de los datos, además de permitir visualización en tiempo real en Apple Silicon
  • Con el sistema Aegis-AI y la plataforma DeepCamera, ahora es posible implementar un ecosistema de IA para seguridad del hogar con enfoque local-first basado en hardware de consumo

Comparación de rendimiento entre IA local y nube

  • El modelo Qwen3.5-9B se ejecutó de forma completamente local en una MacBook Pro M5 y logró una tasa de aprobación de 93.8%, con un rendimiento 4 puntos inferior al de GPT-5.4
    • Velocidad de procesamiento de 25 tokens por segundo, TTFT (Time to First Token) de 765 ms y uso de 13.8 GB de memoria unificada
    • No hay costo de API y la privacidad de los datos está totalmente garantizada
  • En un benchmark compuesto por 96 pruebas y 15 suites, se evaluaron flujos de trabajo reales de seguridad del hogar como uso de herramientas, clasificación de seguridad y deduplicación de eventos
  • En el leaderboard, GPT-5.4 (97.9%) ocupa el primer lugar, GPT-5.4-mini (95.8%) el segundo, y Qwen3.5-9B y 27B (93.8%) comparten el tercer lugar
    • Qwen3.5-9B está 1 punto por encima de GPT-5.4-nano (92.7%)
  • Qwen3.5-35B-MoE tiene un TTFT de 435 ms, más rápido que todos los modelos en la nube de OpenAI

    • GPT-5.4-nano 508 ms, GPT-5.4-mini 553 ms, GPT-5.4 601 ms
    • En velocidad de decodificación, GPT-5.4-mini es el más rápido con 234.5 tok/s, mientras que Qwen3.5-9B alcanza 25 tok/s
    • El uso de memoria GPU es de 13.8 GB para Qwen3.5-9B, 27.2 GB para Qwen3.5-35B-MoE y 40.8 GB para Qwen3.5-122B-MoE

Resumen de HomeSec-Bench

  • HomeSec-Bench es un benchmark de LLM para evaluar flujos de trabajo reales de asistentes de seguridad del hogar
    • Verifica capacidades necesarias para sistemas de seguridad, como razonamiento, clasificación y uso de herramientas, no solo conversación simple
    • Usa 35 imágenes generadas por IA y puede ejecutarse en endpoints compatibles con OpenAI
  • Suites de prueba principales (15 en total)

    • Context Preprocessing (6): deduplicación de conversación, mantenimiento de mensajes del sistema
    • Topic Classification (4): enrutamiento por dominio de las consultas
    • Knowledge Distillation (5): extracción de hechos persistentes desde conversaciones
    • Event Deduplication (8): identificación de la misma persona entre varias cámaras
    • Tool Use (16): selección correcta de herramientas y parámetros
    • Chat & JSON Compliance (11): persona, salida JSON y soporte multilingüe
    • Security Classification (12): clasificación por etapas de Normal → Monitor → Suspicious → Critical
    • Narrative Synthesis (4): resumen de registros de eventos
    • Prompt Injection Resistance (4): prevención de confusión de rol, extracción de prompts y escalamiento de privilegios
    • Multi-Turn Reasoning (4): interpretación de referencias y mantenimiento de continuidad temporal
    • Error Recovery (4): manejo de consultas imposibles y errores de API
    • Privacy & Compliance (3): desidentificación de datos personales y rechazo de vigilancia ilegal
    • Alert Routing (5): enrutamiento de canales de alerta y análisis de horas silenciosas
    • Knowledge Injection (5): personalización de respuestas usando conocimiento inyectado
    • VLM-to-Alert Triage (5): salida de visión → determinación de urgencia → envío de alerta
  • Preguntas clave de la evaluación

    • ¿Puede seleccionar las herramientas y parámetros correctos?
    • ¿Puede clasificar como Critical a una “persona con máscara por la noche”?
    • ¿Puede resistir una inyección de prompts dentro de la descripción del evento?
    • ¿Puede reconocer a la misma persona en 3 cámaras sin duplicados?
    • ¿Puede mantener el contexto de seguridad en una conversación de múltiples turnos?

El valor de la IA local

  • Es posible visualizar en tiempo real la ejecución del benchmark en Apple Silicon
  • El modelo 9B logra un rendimiento dentro del 4% frente a GPT-5.4 incluso sin conexión
  • La garantía total de privacidad y el costo cero de API son el valor central de la IA local

Configuración del sistema

  • System: Aegis-AI — IA local-first para seguridad del hogar basada en hardware de consumo
  • Benchmark: HomeSec-Bench — 96 pruebas LLM + 35 pruebas VLM, compuesto por 16 suites
  • Skill Platform: DeepCamera — ecosistema distribuido de habilidades de IA

1 comentarios

 
GN⁺ 2026-03-21
Comentarios en Hacker News
  • Siempre imaginé que algún día, cuando una familia compre una casa o electrodomésticos, también comprará un servidor de IA
    Como el avance del hardware se está ralentizando, parece que bastaría con comprar una sola vez un sistema de IA doméstico que pueda usarse durante décadas
    Creo que este sistema heredaría la historia de la familia, funcionaría completamente offline y se convertiría en una especie de asistente permanente que pasa de generación en generación

    • No estoy de acuerdo. Basta con ver la comparación entre M1 y M5 para notar que en 5 años se volvió más de 6 veces más rápido en casi todo: CPU/GPU, IA, renderizado 3D, etc.
      La idea de un “servidor de IA que hereda el linaje familiar” suena genial, pero en la práctica creo que es imposible evitar la obsolescencia del hardware
    • Si hubieras comprado un servidor para la casa hace 10 años, probablemente ni siquiera habría tenido GPU ni acelerador de IA
      Incluso ahora el rendimiento por núcleo está estancado, pero como la IA se basa en cómputo paralelo, sigue avanzando con rapidez
      Creo que la idea de un servidor que dure décadas todavía es prematura
    • El concepto propuesto en realidad no es muy distinto de un homelab
      La mayoría de la gente queda satisfecha dejando servicios como almacenamiento de fotos o seguridad en la nube
    • La predicción de un “servidor para usar durante décadas” suena como una afirmación demasiado débil
    • Además, como este tipo de producto no tiene un modelo de ingresos por suscripción, las empresas tienen pocos incentivos para crearlo
  • La página es vistosa, pero en realidad es solo un benchmark simple de seguridad para el hogar
    Solo compara modelos Qwen, y la versión más reciente incluso es más lenta que la anterior
    Según la tarea, el modelo óptimo cambia; para VL, multilingüe o razonamiento, otros modelos pueden ser mejores
    Qwen 3.5 es excelente, pero no existe un “modelo único que haga todo bien”
    Elegir el modelo adecuado y diseñar bien el prompt es más importante
    Ni siquiera hace falta una Mac M5 nueva; también se puede lograr bastante con una laptop o smartphone de hace 2 años

    • Gracias por el feedback :) Al ver que Qwen3.5 iba más lento, desactivé el thinking mode
      Ahora mismo solo estoy probando LLM con una MBP Pro de 64GB, y para VLM creo que LFM 450M es lo mejor
      Pronto lo actualizaré
    • Quiero aprender qué modelos son buenos para qué tareas
      Estoy experimentando con LM Studio y busco un modelo para Rust y SQL que sirva como reemplazo local de Claude
    • Yo también estoy corriendo varias cámaras con una Mac mini M2 de 16GB
      La combinación de Qwen 9B + LFM 450M funciona bien incluso con un presupuesto menor a $400
      Planeo ampliar las pruebas con más modelos
  • Salió el M5 Pro, así que probé cargas de trabajo reales de IA
    Qwen3.5-9B logró 93.8%, a solo 4 puntos de GPT-5.4, y todo corrió en local
    Usa 25 tok/s, 765ms de TTFT y solo 13.8GB de memoria
    Ver resultados completos

    • Gracias por compartir los resultados, pero tanto la página como los comentarios tienen un tono exagerado, como si los hubiera escrito una IA, y cuesta entender qué se probó realmente
      Estaría bueno tener un enlace donde se puedan ver claramente los ítems evaluados
    • Si se trata de un “sistema de seguridad para el hogar totalmente local”, me pregunto si la GPU está al 100% las 24 horas
      También quisiera saber si hubo daño en el silicio por uso prolongado
  • Actualmente se necesitan unos $2500 para correr modelos locales
    Curiosamente, cuando mis padres compraron una PC de 166MHz en 1995, también costaba más o menos eso

    • Yo también recuerdo haber comprado PCs de miles de dólares en los 80 y 90
      Después de vivir la rápida pérdida de valor de los electrónicos, ahora me volví muy sensible al precio
      Aun así, por la desaceleración de la ley de Moore, puede que ya no se abaraten tan rápido como antes
    • En 1989 compré una 386sx por $3800, que en valor actual serían casi $10,000
      Cuesta creer que en esa época eso se considerara una “buena relación precio-rendimiento”
    • El modelo local mejor posicionado en el benchmark, Qwen3.5-9B (Q4_K_M), es un modelo de 9B parámetros con cuantización de 4.5 bits
      Corre bien incluso en una Mac Mini de $500
    • Para empezar, con una Mac Mini de 16GB (<$499) alcanza
      Incluso en una Mini M2 los modelos pequeños funcionan bien
  • Esta prueba de prompt injection no parece muy convincente

    • Esto se usa principalmente para detectar ataques de intermediario
      Gracias por revisarlo
  • Técnicamente es excelente, pero le falta la función de emitir un certificado de alarma para seguros
    En un negocio real, eso es necesario para obtener descuentos en el seguro o compensación por pérdidas
    Al final, más que la tecnología, la barrera grande es la regulación y el compliance

    • Sí, parece que ese estándar es muy alto
  • Me pregunto cómo se compara este sistema con Frigate
    Quisiera saber si es simplemente una capa encima del NVR o si también hace grabación con detección de movimiento

    • Si compras un Coral TPU para Frigate, puedes offloadear mucha inferencia de forma barata
    • Aegis soporta integración con cámaras ONVIF, grabación con detección de movimiento y comprensión contextual basada en VLM
      Puede guardar localmente el video de cámaras BLINK/RING y usarlo como memoria persistente
  • Suena a broma, pero la S de AI significa Security

  • En el futuro, los tokens podrían venderse como el tráfico de datos y convertirse en un bien de consumo cotidiano