18 puntos por GN⁺ 2025-05-02 | 3 comentarios | Compartir por WhatsApp
  • Usa la librería MLX para ejecutarlo directamente en Mac y servir localmente el potente y más reciente modelo Qwen3-30B-A3B-8bit
  • Conéctalo en Localforge con el formato de API de OpenAI para crear un bucle de agente
  • Agrega un modelo auxiliar basado en ollama (Gemma3) para separar el rol de apoyo del agente y permitir un uso más eficiente de las herramientas
  • Después de configurar el agente en la UI de Localforge, puede ejecutar la "herramienta LS", crear sitios web e incluso ejecutar automáticamente un juego de Snake
  • Todo este proceso es gratuito y puede funcionar de forma completamente autónoma en local; si usas Mac, es un proyecto que vale la pena probar

Ejecutar Qwen3 localmente en Mac

  • Objetivo: ejecutar el modelo más reciente de Qwen3 en Mac y convertirlo en un agente con Localforge para experimentar con automatización de programación
  • Qwen3 está distribuido en Ollama y en la comunidad MLX de HuggingFace
  • Paso 1: Instalar el entorno MLX

    pip install mlx  
    pip install mlx-lm  
    
  • Paso 2: Ejecutar el servidor del modelo

    mlx_lm.server --model mlx-community/Qwen3-30B-A3B-8bit --trust-remote-code --port 8082  
    
    • El modelo se descarga automáticamente y se inicia como servidor API en el puerto 8082
    • Si en el log aparece el mensaje "Starting httpd...", significa que se ejecutó correctamente

Configuración de Localforge

  • Sitio oficial: https://localforge.dev
  • Después de instalarlo, en la configuración se necesita lo siguiente:
  • Agregar proveedores

    • a) Proveedor Ollama (modelo auxiliar)
      • Nombre: LocalOllama
      • Tipo: ollama
      • Instalación requerida: modelo gemma3:latest (adecuado para procesamiento simple de lenguaje)
    • b) Proveedor Qwen3 (modelo principal)

  • Crear agente

    • Nombre: qwen3-agent
    • Modelo principal: qwen3:mlx:30b (nombre del modelo: mlx-community/Qwen3-30B-A3B-8bit)
    • Modelo auxiliar: LocalOllama (nombre del modelo: gemma3:latest)

Conclusión

  • En Mac, es posible ejecutar gratis un modelo grande en local y hacer programación automática basada en agentes
  • También se pueden lograr resultados más refinados ajustando la selección del modelo o el system prompt
  • Localforge + MLX + Qwen3 es una combinación muy útil para experimentos personales con LLM

3 comentarios

 
ragingwind 2025-05-02

¿En local, 30b es bastante excelente, no? Qwen2.5-Coder no me convenció mucho, pero sí parece que vale la pena probarlo.

 
GN⁺ 2025-05-02
Comentarios de Hacker News
  • Estoy usando el modelo Qwen3-30B-A3B localmente y me ha impresionado mucho. Parece que podría ser una alternativa para quienes estaban esperando GPT-4. Estoy obteniendo 70 tok/s en una M3 Max, así que es muy cómodo de usar

    • En particular, me impresiona que el modelo 0.6B pueda usarse de forma útil para tareas no críticas incluso entre modelos de menos de 1B
    • En general, es muy impresionante y estoy evaluando cómo integrarlo con mi configuración actual
  • Ejecutar qwen3 y hacer una llamada a la herramienta ls no es "vibe coding". Esto parece más bien publicidad de LocalForge

    • En realidad, no creo que funcione bien para trabajo autónomo de verdad, por ejemplo leer varios archivos, explorar directorios y determinar dónde hay que hacer modificaciones
  • Quiero elogiar a MLX y MLX-LM. Los estoy usando para ajustar finamente modelos Gemma 3 de forma local, y las librerías y herramientas hechas por desarrolladores de Apple están bien armadas

  • Por accidente hice que Qwen3 entrara en un bucle con un prompt simple

    • Usé el prompt "crear un decorador de Python que use un trie para enrutamiento de temas MQTT"
    • phi4-reasoning funciona, pero parece tener errores en el código
    • phi4-mini-reasoning se confunde
    • qwen3:30b entra en un bucle y se olvida del decorador
    • mistral-small capta de inmediato la idea central y el código parece estar bien
    • Uso modelos de Copilot con regularidad, y Claude 3.7 y Gemini generan código utilizable junto con pruebas. Pero parece que los modelos locales aún no tienen ese nivel de capacidad
  • ¿Alguien conoce una configuración donde un LLM local pueda colaborar en tareas con MCP, comprimir contexto o cooperar con un agente en la nube?

    • Parece tonto que una nueva caja M3 solo renderice la UI mientras un LLM en la nube refactoriza la base de código. Da la impresión de que podrían coordinar el trabajo entre sí
  • Quiero compartir un tutorial rápido para ejecutar un agente autónomo real en local y hacer tareas simples

    • Todavía estoy buscando la configuración correcta de MLX o una versión adecuada del modelo, pero el framework de este enfoque es sólido
  • Me alegra haber descubierto LocalForge. Tengo una pregunta sobre LocalForge. ¿Se pueden combinar dos agentes para pasar una imagen a un agente multimodal para que entregue html/css, y que otro agente escriba el resto del código?

    • En la publicación se mencionan Gemma3 (multimodal) y Qwen3 (no multimodal). ¿Se pueden usar como describí arriba?
    • Me pregunto cómo sabe LocalForge a qué agente enrutar el prompt
  • Muy impresionante. No necesita ser tan bueno como los modelos de tokens de pago

    • Por ejemplo, el mes pasado gasté al menos $300 en vibe coding. Fue porque quería conocer herramientas competitivas y porque, después de terminar la implementación de un side project, quise reescribirlo en otro lenguaje de programación
    • Incluso si aquí me tomo un pequeño descanso, una laptop Nvidia reacondicionada podría recuperar su costo en menos de un año. Es decepcionante que Ollama todavía no pueda manejar todo el flujo. Podría ser posible con un solo comando
  • Se ve bien. Estaba buscando un IDE con asistencia de IA con enfoque local-first para trabajar con Gemma 3 27B de Google

    • Creo que deberían revelar que LocalForge es su proyecto
  • Ejecutar modelos de forma local se está volviendo interesante. En particular, la versión 30B-A3B parece una dirección prometedora. Con 16 GB de VRAM todavía no está al alcance, pero sí bastante cerca

    • Estoy esperando nuevas tarjetas Nvidia RTX con 24/32 GB de VRAM. Parece que en unos años podrían llegar al nivel de GPT-4. Eso sería útil para varias tareas