Ejecuta Qwen3 en una MacBook y haz vibe coding gratis

(localforge.dev)

18 puntos por GN⁺ 2025-05-02 | 3 comentarios | Compartir por WhatsApp

Usa la librería MLX para ejecutarlo directamente en Mac y servir localmente el potente y más reciente modelo Qwen3-30B-A3B-8bit
Conéctalo en Localforge con el formato de API de OpenAI para crear un bucle de agente
Agrega un modelo auxiliar basado en ollama (Gemma3) para separar el rol de apoyo del agente y permitir un uso más eficiente de las herramientas
Después de configurar el agente en la UI de Localforge, puede ejecutar la "herramienta LS", crear sitios web e incluso ejecutar automáticamente un juego de Snake
Todo este proceso es gratuito y puede funcionar de forma completamente autónoma en local; si usas Mac, es un proyecto que vale la pena probar

Ejecutar Qwen3 localmente en Mac

Objetivo: ejecutar el modelo más reciente de Qwen3 en Mac y convertirlo en un agente con Localforge para experimentar con automatización de programación
Qwen3 está distribuido en Ollama y en la comunidad MLX de HuggingFace
- Qwen3 on Ollama
- Qwen3 on Huggingface MLX
Paso 1: Instalar el entorno MLX
```
pip install mlx  
pip install mlx-lm  
```
Paso 2: Ejecutar el servidor del modelo
```
mlx_lm.server --model mlx-community/Qwen3-30B-A3B-8bit --trust-remote-code --port 8082  
```
- El modelo se descarga automáticamente y se inicia como servidor API en el puerto 8082
- Si en el log aparece el mensaje "Starting httpd...", significa que se ejecutó correctamente

Configuración de Localforge

Sitio oficial: https://localforge.dev
Después de instalarlo, en la configuración se necesita lo siguiente:
Agregar proveedores
- a) Proveedor Ollama (modelo auxiliar)
  - Nombre: LocalOllama
  - Tipo: ollama
  - Instalación requerida: modelo gemma3:latest (adecuado para procesamiento simple de lenguaje)
- b) Proveedor Qwen3 (modelo principal)
  - Nombre: qwen3:mlx:30b
  - Tipo: openai
  - API key: "not-needed"
  - API URL: http://127.0.0.1:8082/v1/
Crear agente
- Nombre: qwen3-agent
- Modelo principal: qwen3:mlx:30b (nombre del modelo: mlx-community/Qwen3-30B-A3B-8bit)
- Modelo auxiliar: LocalOllama (nombre del modelo: gemma3:latest)

Conclusión

En Mac, es posible ejecutar gratis un modelo grande en local y hacer programación automática basada en agentes
También se pueden lograr resultados más refinados ajustando la selección del modelo o el system prompt
Localforge + MLX + Qwen3 es una combinación muy útil para experimentos personales con LLM

3 comentarios

ragingwind 2025-05-02

¿En local, 30b es bastante excelente, no? Qwen2.5-Coder no me convenció mucho, pero sí parece que vale la pena probarlo.

xguru 2025-05-02

Qwen3 - El modelo de lenguaje de próxima generación que piensa más a fondo y actúa más rápido

GN⁺ 2025-05-02

Comentarios de Hacker News

Estoy usando el modelo Qwen3-30B-A3B localmente y me ha impresionado mucho. Parece que podría ser una alternativa para quienes estaban esperando GPT-4. Estoy obteniendo 70 tok/s en una M3 Max, así que es muy cómodo de usar
- En particular, me impresiona que el modelo 0.6B pueda usarse de forma útil para tareas no críticas incluso entre modelos de menos de 1B
- En general, es muy impresionante y estoy evaluando cómo integrarlo con mi configuración actual
Ejecutar qwen3 y hacer una llamada a la herramienta ls no es "vibe coding". Esto parece más bien publicidad de LocalForge
- En realidad, no creo que funcione bien para trabajo autónomo de verdad, por ejemplo leer varios archivos, explorar directorios y determinar dónde hay que hacer modificaciones
Quiero elogiar a MLX y MLX-LM. Los estoy usando para ajustar finamente modelos Gemma 3 de forma local, y las librerías y herramientas hechas por desarrolladores de Apple están bien armadas
Por accidente hice que Qwen3 entrara en un bucle con un prompt simple
- Usé el prompt "crear un decorador de Python que use un trie para enrutamiento de temas MQTT"
- phi4-reasoning funciona, pero parece tener errores en el código
- phi4-mini-reasoning se confunde
- qwen3:30b entra en un bucle y se olvida del decorador
- mistral-small capta de inmediato la idea central y el código parece estar bien
- Uso modelos de Copilot con regularidad, y Claude 3.7 y Gemini generan código utilizable junto con pruebas. Pero parece que los modelos locales aún no tienen ese nivel de capacidad
¿Alguien conoce una configuración donde un LLM local pueda colaborar en tareas con MCP, comprimir contexto o cooperar con un agente en la nube?
- Parece tonto que una nueva caja M3 solo renderice la UI mientras un LLM en la nube refactoriza la base de código. Da la impresión de que podrían coordinar el trabajo entre sí
Quiero compartir un tutorial rápido para ejecutar un agente autónomo real en local y hacer tareas simples
- Todavía estoy buscando la configuración correcta de MLX o una versión adecuada del modelo, pero el framework de este enfoque es sólido
Me alegra haber descubierto LocalForge. Tengo una pregunta sobre LocalForge. ¿Se pueden combinar dos agentes para pasar una imagen a un agente multimodal para que entregue html/css, y que otro agente escriba el resto del código?
- En la publicación se mencionan Gemma3 (multimodal) y Qwen3 (no multimodal). ¿Se pueden usar como describí arriba?
- Me pregunto cómo sabe LocalForge a qué agente enrutar el prompt
Muy impresionante. No necesita ser tan bueno como los modelos de tokens de pago
- Por ejemplo, el mes pasado gasté al menos $300 en vibe coding. Fue porque quería conocer herramientas competitivas y porque, después de terminar la implementación de un side project, quise reescribirlo en otro lenguaje de programación
- Incluso si aquí me tomo un pequeño descanso, una laptop Nvidia reacondicionada podría recuperar su costo en menos de un año. Es decepcionante que Ollama todavía no pueda manejar todo el flujo. Podría ser posible con un solo comando
Se ve bien. Estaba buscando un IDE con asistencia de IA con enfoque local-first para trabajar con Gemma 3 27B de Google
- Creo que deberían revelar que LocalForge es su proyecto
Ejecutar modelos de forma local se está volviendo interesante. En particular, la versión 30B-A3B parece una dirección prometedora. Con 16 GB de VRAM todavía no está al alcance, pero sí bastante cerca
- Estoy esperando nuevas tarjetas Nvidia RTX con 24/32 GB de VRAM. Parece que en unos años podrían llegar al nivel de GPT-4. Eso sería útil para varias tareas

Ejecuta Qwen3 en una MacBook y haz vibe coding gratis

Ejecutar Qwen3 localmente en Mac

Paso 1: Instalar el entorno MLX

Paso 2: Ejecutar el servidor del modelo

Configuración de Localforge

Agregar proveedores

b) Proveedor Qwen3 (modelo principal)

Crear agente

Conclusión

Lecturas relacionadas

3 comentarios

Comentarios de Hacker News