5 puntos por GN⁺ 6 시간 전 | 1 comentarios | Compartir por WhatsApp
  • Qwen 3.6 27B parece una opción relevante para tareas de propósito general incluso para usuarios escépticos de los modelos locales, y se recomienda como un modelo dense más lento pero más potente que el 35B A3B
  • En pruebas de creación y coding, su fortaleza fue el cumplimiento de restricciones; en OpenCode generó con un solo prompt un paquete de Node para un Buscaminas hexagonal basado en pnpm
  • Combinando llama.cpp con la cuantización GGUF de 8 bits de Hugging Face, es posible ejecutarlo localmente; con MTP, carga de capas en GPU, flash attention y contexto de 64k, incluso se puede configurar un entorno de coding con agentes
  • En pruebas con una Macbook Max M5 de 128GB, Qwen3.6-27B de 8 bits alcanzó 32 tok/s con llama.cpp + MTP y usó unos 42GB de RAM; aunque el 35B A3B era más rápido, se prefirió el 27B por su mejor calidad de código
  • Según Artificial Analysis, Qwen3.6-27B obtiene 37 puntos, ubicándose al nivel de mediados de 2025 como GPT-5 / Claude Sonnet 4.5, y resulta práctico para datos sensibles, trabajo offline y operar modelos propios que no pueden ser retirados

Por qué recomiendo Qwen 3.6 27B

  • Qwen 3.6 está disponible en dos variantes
  • Qwen 3.6 27B recibió muchos comentarios de que “rinde por encima de su categoría”, y un ejemplo relacionado es Will it Mythos?
  • Al ejecutarlo localmente, la computadora puede calentarse, pero ofrece un rendimiento que vale la pena

Pruebas simples y resultados en tareas reales

  • Como prueba rápida, en lugar de “penguins on a bicycle” de Simon Willison se usó escritura con restricciones
  • Al pedirle un poema de 8 versos sobre baile Zouk y física cuántica, el razonamiento sobre términos cuánticos y rima fluyó de forma natural
    • La conversación relacionada está en transcript
  • Al pedirle en OpenCode que creara un Buscaminas hexagonal usando pnpm, generó un paquete de Node correcto con un solo prompt
  • Qwen 3.6 35B A3B fue más rápido, pero no siguió la instrucción de crear un paquete y lo implementó como un único index.html
  • También produjo resultados funcionales para tareas generales de trabajo con prompts cortos, y su capacidad de respuesta y valores predeterminados fueron bastante buenos
    • No es algo extraordinario frente a modelos frontier, pero como modelo local ya está en un nivel práctico

Ejecución local con llama.cpp

  • Ejecutar un modelo local es posible con unas pocas líneas de CLI, y la herramienta recomendada es llama.cpp

  • Se ejecuta descargando desde Hugging Face un modelo cuantizado de menor tamaño

    • Proveedores populares de modelos cuantizados incluyen unsloth y bartowski
    • El modelo base normalmente usa precisión BF16
    • La cuantización de 8 bits reduce el espacio a la mitad con casi ninguna pérdida de calidad
    • La cuantización a menos bits hace que el modelo sea más pequeño y potencialmente más rápido, pero con un costo en calidad
    • La comparación del 27B está en un benchmark de Reddit, y la del 35B A3B en una discusión de Hugging Face
  • Ejemplo de ejecución del servidor

    llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
        --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080
    
    • -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0: obtiene el modelo desde Hugging Face y lo reutiliza en ejecuciones posteriores
    • -m ~/models/Qwen3.6-27B-Q8_0.gguf: se puede usar en su lugar si ya tienes el archivo del modelo
    • draft-mtp: acelera usando multi-token prediction, que predice los siguientes tokens con un modelo rápido
    • -ngl 999: sube todas las capas a la GPU
    • -fa on: activa flash attention
    • -c 65536: establece el tamaño de contexto en 64k tokens
    • El contexto nativo de Qwen 3.6 27B es de 256k
    • --port 8080: fija el puerto que se usará en otras configuraciones
    • Si abres http://127.0.0.1:8080, puedes chatear directamente
  • Configuración de OpenCode

    • El mismo servidor también puede usarse para vibe coding
    • En OpenCode, agrega la siguiente configuración a ~/.config/opencode/opencode.jsonc
    {
      "$schema": "https://opencode.ai/config.json";,
      "provider": {
        "llama": {
          "name": "llama.cpp (local)",
          "npm": "@ai-sdk/openai-compatible",
          "options": {
            "baseURL": "http://127.0.0.1:8080/v1";,
            "apiKey": "local"
          },
          "models": {
            "qwen3.6-27b": { "name": "Qwen3.6-27B Q8 +MTP" }
          }
        }
      },
      "model": "llama/qwen3.6-27b"
    }
    
  • Ejecución para chat en la terminal

    • Si solo quieres chatear desde la terminal, puedes usar llama-cli en lugar de llama-server
    llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
                    -ngl 999 -fa on -c 65536
    

Medición de rendimiento en Apple Silicon

  • Los resultados de prueba están recopilados en benching-local-llms-on-apple-silicon y se ejecutaron en una Macbook Max M5 de 128GB
  • Qwen3.6-35B-A3B · 8-bit
    • MLX: 85 tok/s, 37GB de RAM
    • llama.cpp: 93 tok/s, 44GB de RAM
    • llama.cpp + MTP: 105 tok/s, 45GB de RAM
  • Qwen3.6-27B · 8-bit
    • MLX: 17 tok/s, 28GB de RAM
    • llama.cpp: 18 tok/s, 41GB de RAM
    • llama.cpp + MTP: 32 tok/s, 42GB de RAM
  • DeepSeek-V4-Flash · Q2–Q4
    • llama.cpp: 33 tok/s, 103GB de RAM
  • 30 tok/s no es una mala velocidad y entra dentro del rango típico de las API de modelos frontier
  • mlx-lm está orientado a Apple Silicon, pero en esta prueba llama.cpp fue más rápido
  • Durante la ejecución, el uso de GPU fue de 95%, lo que parece aprovechar eficientemente los recursos disponibles
  • Las dos variantes de Qwen 3.6 se ejecutan dentro de los 48GB de RAM compartida de Apple Silicon
  • En tarjetas Nvidia RTX de consumo hace falta una cuantización más agresiva, pero la inferencia se ejecuta más rápido
    • gfosco, de Hacker News, dijo que en una 5090 obtuvo de forma consistente 50 tok/s con cuantización Q6_K y KV Q4_0 en un contexto de 123k, usando unos 28/32GB de VRAM con LM Studio
  • Aunque 35B A3B es 3 veces más rápido, vale la pena elegir el 27B si el código generado tiene mayor calidad, incluso si produce solo un tercio de la cantidad

Comparación con modelos de punta existentes

  • En la comparación de puntajes de Artificial Analysis, Qwen3.6-27B obtiene 37 puntos
  • Los elementos principales de la tabla comparativa son los siguientes
    • Gemma 4 31B: 29 puntos, nivel de fines de 2024, o1 / Claude 3.5 Sonnet
    • Qwen3.6-35B-A3B: 32 puntos, nivel de comienzos de 2025, o3 / Claude 4 Sonnet
    • Qwen3.6-27B: 37 puntos, nivel de mediados de 2025, GPT-5 / Claude Sonnet 4.5
    • DeepSeek-V4-Flash: 40 puntos, nivel de fines de 2025, GPT-5.2 / Claude Opus 4.5
  • Hay benchmarks adicionales en notes, y la tendencia general es similar
  • Gemma 4 31B se incluye en la comparación porque mucha gente lo usa como opción predeterminada para coding local
  • Tanto los benchmarks como las reacciones online prefieren claramente Qwen 3.6 27B por encima de Gemma 4 31B
  • Sin embargo, hay que tener cuidado con las condiciones de cuantización
    • Es probable que la cuantización de 8 bits no afecte mucho los resultados
    • DwarfStar4 usa una cuantización mucho más agresiva de 2–4 bits para DeepSeek V4 Flash, por lo que sin duda es peor que el modelo completo
    • En estas condiciones, Qwen 3.6 27B da una impresión igual o ligeramente mejor que DwarfStar4
    • En proyectos de contexto más largo, DS4 podría tener ventaja

Siguientes pasos para operar modelos locales

  • Ejecutar modelos por cuenta propia se está volviendo una opción cada vez más realista
  • El estado de los modelos frontier propietarios puede empujar aún más esta tendencia
    • Claude Fable 5 fue retirado
    • Otros modelos frontier operan sobre grandes subsidios, con una estructura en la que se pagan 100 dólares al mes para usar tokens por valor de miles de dólares
  • Un modelo local puede afinarse según las necesidades y no puede ser retirado desde afuera
  • Las empresas pueden usar modelos locales para datos propietarios y sensibles
  • Las personas pueden aprovechar modelos locales para proyectos offline o en situaciones en las que no quieren compartir secretos importantes o datos médicos con Estados Unidos o China
  • La publicación del GLM 5.2 open-weight de nivel frontier acelera aún más la tendencia hacia modelos locales
  • Podrían aparecer modelos más inteligentes que los actuales de punta y que puedan ejecutarse en dispositivos locales, quizás incluso en smartphones
  • Los modelos actuales combinan inteligencia bruta y conocimiento factual en los mismos pesos, pero es probable que los modelos futuros separen ambas cosas delegando el conocimiento a llamadas a herramientas

1 comentarios

 
GN⁺ 6 시간 전
Comentarios de Hacker News
  • Me gusta la MacBook Pro M5 con 128 GB de RAM y qwen3.6, pero si piensas programar en serio con un LLM local, mejor no comprar esa MacBook
    La razón es simple: se te van a calentar los dedos y el ruido del ventilador te va a hacer explotar la cabeza
    En la práctica no es realista correr tareas complejas en la laptop que usas de verdad, y aunque en modo clamshell sí se puede, durante tareas de programación con IA o trabajo con agentes es difícil tocarla
    Si quieres correr bien Qwen3.6 27B/35B, es mejor comprar una MacMini M4 de 64 GB, ponerla en el sótano o al menos a varios metros de distancia, y conectarte por LAN o Tailscale; además cuesta casi 1/3 de una MacBook Pro

    • Por la misma razón compré una laptop común de 32 GB
      Ya sé qué tan ruidoso y caliente se pone incluso al correr solo modelos relativamente pequeños como Qwen 27B o Gemma 4 31B en una GPU de escritorio
      Strix Halo tiene un ventilador grande, así que no es tan ruidoso, pero sí se calienta, y para sacar ese calor los ventiladores pequeños de una laptop inevitablemente terminan chillando
      La idea de una laptop que corra modelos en cualquier parte está buena, pero eso le corresponde más a los modelos en la nube, y como no se mueven tantos datos tampoco es un gran problema
      Para trabajos que requieren privacidad, basta con poner un modelo autoalojado en el equipo grande de tu casa y conectarte por VPN
      Aun así, modelos como Gemma 4 12B QAT 4-bit, que corren bien incluso en dispositivos de 16 GB o tabletas, me parecieron muy buenos para ciertas tareas, y como modelo de visión autoalojado para clasificación, identificación y etiquetado fue el mejor de los que probé
      También escribe prosa decente y usa herramientas bastante bien, pero en 7 GB no cabe tanto conocimiento del mundo, así que para investigar necesita búsqueda, y no quisiera usarlo para programar más allá de código muy simple
    • Puedes probar la bandera --power en DwarfStar 4: https://github.com/antirez/ds4#reducing-heat-power-usage-and...
    • Si “se te queman los dedos y el ruido te hace explotar la cabeza”, entonces supongo que simplemente podrías poner la Mac mini en otro cuarto
      Durante unos seis meses corrí un agente de programación en modo YOLO en una laptop; la mayoría de las veces no era local, pero la forma de usarlo sin miedo fue darle al agente un usuario Linux separado llamado agent
      Al agente le puedes volar el directorio home /agent, pero no puede tocar ni leer mi directorio home
      Como tenía que entrar a ese usuario con sudo cada vez, hice un alias, y cuando aparecían problemas de permisos o propiedad los resolvía con una función que arreglaba todo una vez al día
      Aun así era una lata, así que si hubiera tenido una máquina dedicada probablemente solo le habría dado root, y por jugar le di a Claude root en un VPS de $3 y está funcionando bien
      Después de varios meses de prueba y error, al final terminé reinventando desde cero el consejo de “solo cómprate una Mac mini”
    • Cuando probé trabajo con LLM local en una M4 Max usando pi, se sintió más caliente que cualquier MacBook que haya usado hasta ahora
      Incluso a varios centímetros de distancia se sentía el calor irradiado, y me pareció más caliente que cualquier Intel MacBook que he usado, así que lo dejé
      Entre los problemas de suministro y el alza de precios, quizá tenga que quedarme con la laptop 10 años, así que no quería arruinarla
    • Yo la uso exactamente así: Mini M4 Pro 64 GB con qwen3.6
      No tengo un oído particularmente fino, pero pensaría que habría escuchado el ventilador; sin embargo, nunca lo he oído y hasta tuve que buscar si de verdad trae ventilador
  • El texto se basa en ejecutar Qwen 3.6 en una MacBook Pro de 128 GB
    Como referencia, una MBP de 128 GB actualmente empieza en $6699 [0]
    Puede que haya gente dispuesta a pagar con gusto ese sobreprecio por privacidad, pero con cerca de 10 veces menos dinero que una MacBook Neo se puede comprar bastante OpenRouter o créditos de API de laboratorios de punta
    [0]: https://www.apple.com/shop/buy-mac/macbook-pro/14-inch-space...

    • Es difícil discutir las cuentas, pero yo no trazaría la línea así
      Tener una máquina capaz de correr un LLM local razonable como Gemma 4 12B realmente vale la pena
      No sé cuánto coding serio con agentes autónomos terminaría haciendo en una sola MacBook, pero si no hubiera podido meter mano directamente a modelos locales, llama.cpp, LM Studio y demás, no habría entendido este campo de esta manera
      Este campo es demasiado grande, agotador y lleno de jerga, y desde la perspectiva de alguien de más de 50 años era fácil sentirse abrumado
      Solo cuando lo configuré yo mismo en una máquina usada, vi las llamadas a la API y entendí la terminología empezó a volverse algo tangible
      Neo es demasiado limitada para que esta oportunidad se sienta y se entienda de verdad
    • Para todos los experimentos con Qwen 3.6, 48 GB de Apple Silicon fueron suficientes
      Creo que con una cuantización más agresiva incluso se podría bajar más
      En términos económicos, correr modelos en una laptop no tiene mucho sentido, y solo por costo eléctrico puede ser difícil competir con el precio por token generado a gran escala
      Aun así, esto es un avance que cambia el juego
      Antes, este tipo de vibe coding en un dispositivo de consumo no era solo difícil o caro: era directamente imposible
    • El modelo denso Qwen 3.6 27B también puede correr en una DGX Spark con rendimiento similar [1][2], y cuesta alrededor de $4000
      La Asus Ascent GX10 también está en $3999 en varios vendedores
      En teoría también se podrían usar dos 3090 para conseguir 48 GB de VRAM, pero comparado con una MacBook Pro o una GB10 ocupa mucho más espacio y genera mucho más calor
      [1] https://x.com/MiaAI_lab/status/2070859135399182444
      [2] https://github.com/MiaAI-Lab/Qwen3.6-27B-NVFP4-vLLM
    • Los modelos mencionados pueden correr sin problema con 24 GB o más de VRAM, y hay modelos parecidos que también andan bien con 16 GB de VRAM
      Aquí los 128 GB no son imprescindibles
    • Los tokens o créditos desaparecen cuando se usan, pero la MacBook se queda
      En esa misma MacBook también se pueden correr otros modelos
      Si se mira cuánto dinero quema la gente cada mes en SaaS, en algunos casos con ese dinero una MacBook se paga sola en 5 meses
      Y esto no es solo un tema de “privacidad de datos”
      Si usas Claude, básicamente le estás mandando todo a Anthropic, y eso es bastante loco
  • Es difícil decir que los ejemplos reflejen el “trabajo real”.
    Al menos no lo que yo considero trabajo real.
    Acertar un proyecto nuevo en zero-shot es relativamente fácil incluso para modelos pequeños.
    Porque no hay tanto contexto que acumular y pueden volver con facilidad a ejemplos similares de los datos de entrenamiento.
    A menos que les pidas inventar algo completamente nuevo, hay una buena probabilidad de que salgan más o menos adelante.
    La verdadera prueba es si pueden trabajar sobre una base de código existente.
    En experimentos limitados que hice, Qwen 3.5 estuvo decente en una app Rust+React y fue peor en un monolito de C#.
    No era tan malo como para ser inútil, pero sí lo bastante flojo como para volver a Claude en 20 minutos, y creo que me pondría bastante triste si perdiera acceso a modelos en la nube y tuviera que usar solo Qwen.

    • No está directamente relacionado con la frase “acertar un proyecto nuevo en zero-shot es relativamente fácil incluso para modelos pequeños”, pero hubo una época en la que levantar una prueba de concepto tomaba una semana, y una frase así sonaba a pura ciencia ficción.
    • Al evaluar modelos pequeños, se subestima cuánto más se notan sus debilidades mientras más te alejas del código de ejemplo estándar.
      Qwen3.6 dio resultados sorprendentes para un modelo pequeño en apps simples que abundan por todos lados.
      Si le pides hacer una app pequeña con boilerplate usando algo popular como un React TODO app o shadcn, entrega resultados bastante convincentes.
      Pero en cuanto salí de tareas comunes y me fui a trabajos más de nicho, se quedó dando vueltas durante horas y al final produjo resultados inútiles, de esos que provocan un gemido.
      Funciona bastante bien para reemplazar el tecleo en refactors simples o tareas pequeñas con instrucciones muy claras.
      Pero en sesiones de contexto largo o temas no mainstream, sus debilidades se vuelven muy evidentes.
      La cuantización, que se usa mucho para ajustarlo a hardware pequeño, también empeora el problema.
      En internet se siente que la cuantización a 4-bit es casi sin pérdida y que la cuantización del caché clave-valor q8_0/q8_0 tampoco tiene pérdida real, pero en proyectos reales esas cuantizaciones sí degradaron bastante el rendimiento en contexto largo.
    • He estado usando pi y el viejo codex cli para desarrollo laboral junto con Qwen 3.6 27B de 100k de contexto, y me sorprendió mucho lo bien que funciona.
      No es perfecto, pero sí suficiente para acelerar mi flujo de desarrollo habitual, y lo uso sobre todo para escribir Go y C#.
    • Hay varias tareas que salen bien con modelos del nivel de Gemma 4 12B.
      Cosas como diseñar un proyecto grande compuesto por librerías pequeñas para que cada una pueda codificarse y probarse por separado, ordenar proyectos de código antiguos, agregar un README, poner comentarios al código, mostrar ejemplos de uso de una API nueva y actualizar los lugares donde se usa esa API.
      Todas son tareas pequeñas.
      En proyectos grandes de integración, la API comercial de DeepSeek v4 Pro está ayudando mucho por ser muy barata y dar buenos resultados.
    • En mi experiencia, a los modelos pequeños les cuesta incluso arrancar proyectos nuevos desde el concepto básico del proyecto.
      Hay demasiadas decisiones que tomar, y no lo hacen bien.
      Si no esperas que actúen de forma inteligente, modificar código existente es mucho más fácil.
      Es mejor no decir “agrega la función X” y dejar que exploren la base de código, sino señalar los archivos relevantes y decir “el objetivo es agregar la función X a este código y seguir la pauta Y”.
      Si una persona se encarga de la parte de decisiones más difícil, el modelo puede limitarse a seguir instrucciones y colorear dentro de las líneas.
  • Si corres este modelo offline en una MacBook Pro con 48 GB de memoria, hace el trabajo, pero obviamente es más lento que Claude o Codex.

  • Ver a gente comprar una MBP de 128 GB por miles de dólares para correr un modelo objetivamente mucho peor que el estado del arte me da una sensación de locura.
    Con lo que cuesta una M5 MAX de 128 GB, aquí hasta te compras un auto nuevo.
    No sé qué me estoy perdiendo, y me hace pensar si los desarrolladores de otros países de verdad viven en un mundo tan distinto.
    Sé que donde vivo los precios absolutos son incluso más altos que en EE. UU., así que eso lo hace sentir todavía más así.
    Si una persona en su sano juicio comprara algo así en otro país, creo que lo vendería en cuanto llegara aquí para ahorrarse el dinero.

    • Creo que irse por el formato laptop es una tontería.
      El otoño pasado armé una workstation con dos 3090 usadas, pagué 850 dólares canadienses por cada una, aunque ahora el mínimo anda más cerca de 1200.
      48 GB de VRAM es bastante razonable, y uso Qwen 3.6 27B para varias tareas de crear grafos de conocimiento a partir de corpus de texto y hacer razonamiento sobre ellos.
      Lo comparé con lo disponible en OpenRouter y, con costo de token de $0, es difícil vencer a Qwen 27B local.
      Es más lento y la oficina se calienta unos grados más, pero nadie puede desenchufarlo, nadie te vigila por encima del hombro, y los resultados están a un nivel parecido al de modelos de punta.
      Tengo expectativas de Qwen 3.7 de tamaño similar.
      Por lo que he visto hasta ahora, es un salto grande frente a la versión anterior.
    • No entiendo por qué en ese rango de precio la gente compra laptops Mac en vez de una desktop con GPU.
      Hasta parece que solo quieren presumir que es portátil.
    • En mis libros, ya es un activo cuyo valor está subiendo bastante, y es muy probable que en 7 a 10 años pueda revenderse al precio al que se compró.
      Con el financiamiento mensual de Apple, $5k son $416 al mes durante un año y sin intereses.
      Puede correr modelos de nivel DS4 y otros modelos abiertos sin cuantización, a veces incluso varios al mismo tiempo.
      Imagina cuánto valdría si se concretara algún escenario oscuro sobre una guerra entre Taiwán y la Gran China, la conectividad global o la fiabilidad de los modelos comerciales.
      Es un equipo muy difícil de fabricar en cualquier otro momento de la historia, y siento que ojalá hubiera comprado más.
      Vi en tiempo real las señales, la tendencia de precios y los agotamientos de stock, y seguro que otras personas con recursos también lo están acumulando.
    • Sí, para mucha gente 6 mil dólares es calderilla.
    • Así es.
      La gente de tu lado gana por lo menos un orden de magnitud menos que los estadounidenses.
  • Se habla mucho de que el hardware para correr modelos locales es caro, pero si no te interesan los equipos de Apple, casi no se menciona la Intel Arc Pro B50/B60/B70, que parece tener una relación precio-rendimiento bastante buena
    Hace poco compré un modelo B70 con 32GB de RAM por unos $1200 incluyendo impuesto de venta y aranceles, viviendo fuera de EE. UU., y en otras regiones podría ser más barato
    El ancho de banda de memoria es de 608GB/s
    La M5 Max con GPU de 32 núcleos tiene 460GB/s, la de 40 núcleos 614GB/s, y la 3090 sigue siendo más rápida con unos 900GB/s, pero aquí obtienes 32GB de VRAM mucho más barato que con una tarjeta Nvidia equivalente
    Es como obtener cerca de 1/3 del ancho de banda de una 5090 por 1/3 del precio, pero con los mismos 32GB de VRAM, así que si quieres correr modelos cuantizados más grandes y algo de contexto con presupuesto limitado, es un compromiso atractivo
    Todavía estoy explorando los modelos locales, así que no quiero gastar entre $5000 y $10000 en pruebas; si puedo experimentar más barato, un rendimiento un poco más lento me parece bien
    Al principio compré una B50 de 16GB y 70W TDP para probar tarjetas Intel en mi stack, y funcionó fácilmente en Ubuntu y Vulkan
    He visto muchos comentarios diciendo que son un dolor de cabeza e inútiles, pero por lo general parecen relacionados con SYCL, y SYCL ni siquiera parece rendir mejor que Vulkan, así que no veo por qué usarlo
    La B50 me costó $370 con impuestos y aranceles, y literalmente bastó con hacer apt install de las bibliotecas de Vulkan para que funcionara con el driver xe predeterminado de 26.04 y la compilación Vulkan de llama.cpp
    SR-IOV PF/VF también funciona en qemu/kvm sin trucos aparte, y desde que la compré fwupdmgr ya actualizó el firmware dos veces, así que parece que Intel realmente quiere dar soporte a estos productos

  • Creo que el punto ideal ahora mismo es una configuración con dos 3090, una placa madre PCIe 4 y 64~128GB de RAM DDR4
    Hoy se puede armar por alrededor de $3k, y corre Qwen 27B/35B en int4 a una velocidad brutal

  • Como referencia, estoy corriendo gemma4 31B en una 5090 y va bastante bien
    Uso QAT, MTP y contexto de 128k
    Qwen 3.6 27B también me gustó, pero siento que Gemma4 está un poco infravalorado

    • Mi experiencia también ha sido parecida
      Estoy corriendo gemma4 31B en una 4090 con llm.cpp y modelos de unsloth
      También uso Qwen 3.6; Qwen es más rápido, así que sirve mejor para razonamiento y planificación, pero Gemma4 produce código de mucha mejor calidad en el primer intento
      En Rust, C++ y C#, necesita menos correcciones antes de que yo sienta que incluso se puede aceptar un merge
    • No he logrado que Gemma4 cierre bien los turnos
      Siempre se corta de repente o genera llamadas de herramienta incorrectas; probablemente configuré mal oMLX u Opencode
    • Bien
      Voy alternando entre Qwen 3.5 9B Q6_M y Gemma4 12B Q4_K_M en una 4080 Super
      Ambos tienen velocidades parecidas y puedes hacer que revisen mutuamente sus planes o cambios
      En proyectos pequeños son bastante capaces, y para tareas un poco más difíciles puedes subir a una mejor cuantización
  • Antes de ir a comprar una computadora con memoria unificada, conviene saber que en equipos como DGX Spark, Mac o Ryzen AI Max 395 / Strix Halo, los modelos densos suelen ser lentos
    Una GPU dedicada corre mucho mejor los modelos densos
    Vale la pena buscar benchmarks del equipo que piensas comprar, y si de verdad quieres uno de estos equipos, quizá te convenga más correr Qwen 3.6 35B u otro modelo MoE disperso

  • He estado corriendo qwen 3.6 35b a3b con opencode en una MacBook Pro de 16 pulgadas con M3 Max y 64GB de RAM, y ha sido muy buena para planificación y programación local
    Sinceramente, viendo lo potente que resulta 64GB, a veces me pregunto si debí haberme preparado a futuro con 128GB
    Por otro lado, tampoco me he topado todavía con una pared por culpa de un modelo apenas más grande que qwen

    • Yo también corro Qwen 3.6 35B A3b en una laptop con Windows, y la combinación de 64GB de RAM con una GPU de 4GB al menos es tolerable
      No es rápida, da unos pocos tokens por segundo, más lento que la velocidad de lectura, pero puedo dejarle una tarea y volver después
      Es una laptop de $600 comprada en eBay hace unos años, no una máquina de $6000
      Me pregunto si las Mac con memoria unificada o las enormes GPU de escritorio de 24GB realmente están entregando decenas o cientos de tokens por segundo, como correspondería a costar entre 10 y 20 veces más
    • Me da curiosidad saber más o menos qué latencia de respuesta tienes, en tokens por segundo
      Por experiencia, incluso los modelos de 20~35GB y solo la caché clave-valor ya consumen bastante de 64GB base, así que si además quieres seguir teniendo abierto el navegador, el editor y otras cosas, claramente ayuda contar con 128GB completos