whichllm - Encuentra el LLM local que realmente corre en tu hardware y ofrece el mejor rendimiento

xguru · 2026-05-18T10:06:01+09:00

Herramienta CLI que recomienda automáticamente LLM locales para el hardware del usuario con base en benchmarks medidos realmente, no en la cantidad de parámetros Detecta automáticamente GPU/CPU/RAM y presenta un ranking de los mejores modelos de HuggingFace que se ajustan al sistema Compatible con NVIDIA, AMD, Apple Silicon y también con sistemas solo CPU El objetivo principal no es elegir el modelo más grande que quepa en la VRAM, sino el mejor modelo real entre los que sí caben Ejemplo: al simular una RTX 4090, aunque quepa un modelo de 32B, recomienda en primer lugar un modelo de nueva generación de 27B (Qwen3.6-27B) Puntuación combinada de múltiples benchmarks: integra LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO y Open LLM Leaderboard para generar una puntuación de 0 a 100 Reconocimiento de modelos recientes (recency-aware): reduce la puntuación de leaderboards antiguos siguiendo el linaje del modelo, para evitar que modelos de 2024 superen a modelos de la generación actual con puntajes de versiones viejas 5 niveles de clasificación de evidencia: etiqueta con direct / variant / base_model / line_interp / self_reported y luego aplica un descuento de confianza También bloquea los auto-reportes falsos del uploader y la herencia entre familias cruzadas, donde forks pequeños toman prestada la gran puntuación de un modelo base Si la cantidad de parámetros difiere en más del doble respecto al miembro dominante de la familia, se rechaza la herencia Estimación de VRAM/velocidad con conciencia de arquitectura: para VRAM usa pesos + caché KV de GQA + activaciones + overhead; para velocidad refleja límites por ancho de banda, separación entre MoE activo vs total y descarga parcial en memoria unificada vs PCIe whichllm run permite un flujo de trabajo de un solo comando para descargar el modelo y ejecutar chat de inmediato Con uv crea un entorno aislado, instala dependencias, descarga el modelo y automatiza hasta el chat interactivo Compatible con todos los formatos: GGUF / AWQ / GPTQ / FP16 / BF16 Comandos para planificación de hardware whichllm --gpu "RTX 5090" - verificar antes de comprar mediante simulación de una GPU arbitraria whichllm plan "llama 3 70b" - búsqueda inversa de la GPU necesaria para un modelo específico whichllm upgrade "RTX 4090" "RTX 5090" "H100" - compara la máquina actual con GPUs candidatas Integración con Ollama: permite construir pipelines con formatos como whichllm --top 1 --json | jq -r '.models[0].model_id' Salida de snippets de código: con whichllm snippet "qwen 7b" entrega código Python listo para copiar y pegar, desde la llamada a llama_cpp.Llama.from_pretrained hasta la finalización del chat Licencia MIT

(github.com/Andyyyy64)

71 puntos por xguru 2026-05-18 | 3 comentarios | Compartir por WhatsApp

Herramienta CLI que recomienda automáticamente LLM locales para el hardware del usuario con base en benchmarks medidos realmente, no en la cantidad de parámetros
Detecta automáticamente GPU/CPU/RAM y presenta un ranking de los mejores modelos de HuggingFace que se ajustan al sistema
- Compatible con NVIDIA, AMD, Apple Silicon y también con sistemas solo CPU
El objetivo principal no es elegir el modelo más grande que quepa en la VRAM, sino el mejor modelo real entre los que sí caben
- Ejemplo: al simular una RTX 4090, aunque quepa un modelo de 32B, recomienda en primer lugar un modelo de nueva generación de 27B (Qwen3.6-27B)
Puntuación combinada de múltiples benchmarks: integra LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO y Open LLM Leaderboard para generar una puntuación de 0 a 100
Reconocimiento de modelos recientes (recency-aware): reduce la puntuación de leaderboards antiguos siguiendo el linaje del modelo, para evitar que modelos de 2024 superen a modelos de la generación actual con puntajes de versiones viejas
5 niveles de clasificación de evidencia: etiqueta con direct / variant / base_model / line_interp / self_reported y luego aplica un descuento de confianza
- También bloquea los auto-reportes falsos del uploader y la herencia entre familias cruzadas, donde forks pequeños toman prestada la gran puntuación de un modelo base
- Si la cantidad de parámetros difiere en más del doble respecto al miembro dominante de la familia, se rechaza la herencia
Estimación de VRAM/velocidad con conciencia de arquitectura: para VRAM usa pesos + caché KV de GQA + activaciones + overhead; para velocidad refleja límites por ancho de banda, separación entre MoE activo vs total y descarga parcial en memoria unificada vs PCIe
whichllm run permite un flujo de trabajo de un solo comando para descargar el modelo y ejecutar chat de inmediato
- Con uv crea un entorno aislado, instala dependencias, descarga el modelo y automatiza hasta el chat interactivo
- Compatible con todos los formatos: GGUF / AWQ / GPTQ / FP16 / BF16
Comandos para planificación de hardware
- whichllm --gpu "RTX 5090" - verificar antes de comprar mediante simulación de una GPU arbitraria
- whichllm plan "llama 3 70b" - búsqueda inversa de la GPU necesaria para un modelo específico
- whichllm upgrade "RTX 4090" "RTX 5090" "H100" - compara la máquina actual con GPUs candidatas
Integración con Ollama: permite construir pipelines con formatos como whichllm --top 1 --json | jq -r '.models[0].model_id'
Salida de snippets de código: con whichllm snippet "qwen 7b" entrega código Python listo para copiar y pegar, desde la llamada a llama_cpp.Llama.from_pretrained hasta la finalización del chat
Licencia MIT

3 comentarios

xguru 2026-05-18

Yo recomiendo estos 5. Veo que 3 son de Qwen.

Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen/Qwen3.6-27B
deepseek-ai/DeepSeek-V4-Flash
openai/gpt-oss-120b
Qwen/Qwen3-235B-A22B

nezz1204 2026-05-19

Yo estaba usando el sitio https://www.canirun.ai/, pero tendré que probar este también.

popopo 2026-05-18

╭────────────────────────────────────────────────── Información de hardware ──────────────────────────────────────────────────╮  
│ GPU 0: Strix Halo [Radeon Graphics / Radeon 8050S Graphics / Radeon 8060S Graphics] — memoria compartida — BW: 256 GB/s   │  
│ CPU: AMD RYZEN AI MAX+ 395 w/ Radeon 8060S — 16 núcleos (AVX2, AVX-512)                                                   │  
│ RAM: 117.5 GB                                                                                                              │  
│ Espacio libre en disco: 174.1 GB                                                                                           │  
│ SO: linux                                                                                                                  │  
╰────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯  
  
                                                Modelos recomendados  
┏━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━┳━━━━━━━━┳━━━━━━━━━━━━┳━━━━━━━━━━━┳━━━━━━━┳━━━━━━━━━━┓  
┃   # ┃ Model                                     ┃ Params ┃ Quant  ┃ Published  ┃ Downloads ┃ Score ┃ License  ┃  
┡━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━╇━━━━━━━━╇━━━━━━━━━━━━╇━━━━━━━━━━━╇━━━━━━━╇━━━━━━━━━━┩  
│   1 │ Qwen/Qwen3-Next-80B-A3B-Instruct          │  81.3B │  Q6_K  │ 2025-09-09 │    336.2K │  94.9 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   2 │ openai/gpt-oss-120b                       │ 120.4B │  Q6_K  │ 2025-08-04 │      4.7M │  91.9 │ apache-… │  
│     │                                           │ (5.1B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   3 │ Qwen/Qwen3.6-27B                          │  27.8B │ Q3_K_M │ 2026-04-21 │      3.6M │  85.1 │ apache-… │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   4 │ Qwen/Qwen3-30B-A3B                        │  30.0B │  Q6_K  │ 2025-04-27 │      1.7M │  83.5 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   5 │ google/gemma-4-26B-A4B-it                 │  26.5B │  Q6_K  │ 2026-03-11 │      8.7M │  81.2 │ apache-… │  
│     │                                           │ (3.8B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   6 │ openai/gpt-oss-20b                        │  21.5B │  Q6_K  │ 2025-08-04 │      7.6M │  77.9 │ apache-… │  
│     │                                           │ (3.6B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   7 │ zai-org/GLM-4.7-Flash                     │  31.2B │  Q6_K  │ 2026-01-19 │    742.3K │  77.2 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   8 │ zai-org/GLM-4.5-Air                       │ 110.5B │  Q6_K  │ 2025-07-20 │    384.2K │  75.6 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   9 │ meta-llama/Llama-4-Scout-17B-16E-Instruct │ 109.0B │ Q5_K_M │ 2025-04-02 │    391.1K │  74.7 │ other    │  
│     │                                           │ (17.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│  10 │ Qwen/Qwen3-32B                            │  32.0B │ Q5_K_M │ 2025-04-27 │      7.0M │  73.9 │ apache-… │  
└─────┴───────────────────────────────────────────┴────────┴────────┴────────────┴───────────┴───────┴──────────┘  
  Confianza en la mejor opción: alta (benchmark directo, brecha +2.9)  
  Referencia del benchmark: snapshot curado de 2026-05; AA en vivo / LiveBench / Aider combinados cuando están accesibles.

whichllm - Encuentra el LLM local que realmente corre en tu hardware y ofrece el mejor rendimiento

Lecturas relacionadas

3 comentarios