71 puntos por xguru 2026-05-18 | 3 comentarios | Compartir por WhatsApp
  • Herramienta CLI que recomienda automáticamente LLM locales para el hardware del usuario con base en benchmarks medidos realmente, no en la cantidad de parámetros
  • Detecta automáticamente GPU/CPU/RAM y presenta un ranking de los mejores modelos de HuggingFace que se ajustan al sistema
    • Compatible con NVIDIA, AMD, Apple Silicon y también con sistemas solo CPU
  • El objetivo principal no es elegir el modelo más grande que quepa en la VRAM, sino el mejor modelo real entre los que sí caben
    • Ejemplo: al simular una RTX 4090, aunque quepa un modelo de 32B, recomienda en primer lugar un modelo de nueva generación de 27B (Qwen3.6-27B)
  • Puntuación combinada de múltiples benchmarks: integra LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO y Open LLM Leaderboard para generar una puntuación de 0 a 100
  • Reconocimiento de modelos recientes (recency-aware): reduce la puntuación de leaderboards antiguos siguiendo el linaje del modelo, para evitar que modelos de 2024 superen a modelos de la generación actual con puntajes de versiones viejas
  • 5 niveles de clasificación de evidencia: etiqueta con direct / variant / base_model / line_interp / self_reported y luego aplica un descuento de confianza
    • También bloquea los auto-reportes falsos del uploader y la herencia entre familias cruzadas, donde forks pequeños toman prestada la gran puntuación de un modelo base
    • Si la cantidad de parámetros difiere en más del doble respecto al miembro dominante de la familia, se rechaza la herencia
  • Estimación de VRAM/velocidad con conciencia de arquitectura: para VRAM usa pesos + caché KV de GQA + activaciones + overhead; para velocidad refleja límites por ancho de banda, separación entre MoE activo vs total y descarga parcial en memoria unificada vs PCIe
  • whichllm run permite un flujo de trabajo de un solo comando para descargar el modelo y ejecutar chat de inmediato
    • Con uv crea un entorno aislado, instala dependencias, descarga el modelo y automatiza hasta el chat interactivo
    • Compatible con todos los formatos: GGUF / AWQ / GPTQ / FP16 / BF16
  • Comandos para planificación de hardware
    • whichllm --gpu "RTX 5090" - verificar antes de comprar mediante simulación de una GPU arbitraria
    • whichllm plan "llama 3 70b" - búsqueda inversa de la GPU necesaria para un modelo específico
    • whichllm upgrade "RTX 4090" "RTX 5090" "H100" - compara la máquina actual con GPUs candidatas
  • Integración con Ollama: permite construir pipelines con formatos como whichllm --top 1 --json | jq -r '.models[0].model_id'
  • Salida de snippets de código: con whichllm snippet "qwen 7b" entrega código Python listo para copiar y pegar, desde la llamada a llama_cpp.Llama.from_pretrained hasta la finalización del chat
  • Licencia MIT

3 comentarios

 
xguru 2026-05-18

Yo recomiendo estos 5. Veo que 3 son de Qwen.

Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen/Qwen3.6-27B
deepseek-ai/DeepSeek-V4-Flash
openai/gpt-oss-120b
Qwen/Qwen3-235B-A22B

 
nezz1204 2026-05-19

Yo estaba usando el sitio https://www.canirun.ai/, pero tendré que probar este también.

 
popopo 2026-05-18
╭────────────────────────────────────────────────── Información de hardware ──────────────────────────────────────────────────╮  
│ GPU 0: Strix Halo [Radeon Graphics / Radeon 8050S Graphics / Radeon 8060S Graphics] — memoria compartida — BW: 256 GB/s   │  
│ CPU: AMD RYZEN AI MAX+ 395 w/ Radeon 8060S — 16 núcleos (AVX2, AVX-512)                                                   │  
│ RAM: 117.5 GB                                                                                                              │  
│ Espacio libre en disco: 174.1 GB                                                                                           │  
│ SO: linux                                                                                                                  │  
╰────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯  
  
                                                Modelos recomendados  
┏━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━┳━━━━━━━━┳━━━━━━━━━━━━┳━━━━━━━━━━━┳━━━━━━━┳━━━━━━━━━━┓  
┃   # ┃ Model                                     ┃ Params ┃ Quant  ┃ Published  ┃ Downloads ┃ Score ┃ License  ┃  
┡━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━╇━━━━━━━━╇━━━━━━━━━━━━╇━━━━━━━━━━━╇━━━━━━━╇━━━━━━━━━━┩  
│   1 │ Qwen/Qwen3-Next-80B-A3B-Instruct          │  81.3B │  Q6_K  │ 2025-09-09 │    336.2K │  94.9 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   2 │ openai/gpt-oss-120b                       │ 120.4B │  Q6_K  │ 2025-08-04 │      4.7M │  91.9 │ apache-… │  
│     │                                           │ (5.1B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   3 │ Qwen/Qwen3.6-27B                          │  27.8B │ Q3_K_M │ 2026-04-21 │      3.6M │  85.1 │ apache-… │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   4 │ Qwen/Qwen3-30B-A3B                        │  30.0B │  Q6_K  │ 2025-04-27 │      1.7M │  83.5 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   5 │ google/gemma-4-26B-A4B-it                 │  26.5B │  Q6_K  │ 2026-03-11 │      8.7M │  81.2 │ apache-… │  
│     │                                           │ (3.8B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   6 │ openai/gpt-oss-20b                        │  21.5B │  Q6_K  │ 2025-08-04 │      7.6M │  77.9 │ apache-… │  
│     │                                           │ (3.6B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   7 │ zai-org/GLM-4.7-Flash                     │  31.2B │  Q6_K  │ 2026-01-19 │    742.3K │  77.2 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   8 │ zai-org/GLM-4.5-Air                       │ 110.5B │  Q6_K  │ 2025-07-20 │    384.2K │  75.6 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   9 │ meta-llama/Llama-4-Scout-17B-16E-Instruct │ 109.0B │ Q5_K_M │ 2025-04-02 │    391.1K │  74.7 │ other    │  
│     │                                           │ (17.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│  10 │ Qwen/Qwen3-32B                            │  32.0B │ Q5_K_M │ 2025-04-27 │      7.0M │  73.9 │ apache-… │  
└─────┴───────────────────────────────────────────┴────────┴────────┴────────────┴───────────┴───────┴──────────┘  
  Confianza en la mejor opción: alta (benchmark directo, brecha +2.9)  
  Referencia del benchmark: snapshot curado de 2026-05; AA en vivo / LiveBench / Aider combinados cuando están accesibles.