whichllm - Encuentra el LLM local que realmente corre en tu hardware y ofrece el mejor rendimiento
(github.com/Andyyyy64)- Herramienta CLI que recomienda automáticamente LLM locales para el hardware del usuario con base en benchmarks medidos realmente, no en la cantidad de parámetros
- Detecta automáticamente GPU/CPU/RAM y presenta un ranking de los mejores modelos de HuggingFace que se ajustan al sistema
- Compatible con NVIDIA, AMD, Apple Silicon y también con sistemas solo CPU
- El objetivo principal no es elegir el modelo más grande que quepa en la VRAM, sino el mejor modelo real entre los que sí caben
- Ejemplo: al simular una RTX 4090, aunque quepa un modelo de 32B, recomienda en primer lugar un modelo de nueva generación de 27B (Qwen3.6-27B)
- Puntuación combinada de múltiples benchmarks: integra LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO y Open LLM Leaderboard para generar una puntuación de 0 a 100
- Reconocimiento de modelos recientes (recency-aware): reduce la puntuación de leaderboards antiguos siguiendo el linaje del modelo, para evitar que modelos de 2024 superen a modelos de la generación actual con puntajes de versiones viejas
- 5 niveles de clasificación de evidencia: etiqueta con
direct/variant/base_model/line_interp/self_reportedy luego aplica un descuento de confianza- También bloquea los auto-reportes falsos del uploader y la herencia entre familias cruzadas, donde forks pequeños toman prestada la gran puntuación de un modelo base
- Si la cantidad de parámetros difiere en más del doble respecto al miembro dominante de la familia, se rechaza la herencia
- Estimación de VRAM/velocidad con conciencia de arquitectura: para VRAM usa pesos + caché KV de GQA + activaciones + overhead; para velocidad refleja límites por ancho de banda, separación entre MoE activo vs total y descarga parcial en memoria unificada vs PCIe
whichllm runpermite un flujo de trabajo de un solo comando para descargar el modelo y ejecutar chat de inmediato- Con
uvcrea un entorno aislado, instala dependencias, descarga el modelo y automatiza hasta el chat interactivo - Compatible con todos los formatos: GGUF / AWQ / GPTQ / FP16 / BF16
- Con
- Comandos para planificación de hardware
whichllm --gpu "RTX 5090"- verificar antes de comprar mediante simulación de una GPU arbitrariawhichllm plan "llama 3 70b"- búsqueda inversa de la GPU necesaria para un modelo específicowhichllm upgrade "RTX 4090" "RTX 5090" "H100"- compara la máquina actual con GPUs candidatas
- Integración con Ollama: permite construir pipelines con formatos como
whichllm --top 1 --json | jq -r '.models[0].model_id' - Salida de snippets de código: con
whichllm snippet "qwen 7b"entrega código Python listo para copiar y pegar, desde la llamada allama_cpp.Llama.from_pretrainedhasta la finalización del chat - Licencia MIT
3 comentarios
Yo recomiendo estos 5. Veo que 3 son de Qwen.
Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen/Qwen3.6-27B
deepseek-ai/DeepSeek-V4-Flash
openai/gpt-oss-120b
Qwen/Qwen3-235B-A22B
Yo estaba usando el sitio https://www.canirun.ai/, pero tendré que probar este también.