- Herramienta web para comprobar qué modelos de IA puede ejecutar realmente una máquina local
- Usa la API WebGPU del navegador para estimar el rendimiento del hardware, por lo que los resultados pueden diferir de las especificaciones reales
- Muestra por modelo requisitos de memoria, velocidad de procesamiento de tokens, longitud de contexto y calificación de ejecución (S~F), entre otros datos
- Incluye modelos abiertos y comerciales destacados como Qwen, Llama, Gemma, Mistral, DeepSeek y GPT-OSS
- Permite evaluar rápidamente la viabilidad de ejecutar IA en local, por lo que puede servir como referencia útil para desarrolladores e investigadores
Descripción general del servicio
- CanIRun.ai es un sitio web para explorar modelos de IA que pueden ejecutarse en un entorno local
- Al abrir el sitio en su navegador, el usuario puede ver una lista de modelos ejecutables según el rendimiento de su sistema
- Los resultados se estiman mediante la API WebGPU y pueden diferir del rendimiento real del hardware
- Cada modelo se clasifica con una calificación de rendimiento (S~F), lo que permite entender de forma intuitiva su viabilidad y eficiencia de ejecución
Sistema de calificaciones de modelos
- Las calificaciones se dividen en S, A, B, C, D y F, donde S indica la ejecución más fluida
- Ejemplo: tomando como referencia una NVIDIA GeForce RTX 4070 12GB
- Qwen 3.5 9B y Llama 3.1 8B aparecen con S (90/100), por lo que pueden ejecutarse sin problemas
- Phi-4 14B aparece con A (70/100), es decir, “funciona bien”
- GPT-OSS 20B y Mistral Small 3.1 24B aparecen con D (34~39/100), es decir, “casi no se pueden ejecutar”
- Además, la mayoría de los modelos de 27B o más, como Gemma 3 27B y Qwen 3 32B, aparecen con F (0/100), es decir, “demasiado pesados”
Fuentes de datos y base técnica
- Los datos de los modelos se recopilan de llama.cpp, Ollama y LM Studio
- En la página de cada modelo se muestran en detalle datos como uso de memoria, longitud de contexto, velocidad de tokens y tipo de arquitectura (Dense/MoE)
Utilidad
- Ofrece una referencia práctica para desarrolladores, investigadores y usuarios de código abierto que quieren ejecutar modelos de IA directamente en un entorno local
- Ayuda a definir una selección adecuada de modelos y estrategias de despliegue al comparar el tamaño y la eficiencia del modelo frente al rendimiento de la GPU
- Destaca por funcionar desde el navegador, lo que permite probarlo al instante sin instalación
1 comentarios
Opiniones de Hacker News
En los últimos 2 años he dedicado muchísimo tiempo a experimentar con modelos locales
Los modelos pequeños, por ejemplo qwen3.5:9b, me parecieron muy adecuados para usar herramientas locales, extracción de información y aplicaciones embebidas
Para programación, herramientas en la nube como Google Antigravity, gemini-cli o Anthropic Claude resultaron más eficientes
Probé más de 100 horas configurando Emacs y Claude Code en local, pero no lo recomendaría al usuario común
En cambio, creo que el punto ideal está en dominar bien modelos locales embebidos, pequeños y prácticos
Aunque es pequeño, este modelo destaca por su capacidad de razonamiento multimodal y por la estabilidad de su esquema interno de pensamiento (CoT)
En particular, me impresionó la nueva estructura de intercambio entre VRAM y tamaño de contexto: puede procesar 100K tokens con 1.5GB de VRAM, así que incluso en una RTX 3060 permite conversaciones largas o procesamiento de documentos
Un chatbot de Discord que funcionaba bien con GPT-OSS-120B tenía en Qwen el problema de simular llamadas a herramientas sin ejecutarlas realmente
Al final separé el flujo: imágenes con Qwen y conversación general con GPT
Mientras exploraba repositorios de código en local, entre 30% y 50% de los resultados inventaban nombres de archivos o funciones incorrectos
Al validarlo con KimiK2, la mayoría estaba mal. Los modelos pequeños son buenos, pero hay que tener cuidado con la confiabilidad
Estoy experimentando con ollama en una M4 MacBook Pro (128GB RAM), pero todavía no encuentro un flujo satisfactorio
Quiero reducir mi dependencia de Claude Code o Codex
Este sitio parece estimar el rendimiento de los modelos según el ancho de banda de memoria y el tamaño del modelo
Pero en modelos MoE (como GPT-OSS-20B), no todos los parámetros se usan en cada token, así que pueden generar tokens más rápido en el mismo hardware
GPT-OSS-20B tiene 3.6B de parámetros activos, así que ofrece una velocidad parecida a la de un modelo denso de 3~4B, aunque en VRAM exige el tamaño completo del modelo de 20B
En inteligencia, se evalúa más o menos al nivel de un modelo denso de 8.5B
En el caso de los modelos MoE, el ancho de banda de memoria debería calcularse con base en los parámetros activos únicamente
Pero en uso real muchas veces basta con un contexto más pequeño
llama-fit-params de llama.cpp es útil en este tipo de situaciones
En modelos MoE como Mixtral 8x7B, solo se activan unos 12.9B de los 46.7B
Es decir, puedes obtener la calidad de un modelo grande y la velocidad de uno pequeño al mismo tiempo, aunque el modelo completo todavía tiene que permanecer cargado en memoria
documentación de canirun.ai
La velocidad de generación de tokens es parecida, pero la velocidad de prefill es más lenta en los MoE grandes
Además, si usas speculative decoding, un modelo denso pequeño puede ganar hasta 3 veces más velocidad, mientras que un MoE casi no obtiene beneficio
Intentos como TFA o llmfit están bien, pero me frustra que siga siendo difícil encontrar qué modelo da la mejor calidad en mi hardware
Por ejemplo, Qwen 3.5 27B Q6 @ 100k context funciona bien, pero en la lista de recomendaciones aparece primero el viejo Qwen 2.5
Para mí, con más de 50 tok/s es suficiente, así que estaría bien poder ordenar por calidad
Por ejemplo, si fuera “modelo abierto de alta calidad para programación con 8GB VRAM, 32GB RAM, t/s ≥ 30 y context ≥ 32K”, sería Qwen2.5-Coder-7B-Instruct
Si fuera “para investigación web con 24GB VRAM y 32GB RAM”, sería Qwen3-30B-A3B-Instruct-2507
Si fuera “para embeddings de RAG con 40GB VRAM y 128GB RAM”, sería Qwen3-Embedding-8B
O sea, hacen falta recomendaciones concretas de modelos según el hardware
Sin contar la electricidad, es casi gratis, pero la velocidad y la calidad son inferiores
Me pregunto si simplemente prefieren lo local por privacidad de datos
Cuando intentas optimizar la calidad y la asignación de recursos considerando varios dispositivos y modelos a la vez, la complejidad se dispara
Al final, por ahora estoy cediendo y simplemente eligiendo el modelo quant más grande
No tiene que ser exacta como una calculadora común, y como los objetivos del creador del modelo y del usuario son distintos, es difícil predecir el resultado deseado
Esto parece simplemente la versión web de llmfit
enlace a llmfit en GitHub
Incluso en mi M2 Max MBP (96GB RAM) dice que la mayoría de los LLM locales corren bien
Me sorprendió la cantidad de modelos que sí pueden ejecutarse en local
Como alternativa más ligera que Docker o Python, recomiendo el stack de Rust+Wasm
proyecto LlamaEdge
Reconoció bien mi RTX 6000 Pro Max-Q (96GB VRAM), pero en la UI aparece como 4GB
Además, solo muestra modelos a resolución completa y no considera modelos cuantizados
Hace falta mejorarlo
Falta una lista decente de GPUs móviles y no parece entender estrategias como memoria compartida con CPU o offloading de KV cache
Mi sistema aparece como Arc 750 (2GB de RAM compartida), pero en realidad es una RTX1000 Ada (6GB GDDR6)
Qwen3 Coder Next, Devstral Small y Qwen3.5 4B funcionan bastante bien casi en tiempo real
Los modelos más grandes son lentos, pero no hay problema de quedarse sin tokens
Es una idea genial
Pero soy usuario de M3 Ultra (256GB RAM) y las opciones solo llegan hasta 192GB
También estaría bien poder elegir un modelo y comparar rendimiento por procesador
Es la primera vez que me doy cuenta de que mi navegador entrega automáticamente información de hardware a los sitios web
El sitio cree que soy un iPhone 19 Pro, pero en realidad es un iPhone SE de 1.ª generación
Parece que detecta el hardware por ahí
Los navegadores centrados en privacidad entregan información aleatoria
Se ve raro que entre los chips M4 y M5 parezca no haber ninguna diferencia de rendimiento
Tampoco parece que el tamaño de la memoria afecte el rendimiento de modelos grandes
En general, parece estar basado en estimaciones y no en datos reales, así que debería mostrar una etiqueta de “ESTIMATE”
Referencia: video sobre el Apple M5 Max