CanIRun.ai — ¿Puedo ejecutar modelos de IA en mi computadora?

(canirun.ai)

40 puntos por GN⁺ 2026-03-14 | 1 comentarios | Compartir por WhatsApp

Herramienta web para comprobar qué modelos de IA puede ejecutar realmente una máquina local
Usa la API WebGPU del navegador para estimar el rendimiento del hardware, por lo que los resultados pueden diferir de las especificaciones reales
Muestra por modelo requisitos de memoria, velocidad de procesamiento de tokens, longitud de contexto y calificación de ejecución (S~F), entre otros datos
Incluye modelos abiertos y comerciales destacados como Qwen, Llama, Gemma, Mistral, DeepSeek y GPT-OSS
Permite evaluar rápidamente la viabilidad de ejecutar IA en local, por lo que puede servir como referencia útil para desarrolladores e investigadores

Descripción general del servicio

CanIRun.ai es un sitio web para explorar modelos de IA que pueden ejecutarse en un entorno local
- Al abrir el sitio en su navegador, el usuario puede ver una lista de modelos ejecutables según el rendimiento de su sistema
- Los resultados se estiman mediante la API WebGPU y pueden diferir del rendimiento real del hardware
Cada modelo se clasifica con una calificación de rendimiento (S~F), lo que permite entender de forma intuitiva su viabilidad y eficiencia de ejecución

Sistema de calificaciones de modelos

Las calificaciones se dividen en S, A, B, C, D y F, donde S indica la ejecución más fluida
- Ejemplo: tomando como referencia una NVIDIA GeForce RTX 4070 12GB
- Qwen 3.5 9B y Llama 3.1 8B aparecen con S (90/100), por lo que pueden ejecutarse sin problemas
- Phi-4 14B aparece con A (70/100), es decir, “funciona bien”
- GPT-OSS 20B y Mistral Small 3.1 24B aparecen con D (34~39/100), es decir, “casi no se pueden ejecutar”
- Además, la mayoría de los modelos de 27B o más, como Gemma 3 27B y Qwen 3 32B, aparecen con F (0/100), es decir, “demasiado pesados”

Fuentes de datos y base técnica

Los datos de los modelos se recopilan de llama.cpp, Ollama y LM Studio
En la página de cada modelo se muestran en detalle datos como uso de memoria, longitud de contexto, velocidad de tokens y tipo de arquitectura (Dense/MoE)

Utilidad

Ofrece una referencia práctica para desarrolladores, investigadores y usuarios de código abierto que quieren ejecutar modelos de IA directamente en un entorno local
Ayuda a definir una selección adecuada de modelos y estrategias de despliegue al comparar el tamaño y la eficiencia del modelo frente al rendimiento de la GPU
Destaca por funcionar desde el navegador, lo que permite probarlo al instante sin instalación

1 comentarios

GN⁺ 2026-03-14

Opiniones de Hacker News

En los últimos 2 años he dedicado muchísimo tiempo a experimentar con modelos locales
Los modelos pequeños, por ejemplo qwen3.5:9b, me parecieron muy adecuados para usar herramientas locales, extracción de información y aplicaciones embebidas
Para programación, herramientas en la nube como Google Antigravity, gemini-cli o Anthropic Claude resultaron más eficientes
Probé más de 100 horas configurando Emacs y Claude Code en local, pero no lo recomendaría al usuario común
En cambio, creo que el punto ideal está en dominar bien modelos locales embebidos, pequeños y prácticos
- Recomiendo mucho qwen3.5:9b
  Aunque es pequeño, este modelo destaca por su capacidad de razonamiento multimodal y por la estabilidad de su esquema interno de pensamiento (CoT)
  En particular, me impresionó la nueva estructura de intercambio entre VRAM y tamaño de contexto: puede procesar 100K tokens con 1.5GB de VRAM, así que incluso en una RTX 3060 permite conversaciones largas o procesamiento de documentos
- Yo probé qwen3.5 para herramientas locales y los resultados no fueron buenos
  Un chatbot de Discord que funcionaba bien con GPT-OSS-120B tenía en Qwen el problema de simular llamadas a herramientas sin ejecutarlas realmente
  Al final separé el flujo: imágenes con Qwen y conversación general con GPT
- Probé qwen3.5 9b y la tasa de alucinaciones (hallucination) fue alta
  Mientras exploraba repositorios de código en local, entre 30% y 50% de los resultados inventaban nombres de archivos o funciones incorrectos
  Al validarlo con KimiK2, la mayoría estaba mal. Los modelos pequeños son buenos, pero hay que tener cuidado con la confiabilidad
- Me da curiosidad cómo integran modelos pequeños en flujos de trabajo reales
  Estoy experimentando con ollama en una M4 MacBook Pro (128GB RAM), pero todavía no encuentro un flujo satisfactorio
- Me pregunto si funciona bien la combinación de usar un modelo grande para planificación y un modelo local pequeño para escribir código
  Quiero reducir mi dependencia de Claude Code o Codex
Este sitio parece estimar el rendimiento de los modelos según el ancho de banda de memoria y el tamaño del modelo
Pero en modelos MoE (como GPT-OSS-20B), no todos los parámetros se usan en cada token, así que pueden generar tokens más rápido en el mismo hardware
GPT-OSS-20B tiene 3.6B de parámetros activos, así que ofrece una velocidad parecida a la de un modelo denso de 3~4B, aunque en VRAM exige el tamaño completo del modelo de 20B
En inteligencia, se evalúa más o menos al nivel de un modelo denso de 8.5B
- De hecho, en mi laptop Strix Halo, el rendimiento de los modelos que probé fue mucho mejor de lo que predecía
  En el caso de los modelos MoE, el ancho de banda de memoria debería calcularse con base en los parámetros activos únicamente
- Parece que este cálculo se basa en el tamaño total del contexto
  Pero en uso real muchas veces basta con un contexto más pequeño
  llama-fit-params de llama.cpp es útil en este tipo de situaciones
- La documentación también lo explica con claridad
  En modelos MoE como Mixtral 8x7B, solo se activan unos 12.9B de los 46.7B
  Es decir, puedes obtener la calidad de un modelo grande y la velocidad de uno pequeño al mismo tiempo, aunque el modelo completo todavía tiene que permanecer cargado en memoria
  documentación de canirun.ai
- Aun así, hay algo de inexactitud
  La velocidad de generación de tokens es parecida, pero la velocidad de prefill es más lenta en los MoE grandes
  Además, si usas speculative decoding, un modelo denso pequeño puede ganar hasta 3 veces más velocidad, mientras que un MoE casi no obtiene beneficio
Intentos como TFA o llmfit están bien, pero me frustra que siga siendo difícil encontrar qué modelo da la mejor calidad en mi hardware
Por ejemplo, Qwen 3.5 27B Q6 @ 100k context funciona bien, pero en la lista de recomendaciones aparece primero el viejo Qwen 2.5
Para mí, con más de 50 tok/s es suficiente, así que estaría bien poder ordenar por calidad
- La pregunta es demasiado amplia
  Por ejemplo, si fuera “modelo abierto de alta calidad para programación con 8GB VRAM, 32GB RAM, t/s ≥ 30 y context ≥ 32K”, sería Qwen2.5-Coder-7B-Instruct
  Si fuera “para investigación web con 24GB VRAM y 32GB RAM”, sería Qwen3-30B-A3B-Instruct-2507
  Si fuera “para embeddings de RAG con 40GB VRAM y 128GB RAM”, sería Qwen3-Embedding-8B
  O sea, hacen falta recomendaciones concretas de modelos según el hardware
- Me interesa la eficiencia costo-beneficio de ejecutar en local ($/Mtok)
  Sin contar la electricidad, es casi gratis, pero la velocidad y la calidad son inferiores
  Me pregunto si simplemente prefieren lo local por privacidad de datos
- Este problema es realmente difícil, y yo también llevo más de 1 año investigándolo
  Cuando intentas optimizar la calidad y la asignación de recursos considerando varios dispositivos y modelos a la vez, la complejidad se dispara
  Al final, por ahora estoy cediendo y simplemente eligiendo el modelo quant más grande
- Al final, un LLM no deja de ser una calculadora especializada
  No tiene que ser exacta como una calculadora común, y como los objetivos del creador del modelo y del usuario son distintos, es difícil predecir el resultado deseado
Esto parece simplemente la versión web de llmfit
enlace a llmfit en GitHub
- Sí. Pero llmfit detecta automáticamente los recursos del sistema, así que es mucho más útil
- Gracias por compartir el enlace. De hecho es bastante más útil que el sitio web
  Incluso en mi M2 Max MBP (96GB RAM) dice que la mayoría de los LLM locales corren bien
  Me sorprendió la cantidad de modelos que sí pueden ejecutarse en local
Como alternativa más ligera que Docker o Python, recomiendo el stack de Rust+Wasm
proyecto LlamaEdge
Reconoció bien mi RTX 6000 Pro Max-Q (96GB VRAM), pero en la UI aparece como 4GB
Además, solo muestra modelos a resolución completa y no considera modelos cuantizados
Hace falta mejorarlo
Falta una lista decente de GPUs móviles y no parece entender estrategias como memoria compartida con CPU o offloading de KV cache
Mi sistema aparece como Arc 750 (2GB de RAM compartida), pero en realidad es una RTX1000 Ada (6GB GDDR6)
Qwen3 Coder Next, Devstral Small y Qwen3.5 4B funcionan bastante bien casi en tiempo real
Los modelos más grandes son lentos, pero no hay problema de quedarse sin tokens
Es una idea genial
Pero soy usuario de M3 Ultra (256GB RAM) y las opciones solo llegan hasta 192GB
También estaría bien poder elegir un modelo y comparar rendimiento por procesador
- Lástima que Apple descontinuó el modelo de 512GiB
Es la primera vez que me doy cuenta de que mi navegador entrega automáticamente información de hardware a los sitios web
- En realidad no es completamente exacto
  El sitio cree que soy un iPhone 19 Pro, pero en realidad es un iPhone SE de 1.ª generación
- En la versión reciente de Librewolf pide permiso para acceder a WebGL
  Parece que detecta el hardware por ahí
- Este tipo de información se usa mucho para fingerprinting del navegador
  Los navegadores centrados en privacidad entregan información aleatoria
- Creo que las aerolíneas también deben fijar precios distintos según el sistema operativo usando este mismo método
Se ve raro que entre los chips M4 y M5 parezca no haber ninguna diferencia de rendimiento
Tampoco parece que el tamaño de la memoria afecte el rendimiento de modelos grandes
En general, parece estar basado en estimaciones y no en datos reales, así que debería mostrar una etiqueta de “ESTIMATE”
- En pruebas iniciales reales, el M5 Max sí mostró mejoras de rendimiento
  Referencia: video sobre el Apple M5 Max

CanIRun.ai — ¿Puedo ejecutar modelos de IA en mi computadora?

Descripción general del servicio

Sistema de calificaciones de modelos

Fuentes de datos y base técnica

Utilidad

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News