40 puntos por GN⁺ 2026-03-14 | 1 comentarios | Compartir por WhatsApp
  • Herramienta web para comprobar qué modelos de IA puede ejecutar realmente una máquina local
  • Usa la API WebGPU del navegador para estimar el rendimiento del hardware, por lo que los resultados pueden diferir de las especificaciones reales
  • Muestra por modelo requisitos de memoria, velocidad de procesamiento de tokens, longitud de contexto y calificación de ejecución (S~F), entre otros datos
  • Incluye modelos abiertos y comerciales destacados como Qwen, Llama, Gemma, Mistral, DeepSeek y GPT-OSS
  • Permite evaluar rápidamente la viabilidad de ejecutar IA en local, por lo que puede servir como referencia útil para desarrolladores e investigadores

Descripción general del servicio

  • CanIRun.ai es un sitio web para explorar modelos de IA que pueden ejecutarse en un entorno local
    • Al abrir el sitio en su navegador, el usuario puede ver una lista de modelos ejecutables según el rendimiento de su sistema
    • Los resultados se estiman mediante la API WebGPU y pueden diferir del rendimiento real del hardware
  • Cada modelo se clasifica con una calificación de rendimiento (S~F), lo que permite entender de forma intuitiva su viabilidad y eficiencia de ejecución

Sistema de calificaciones de modelos

  • Las calificaciones se dividen en S, A, B, C, D y F, donde S indica la ejecución más fluida
    • Ejemplo: tomando como referencia una NVIDIA GeForce RTX 4070 12GB
    • Qwen 3.5 9B y Llama 3.1 8B aparecen con S (90/100), por lo que pueden ejecutarse sin problemas
    • Phi-4 14B aparece con A (70/100), es decir, “funciona bien”
    • GPT-OSS 20B y Mistral Small 3.1 24B aparecen con D (34~39/100), es decir, “casi no se pueden ejecutar”
    • Además, la mayoría de los modelos de 27B o más, como Gemma 3 27B y Qwen 3 32B, aparecen con F (0/100), es decir, “demasiado pesados”

Fuentes de datos y base técnica

  • Los datos de los modelos se recopilan de llama.cpp, Ollama y LM Studio
  • En la página de cada modelo se muestran en detalle datos como uso de memoria, longitud de contexto, velocidad de tokens y tipo de arquitectura (Dense/MoE)

Utilidad

  • Ofrece una referencia práctica para desarrolladores, investigadores y usuarios de código abierto que quieren ejecutar modelos de IA directamente en un entorno local
  • Ayuda a definir una selección adecuada de modelos y estrategias de despliegue al comparar el tamaño y la eficiencia del modelo frente al rendimiento de la GPU
  • Destaca por funcionar desde el navegador, lo que permite probarlo al instante sin instalación

1 comentarios

 
GN⁺ 2026-03-14
Opiniones de Hacker News
  • En los últimos 2 años he dedicado muchísimo tiempo a experimentar con modelos locales
    Los modelos pequeños, por ejemplo qwen3.5:9b, me parecieron muy adecuados para usar herramientas locales, extracción de información y aplicaciones embebidas
    Para programación, herramientas en la nube como Google Antigravity, gemini-cli o Anthropic Claude resultaron más eficientes
    Probé más de 100 horas configurando Emacs y Claude Code en local, pero no lo recomendaría al usuario común
    En cambio, creo que el punto ideal está en dominar bien modelos locales embebidos, pequeños y prácticos

    • Recomiendo mucho qwen3.5:9b
      Aunque es pequeño, este modelo destaca por su capacidad de razonamiento multimodal y por la estabilidad de su esquema interno de pensamiento (CoT)
      En particular, me impresionó la nueva estructura de intercambio entre VRAM y tamaño de contexto: puede procesar 100K tokens con 1.5GB de VRAM, así que incluso en una RTX 3060 permite conversaciones largas o procesamiento de documentos
    • Yo probé qwen3.5 para herramientas locales y los resultados no fueron buenos
      Un chatbot de Discord que funcionaba bien con GPT-OSS-120B tenía en Qwen el problema de simular llamadas a herramientas sin ejecutarlas realmente
      Al final separé el flujo: imágenes con Qwen y conversación general con GPT
    • Probé qwen3.5 9b y la tasa de alucinaciones (hallucination) fue alta
      Mientras exploraba repositorios de código en local, entre 30% y 50% de los resultados inventaban nombres de archivos o funciones incorrectos
      Al validarlo con KimiK2, la mayoría estaba mal. Los modelos pequeños son buenos, pero hay que tener cuidado con la confiabilidad
    • Me da curiosidad cómo integran modelos pequeños en flujos de trabajo reales
      Estoy experimentando con ollama en una M4 MacBook Pro (128GB RAM), pero todavía no encuentro un flujo satisfactorio
    • Me pregunto si funciona bien la combinación de usar un modelo grande para planificación y un modelo local pequeño para escribir código
      Quiero reducir mi dependencia de Claude Code o Codex
  • Este sitio parece estimar el rendimiento de los modelos según el ancho de banda de memoria y el tamaño del modelo
    Pero en modelos MoE (como GPT-OSS-20B), no todos los parámetros se usan en cada token, así que pueden generar tokens más rápido en el mismo hardware
    GPT-OSS-20B tiene 3.6B de parámetros activos, así que ofrece una velocidad parecida a la de un modelo denso de 3~4B, aunque en VRAM exige el tamaño completo del modelo de 20B
    En inteligencia, se evalúa más o menos al nivel de un modelo denso de 8.5B

    • De hecho, en mi laptop Strix Halo, el rendimiento de los modelos que probé fue mucho mejor de lo que predecía
      En el caso de los modelos MoE, el ancho de banda de memoria debería calcularse con base en los parámetros activos únicamente
    • Parece que este cálculo se basa en el tamaño total del contexto
      Pero en uso real muchas veces basta con un contexto más pequeño
      llama-fit-params de llama.cpp es útil en este tipo de situaciones
    • La documentación también lo explica con claridad
      En modelos MoE como Mixtral 8x7B, solo se activan unos 12.9B de los 46.7B
      Es decir, puedes obtener la calidad de un modelo grande y la velocidad de uno pequeño al mismo tiempo, aunque el modelo completo todavía tiene que permanecer cargado en memoria
      documentación de canirun.ai
    • Aun así, hay algo de inexactitud
      La velocidad de generación de tokens es parecida, pero la velocidad de prefill es más lenta en los MoE grandes
      Además, si usas speculative decoding, un modelo denso pequeño puede ganar hasta 3 veces más velocidad, mientras que un MoE casi no obtiene beneficio
  • Intentos como TFA o llmfit están bien, pero me frustra que siga siendo difícil encontrar qué modelo da la mejor calidad en mi hardware
    Por ejemplo, Qwen 3.5 27B Q6 @ 100k context funciona bien, pero en la lista de recomendaciones aparece primero el viejo Qwen 2.5
    Para mí, con más de 50 tok/s es suficiente, así que estaría bien poder ordenar por calidad

    • La pregunta es demasiado amplia
      Por ejemplo, si fuera “modelo abierto de alta calidad para programación con 8GB VRAM, 32GB RAM, t/s ≥ 30 y context ≥ 32K”, sería Qwen2.5-Coder-7B-Instruct
      Si fuera “para investigación web con 24GB VRAM y 32GB RAM”, sería Qwen3-30B-A3B-Instruct-2507
      Si fuera “para embeddings de RAG con 40GB VRAM y 128GB RAM”, sería Qwen3-Embedding-8B
      O sea, hacen falta recomendaciones concretas de modelos según el hardware
    • Me interesa la eficiencia costo-beneficio de ejecutar en local ($/Mtok)
      Sin contar la electricidad, es casi gratis, pero la velocidad y la calidad son inferiores
      Me pregunto si simplemente prefieren lo local por privacidad de datos
    • Este problema es realmente difícil, y yo también llevo más de 1 año investigándolo
      Cuando intentas optimizar la calidad y la asignación de recursos considerando varios dispositivos y modelos a la vez, la complejidad se dispara
      Al final, por ahora estoy cediendo y simplemente eligiendo el modelo quant más grande
    • Al final, un LLM no deja de ser una calculadora especializada
      No tiene que ser exacta como una calculadora común, y como los objetivos del creador del modelo y del usuario son distintos, es difícil predecir el resultado deseado
  • Esto parece simplemente la versión web de llmfit
    enlace a llmfit en GitHub

    • Sí. Pero llmfit detecta automáticamente los recursos del sistema, así que es mucho más útil
    • Gracias por compartir el enlace. De hecho es bastante más útil que el sitio web
      Incluso en mi M2 Max MBP (96GB RAM) dice que la mayoría de los LLM locales corren bien
      Me sorprendió la cantidad de modelos que sí pueden ejecutarse en local
  • Como alternativa más ligera que Docker o Python, recomiendo el stack de Rust+Wasm
    proyecto LlamaEdge

  • Reconoció bien mi RTX 6000 Pro Max-Q (96GB VRAM), pero en la UI aparece como 4GB
    Además, solo muestra modelos a resolución completa y no considera modelos cuantizados
    Hace falta mejorarlo

  • Falta una lista decente de GPUs móviles y no parece entender estrategias como memoria compartida con CPU o offloading de KV cache
    Mi sistema aparece como Arc 750 (2GB de RAM compartida), pero en realidad es una RTX1000 Ada (6GB GDDR6)
    Qwen3 Coder Next, Devstral Small y Qwen3.5 4B funcionan bastante bien casi en tiempo real
    Los modelos más grandes son lentos, pero no hay problema de quedarse sin tokens

  • Es una idea genial
    Pero soy usuario de M3 Ultra (256GB RAM) y las opciones solo llegan hasta 192GB
    También estaría bien poder elegir un modelo y comparar rendimiento por procesador

    • Lástima que Apple descontinuó el modelo de 512GiB
  • Es la primera vez que me doy cuenta de que mi navegador entrega automáticamente información de hardware a los sitios web

    • En realidad no es completamente exacto
      El sitio cree que soy un iPhone 19 Pro, pero en realidad es un iPhone SE de 1.ª generación
    • En la versión reciente de Librewolf pide permiso para acceder a WebGL
      Parece que detecta el hardware por ahí
    • Este tipo de información se usa mucho para fingerprinting del navegador
      Los navegadores centrados en privacidad entregan información aleatoria
    • Creo que las aerolíneas también deben fijar precios distintos según el sistema operativo usando este mismo método
  • Se ve raro que entre los chips M4 y M5 parezca no haber ninguna diferencia de rendimiento
    Tampoco parece que el tamaño de la memoria afecte el rendimiento de modelos grandes
    En general, parece estar basado en estimaciones y no en datos reales, así que debería mostrar una etiqueta de “ESTIMATE”