Ask HN: ¿Cuál es el mejor LLM que se puede usar en hardware de consumo?

(news.ycombinator.com)

13 puntos por GN⁺ 2025-06-01 | 1 comentarios | Compartir por WhatsApp

Busco un modelo que permita conversación básica en una 5060ti + 16GB de VRAM. Si es posible, que sea rápido y funcione casi en tiempo real

Resumen de respuestas

Varios modelos de 8B~14B y 30B parámetros pueden funcionar de forma eficiente con 16GB de VRAM; entre los más recomendados están Qwen3, DeepSeek-R1, Mistral y Gemma3
Ejecutar LLMs localmente tiene ventajas en rendimiento, costo y privacidad, pero para encontrar el mejor ajuste real hace falta experimentación y tuning individual
Se comparten muchos consejos para optimizar el hardware, como el tamaño del archivo del modelo, el nivel de cuantización (Q4~Q6, etc.) y la carga distribuida entre GPU y RAM
Existen varias herramientas como Ollama, LM Studio, llama.cpp y OpenWebUI, cada una con pros y contras en accesibilidad, flexibilidad y facilidad de gestión de modelos
Las comunidades en línea (por ejemplo, Reddit LocalLLaMA) son útiles para obtener noticias recientes y consejos prácticos, aunque conviene tener cuidado con exageraciones o desinformación

Recomendaciones principales de LLM y consejos de uso

Qwen3: hay modelos de distintos tamaños como 8B/14B/30B; los de 8B~14B se pueden usar cómodamente con 16GB de VRAM. Tienen muy buen rendimiento de reasoning, y gracias a la arquitectura MoE (mezcla de expertos) algunos modelos grandes también pueden ejecutarse usando offloading a RAM
DeepSeek-R1-0528-Qwen3-8B: está bien valorado como uno de los modelos 8B más recientes por su rendimiento de reasoning. En 8B, con cuantización Q4~Q6, encaja en unos 4GB~8GB de VRAM
Mistral Small 3.1: se recomiendan las versiones de 14B o 24B; ofrece buena calidad de conversación y relativamente menos censorship. Además, tiene capacidad de entrada de imágenes
Gemma3: modelo de Google con fortalezas en conversaciones intuitivas. Sin embargo, se comenta que tiene una fuerte inclinación tipo HR y muchos disclaimers. También alucina con relativa frecuencia
Devstral: modelo grande basado en Mistral. Por encima de 30B puede volverse lento en 16GB de VRAM
Dolphin, Abliterated: versiones con menos censorship, útiles en situaciones fuera de lo rutinario

Optimización de hardware y entorno de ejecución

Configuración de cuantización: con Q4, Q5, Q6, etc., mientras menor sea la cuantización, menos VRAM se usa (Q4 ≒ parámetros/2, Q6 ≒ parámetros*0.75). Aun así, hay que considerar la posible pérdida de calidad
Cálculo de VRAM necesaria: por ejemplo, 8B Q4 requiere 4GB, 14B Q4 requiere 7GB y 30B Q4 necesita alrededor de 15GB de VRAM
Offloading a RAM: si falta VRAM, algunas capas pueden enviarse a memoria de CPU. Eso sí, hay que aceptar una caída de velocidad
Cuantización de KV cache: al ampliar la context window, se recomienda comprimir la caché con algo como q4

Herramientas y frontends

llama.cpp: funciona rápido y con flexibilidad en varias plataformas. Soporta API REST y un frontend sencillo en React. Puede cargar modelos repartiendo entre VRAM y RAM
Ollama: instalación sencilla y cambio fácil entre modelos, además de buena integración con frontends GUI. Sin embargo, tiene límites en soporte de modelos recientes y tamaño de contexto
LM Studio: cómodo para gestionar modelos en entorno GUI. Incluye una función para predecir si un modelo cabe en la VRAM disponible
OpenWebUI: solo frontend. Requiere un backend como llama.cpp o vllm. Permite gestionar y probar varios modelos al mismo tiempo
KoboldCPP, SillyTavern: frontends especializados para roleplay, storytelling y juegos

Comunidad e información práctica

Reddit LocalLLaMA, HuggingFace, Discord: ahí se comparten activamente novedades de modelos, guías de uso, benchmarks y consejos de configuración. Aun así, hay que cuidarse de la desinformación y del groupthink
Sitios de benchmarks: livebench.ai, aider.chat y otros ofrecen puntajes y rankings actualizados por modelo

Objetivos de uso y experiencia real

Privacidad y ahorro de costos: para datos sensibles, temas de privacidad o uso repetitivo, los modelos locales suelen ser más convenientes que la nube
Libertad para experimentar y ajustar: ofrecen más flexibilidad que los modelos por API en fine-tuning por dominio, estrategias de sampling y prompt engineering
Casos de uso: hay ejemplos prácticos como RAG (generación aumentada por búsqueda), integración con bases de datos locales, automatización con agentes y asistentes offline

Preguntas y consejos frecuentes

Cálculo del tamaño del modelo: número de parámetros × bits (quantization) / 8 = requerimiento aproximado de VRAM (GB). También hay que considerar el overhead y la context window
Características por modelo: Qwen3 para reasoning/código, Gemma3 para intuición/conversación, Mistral con menos censorship, y Dolphin/abliterated como versiones uncensored, entre otros
Comparación de rendimiento: se recomienda hacer benchmarks y pruebas personalizadas para encontrar el modelo que mejor se adapte a cada caso

Conclusión y consejo práctico

No existe un "mejor modelo" universal; lo más recomendable es probar distintos modelos recientes de 8B~14B como Qwen3, Mistral y Gemma3 según el hardware, el uso y las preferencias
Como el tamaño del archivo del modelo, la cuantización y el tamaño de contexto son muy importantes, lo más efectivo es probar varios modelos directamente y apoyarse en consejos de la comunidad

1 comentarios

GN⁺ 2025-06-01

Opinión de Hacker News

Si quieres ejecutar un LLM en local, puedes encontrar mucha ayuda en la comunidad localllama de reddit
No existe un modelo LLM que pueda llamarse específicamente el "mejor"; como cada modelo tiene ventajas y desventajas, hay que probar varios por cuenta propia
Por ejemplo, hoy se lanzó el modelo DeepSeek-R1-0528-Qwen3-8B, y muestra el mejor rendimiento de razonamiento lógico en el tamaño 8B
Y la serie Qwen3 también salió hace poco, ofreciendo un enfoque híbrido, buen rendimiento y varios tamaños para distintos tipos de hardware
Qwen3-30B-A3B puede correr a una velocidad aceptable incluso en CPU
Incluso el mini modelo de 0.6B es sorprendentemente consistente
- Al usar llama-cpp, he visto casos donde descargar algunos tensores al CPU permite mantener buen rendimiento
  Normalmente en llama-cpp se especifica la cantidad de capas que se suben al GPU (-ngl), pero si no se trata de tensores muy pesados en cómputo, moverlos al CPU puede ahorrar espacio en GPU sin perder velocidad
  También leí un paper sobre cargar solo las neuronas "hot" desde el CPU (enlace a arxiv), y me hace pensar que en el futuro podremos aprovechar la IA en casa de formas muy potentes
- Una advertencia para quien no esté acostumbrado a usar Reddit
  En Reddit, incluyendo LocalLlama, hay mucha desinformación y falsedades populares, y la proporción de upvotes/downvotes no garantiza la exactitud de la información
  Un comentario correcto pero explicado de forma aburrida puede volverse impopular, mientras que explicaciones incorrectas pero divertidas, emocionales o alineadas con la opinión del grupo suelen ganar popularidad
  Quienes llevamos mucho tiempo navegando por la web más o menos sabemos filtrar eso, pero si alguien llega por primera vez a espacios con pensamiento grupal tan fuerte, conviene tomar la información con cautela
- Hoy en día casi cualquier modelo cumple con lo básico, así que al final se siente más como encontrar una "personalidad de modelo" que encaje con tus gustos
  El OP simplemente debería ir descargándolos y probándolos uno por uno
  Con 16GB de memoria, usando llama.cpp con offload parcial a DDR5 puedes correr modelos de hasta 30B (incluso modelos dense) a una velocidad "razonable"; con offload de tensores, todavía mejor
  Qwen tiene algunos puntos flojos como modelo conversacional
  Mistral Nemo, Small y la serie Llama 3.X siguen siendo excelentes opciones a día de hoy
  Gemma 3s es bueno, aunque algo impredecible
  Si quieres algo del nivel de GPT-4 en casa, recomiendo QwQ
  Y seguro hay más modelos buenos que se me están olvidando
- Me pregunto si hay algún modelo recomendable para usar con herramientas de programación como aider o roo
  Mi experiencia es que encontrar un modelo que use herramientas bien por sí solo es bastante difícil
- DeepSeek-R1-0528-Qwen3-8B es un modelo creado destilando el chain-of-thought de DeepSeek-R1-0528 en Qwen3-8B Base; en AIME 2024 rinde más de un 10% por encima de Qwen3-8B y alcanza un nivel similar a Qwen3-235B-thinking
  Es uno de esos casos que vuelve a sorprender por lo efectiva que puede ser la distillation
  Probablemente por eso varias empresas y laboratorios de IA están ocultando el chain-of-thought (COT) últimamente (referencia)
Me da curiosidad para qué usa más la gente los LLM locales
A menos que el hardware sea muy bueno, es difícil igualar modelos propietarios como Gemini o Claude, así que aunque estos modelos pequeños sin duda parecen útiles, me interesa saber casos de uso concretos
- La incomodidad de entregar datos a terceros
  Hay mucha gente que simplemente no quiere enviar sus prompts o preguntas a servicios externos
- Yo primero pruebo un modelo local para la mayoría de mis prompts, y para mi sorpresa en más de la mitad de los casos obtengo resultados suficientemente buenos
  Cada vez que logro no usar un servicio en la nube me da cierta satisfacción
- Creo que el futuro de los LLM locales será decidir con rapidez qué tarea procesar y cómo delegarla de forma igual de rápida
  Algo que sepa distinguir si una tarea puede resolverse con un sistema local como MCP, si requiere llamadas a APIs del sistema como calendario o correo, o si conviene enviarla al mejor modelo en la nube
  Me imagino algo como una Siri que realmente funcione bien
- Ahora mismo estoy experimentando con un agente local de programación que armé yo mismo sobre Devstral
  Lo que me gusta más frente a Codex es que tiene acceso completo al hardware, así que puede levantar VMs, hacer solicitudes de red y realizar tareas que Codex no puede
  Además, desde la configuración inicial hasta la generación de parches, es mucho más rápido que Codex
  Claro, todavía no alcanza el nivel de resultados de Codex, pero Devstral sirve bien para cambios pequeños o refactors, y espero que conforme evolucione el software pueda encargarse también de cambios más grandes
- Yo, por principio, evito la nube siempre que puedo
  Por ejemplo, hace poco salió la noticia de que OpenAI incluso está trabajando en una especie de red social para compartir conversaciones de ChatGPT
  Al correr todo en local también entiendes mejor cómo funciona por dentro la IA, lo que además aumenta tu valor en el mercado
  También te da libertad para experimentar con backends de LLM (búsqueda web, agentes, etc.), no tienes costos de nube y además yo ya tenía una desktop gamer desde que salió LLaMa por primera vez
También vale la pena seguirle la pista a LocalScore, un proyecto de Mozilla
Es un servicio que compara y analiza qué tan bien corren distintos modelos en varios tipos de hardware
Coincido con la recomendación del subreddit LocalLLama
No es que elija por ti el "mejor modelo", pero ayuda muchísimo para hacer preguntas, encontrar guías, enterarte de novedades y herramientas, y comparar modelos distintos
Al final se trata de que tú mismo pruebes varios modelos y ajustes parámetros hasta encontrar el que mejor se adapta a tu objetivo
Si eres usuario de Hacker News, quizá también valga la pena considerar saltarte Ollama o LMStudio
Puede costar más acceder a modelos recientes, y muchas veces terminas eligiendo solo entre los modelos que ellos ya probaron
Además, se pierde un poco la diversión de "abrir la tapa" y ver cómo funciona por dentro
Solo con llamacpp ya tienes soporte para la mayoría de los modelos recientes, y si hace falta se actualiza rápido
Prefiero descargar modelos desde huggingface y usar formato GGUF (cuantización baja para ahorrar memoria)
Viendo el tamaño del archivo GGUF puedes darte una idea aproximada de si cabrá en VRAM (por ejemplo: un GGUF de 24GB es demasiado para 16GB; uno de 12GB sí cabe, aunque si subes el context también sube el uso de RAM)
También hay que prestar atención a la ventana de contexto: muchos modelos viejos son de 8K de contexto, y aunque los configures a 32K no siempre mejora mucho
llamacpp ofrece binarios para Linux, Windows y macOS, o puedes compilarlo tú mismo, y también permite dividir el modelo entre VRAM y RAM
Incluye un frontend React sencillo (llamacpp-server) y también una API REST similar a la de OpenAI
Por eso se integra con varios frontends como oobabooga (textgeneration webui)
Si llamacpp te parece muy rústico, Koboldcpp puede ser una opción de backend a considerar (aunque por dentro sigue basado en llamacpp)
- Una ventaja atractiva de Ollama es que puede descargar directamente cualquier GGUF desde HuggingFace y correrlo con algo como ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:Q8_0
- Una de las ventajas de Ollama es que permite cargar y descargar modelos en GPU fácilmente, así que en frontends como librechat u openwebui puedes cambiar de modelo desde un simple menú desplegable
  Quiero destacar lo cómodo que es poder cambiar de modelo sin tocar la línea de comandos
- Ollama convierte tu desktop en un servidor LLM, accesible incluso desde dispositivos remotos por WiFi
  También permite cambiar de modelo de forma fluida sin bajar el servidor
  En llama.cpp, en cambio, desde la CLI normalmente hay que bajar el servidor, volver a lanzarlo con otros flags y luego levantarlo otra vez, lo que es incómodo para experimentar o desarrollar apps rápido
  Incluso tengo apps donde es indispensable poder cambiar entre modelos 1B, 8B o 30B usando solo un parámetro en la solicitud web, sin reiniciar el servidor
Aunque solo tengo 8GB de VRAM, conecté OpenWebUI como frontend de Ollama para cargar varios modelos al mismo tiempo y probarlos en round robin
Así también puedo monitorear continuamente la calidad de las respuestas y decidir con el tiempo qué modelo se adapta mejor a mi propósito
OpenWebUI ofrece una experiencia de uso bastante particular
- Como usuario de una AMD 6700XT (12GB de VRAM), una vez que logré configurar ROCm en local, pude correr Ollama con aceleración por GPU sin problemas
  Conectar una instancia de OpenWebUI levantada en Docker con mi servidor local de Ollama fue tan simple como definir una variable de entorno
  No es producción sino un entorno personal de pruebas, pero para el objetivo descrito arriba funciona muy bien
- Vale la pena saber que OpenWebUI, tras un cambio reciente de licencia, ya no es open source
La familia Qwen3 (y el distill R1 qwen3-8b) está en primer lugar en programación y razonamiento lógico
Eso sí, por venir de China tienen una censura fuerte en temas políticos
Para conocimiento general del mundo e información reciente, recomiendo Gemma3
Es muy probable que este post quede obsoleto en un mes, así que conviene revisar benchmarks actualizados en livebench.ai o el leaderboard de aider.chat
- La velocidad de cambio supera lo imaginable
  No solo evolucionan los modelos, también las herramientas, routers, MCP, librerías y SDKs
  Si desarrollas por tu cuenta y no tienes colegas o una comunidad cercana con quien intercambiar información, hace falta algún consejo para aprender y seguir las tendencias actuales
La mejor fuente de información es HuggingFace
La serie Qwen rinde bien en varios frentes, y recomiendo el modelo Qwen/Qwen3-14B-GGUF Q4_K_M
Solo usa unos 7-8GB de VRAM, así que no pesa mucho, y recomiendo usar llama-server o LM Studio
Llama 3.3 también es una buena opción
Devstral es demasiado grande, así que solo vale la pena intentarlo en versión cuantizada
Gemma rechaza muchas cosas, pero sirve para objetivos específicos como Medgemma
Los modelos “Uncensored” Dolphin de Eric Hartford y los modelos abliterated son recomendables si necesitas un modelo con pocas restricciones para tareas como generar chistes o trabajos relacionados con seguridad o defensa (para uso diario no son indispensables)
Con dtype bf16, el tamaño de un modelo sin cuantizar se calcula como número de parámetros x2
Si usas un modelo cuantizado Q4_K_M (4 bits), el requerimiento de VRAM es aproximadamente la mitad del número de parámetros
También hay que considerar overheads como activaciones, así que conviene empezar probando modelos bastante por debajo de 16GB
llama-server incluye GUI y también permite descargar modelos con la opción -hf
LM Studio también facilita la instalación y administración de modelos
Si quieres respuestas rápidas, conviene levantar el servidor una sola vez y reutilizar el modelo para múltiples consultas (si recargas el modelo en cada pregunta será lento)
En 16GB, Mistral Small 3.1 en Q4 quant o Qwen3-14B en FP8 corren bastante bien sin demasiadas complicaciones
Eso sí, según el uso de VRAM, al trabajar con context length largos Qwen3-14B en Q4 quant rinde peor que FP8, pero deja más margen de memoria
Mistral Small soporta entrada de imágenes, mientras que Qwen3 está más especializado en matemáticas y código
No recomiendo bajar de Q4 porque la eficiencia cae
Si tu prioridad es contexto largo, quizá convenga más Qwen3-8B en Q4 quant, y Qwen3-30B-A3 parece quedarse un poco corto para 16GB de VRAM (los modelos pesados ocupan más de 15GB en GGUF)
Los modelos dense (usan todos los parámetros) tienen mejor rendimiento por parámetro que los modelos sparse, aunque son más lentos; con una GPU clase 5060, 14B se mueve con bastante comodidad
Si tienes arquitectura Blackwell, los modelos cuantizados en NVFP4 son más rápidos que FP8, aunque con una pérdida mínima de calidad; como ollama todavía no los soporta, necesitarías usar vLLM por separado
Como hay poco soporte para modelos NVFP4 pre-cuantizados, se recomienda cuantizarlos tú mismo con herramientas como llmcompressor
Lo mejor es elegir primero el LLM que quieres y usar este tipo de herramientas solo cuando ya toque optimizar el rendimiento
Es casi imposible dar una respuesta objetiva y clara sobre los LLM; lo más importante es probar tú mismo varios modelos recientes en tareas que te importen
Según el tipo de trabajo, la calidad de los resultados puede variar muchísimo
A menudo me pregunto cómo estima la gente el uso de VRAM
En la información descargable de modelos como los archivos gguf no suele indicarse claramente el requerimiento de VRAM o memoria, y eso se extraña
- Como regla muy aproximada, puedes pensar que la cantidad de parámetros (en B) equivale a memoria en GB
  Ejemplos según cuantización:
  FP16 = 2 x 8GB = 16GB (modelo de 8B)
  Q8 = 1 x 8GB, Q4 = 0.5 x 8GB = 4GB
  En la práctica cambia un poco, pero no suele alejarse demasiado, y además necesitas memoria extra para cosas como la longitud de contexto
  La lógica base es cantidad de valores float x número de bits del tipo de dato (4, 8, 16...)
- Además de la cuantización, si quieres calcular con más precisión cosas como la KV cache, recomiendo usar esta calculadora de VRAM

Ask HN: ¿Cuál es el mejor LLM que se puede usar en hardware de consumo?

Resumen de respuestas

Recomendaciones principales de LLM y consejos de uso

Optimización de hardware y entorno de ejecución

Herramientas y frontends

Comunidad e información práctica

Objetivos de uso y experiencia real

Preguntas y consejos frecuentes

Conclusión y consejo práctico

Lecturas relacionadas

1 comentarios

Opinión de Hacker News