Experimentar con LLM locales en macOS

(blog.6nok.org)

11 puntos por GN⁺ 2025-09-09 | 3 comentarios | Compartir por WhatsApp

Explica cómo ejecutar LLM locales en macOS y qué herramientas se recomiendan
Un LLM local es un modelo de lenguaje de inteligencia artificial que puede ejecutarse en una computadora personal, lo que permite mantener la privacidad de los datos y explorar tecnología experimental
Aprovechando varios modelos de pesos abiertos, resulta útil para resumir texto y para registros personales, aunque no tiene creatividad ni capacidad de pensamiento
Las dos herramientas principales que pueden ejecutarse en macOS son llama.cpp y LM Studio, que ofrecen respectivamente código abierto y una UI fácil de usar
Al elegir un modelo, hay que considerar la capacidad de memoria, el runtime, el nivel de cuantización y las capacidades de visión e inferencia
Ejecutar un LLM local contribuye a la protección de la privacidad y a satisfacer la curiosidad técnica, y los modelos pequeños ofrecen valor experimental como alternativa a los modelos grandes

Introducción: perspectiva personal sobre los LLM y cómo usarlos

Este artículo trata sobre la experiencia de instalar y probar directamente un LLM local (Local Large Language Model) en macOS
El autor es escéptico con respecto a los LLM, pero como le gusta experimentar con tecnología nueva, los descargó y los probó por su cuenta
Su postura se ubica entre ver a los LLM como una especie de autocompletado avanzado y las afirmaciones que los tratan como si fueran seres con emociones y derechos
En la práctica, se basan en la predicción de la siguiente palabra, aunque aparecen comportamientos complejos no intencionales (capacidades emergentes)
No tienen creatividad ni autoconciencia; en el futuro podrían aparecer máquinas más avanzadas, pero la tecnología actual aún no llega a ese nivel

Principales ejemplos de uso de los LLM

Son muy útiles para resumir texto, ofrecer información de internet y dar información médica simple
En el caso del autor, los usa para vaciar ideas de la cabeza (brain dump), y le resultan útiles cuando necesita un interlocutor
No se enfoca en las respuestas en sí, sino que los usa solo como registro
Es importante no proyectar demasiadas emociones sobre la inteligencia artificial (antropomorfizarla)
Se puede ajustar el comportamiento de respuesta del modelo con system prompts, aunque el autor prefiere no prestarle demasiada atención

Dudas sobre productividad y confiabilidad

No está de acuerdo con la idea de que los LLM mejoren la “productividad”
Debido a los problemas de confiabilidad de las respuestas (disparates, alucinaciones), es indispensable hacer fact-checking
Evitar preguntas difíciles de verificar ayuda a prevenir la contaminación de la información

Por qué usar LLM locales

Está el disfrute de la experimentación técnica y lo llamativo de ver a una computadora responder en lenguaje natural de forma local
Cuando se ejecutan solo en mi computadora, ofrecen ventajas en privacidad y protección de información sensible
- Muchas empresas de servicios de IA suelen almacenar por separado los datos de los usuarios y usarlos para entrenamiento
Debido a la desconfianza hacia las empresas comerciales de IA, los problemas éticos, el exceso de promoción, el daño ambiental y las infracciones de derechos de autor, el autor prefiere modelos locales de código abierto

Cómo ejecutar LLM en macOS

Las dos herramientas principales que pueden ejecutarse en macOS son llama.cpp y LM Studio
1. llama.cpp (código abierto)
- Desarrollado por Georgi Gerganov
- Ofrece opciones de configuración variadas y detalladas, soporte para varias plataformas, descarga de modelos y una web UI simple
- Ejemplo:
  - Con el comando llama-server -hf ggml-org/gemma-3-4b-it-qat-GGUF se puede ejecutar el modelo recomendado: Gemma 3 4B QAT
  - Al entrar en http://127.0.0.1:8080 desde el navegador, ofrece una UI mínima parecida a ChatGPT, adecuada para experimentar
2. LM Studio (código cerrado, fácil de usar)
- Ofrece una UI intuitiva y avanzada, funciones para explorar/descargar modelos/gestionar conversaciones, e indicaciones sobre si un modelo puede ejecutarse o no
- Incluye guardrails para evitar que el sistema se caiga al cargar modelos demasiado grandes
- En macOS permite usar dos runtimes: llama.cpp y el motor MLX de Apple
  - MLX es más rápido, pero con menos opciones de configuración detallada
- Consejos principales de uso:
  - Se puede cambiar de modelo durante la conversación
  - Se pueden crear ramas de conversación y hacer distintos experimentos
  - Se pueden editar tanto los mensajes del usuario como los del asistente
  - Permite crear y reutilizar presets de system prompts
  - Se puede configurar cómo manejar el exceso en la ventana de contexto (por ejemplo, conservar mensajes del inicio y del final)

Criterios para elegir un buen modelo LLM

Tamaño del modelo: la memoria (RAM) es una limitación más importante que el espacio en disco
- En un entorno con 16 GB de RAM, se recomiendan modelos de 12 GB o menos; si se supera eso, el sistema puede volverse inestable
- Cuanto más grande el modelo, más lento será, y si falta memoria, todo el sistema puede volverse inestable
Elección de runtime:
- llama.cpp y el runtime predeterminado de LM Studio requieren modelos en formato GGUF
- El runtime MLX de LM Studio requiere modelos dedicados para MLX
- Los modelos GGUF son estables en varias plataformas y ofrecen muchas opciones de configuración
- Los modelos MLX ofrecen un rendimiento un poco más rápido en Apple Silicon
Cuantización (Quantization): equilibrio entre rendimiento del modelo y eficiencia de memoria
- La mayoría de los LLM se entrenan con precisión de 16 bits
- Incluso si se cuantizan a menos bits, como 4 bits, la pérdida de rendimiento es pequeña hasta cierto punto; en general Q4 es una buena opción
- Existen notaciones complejas de cuantización por kernel (Q4_K_M, etc.), pero para principiantes se recomienda usar la opción predeterminada
Modelos de visión: modelos capaces de procesar imágenes
- Algunos modelos analizan entradas de imagen tokenizándolas (leer texto, reconocer objetos, estimar emociones/estilo, etc.)
- Pueden hacer OCR simple, pero son menos confiables que herramientas especializadas de OCR
Capacidad de inferencia: algunos modelos incluyen un proceso de razonamiento antes de generar la respuesta
- Algunos modelos añaden un proceso de inferencia antes de generar la respuesta, reforzando la función de “pensar” frente a los modelos generales
- Los modelos pequeños especializados en razonamiento pueden superar a modelos generales medianos o grandes (según benchmarks)
- Los modelos de razonamiento tardan más en responder y llenan más rápido la ventana de contexto
Uso de herramientas: posibilidad de invocar herramientas externas
- Usando tokens de tool calling, es posible aprovechar las funciones de MCP (servidores de herramientas) definidas en el system prompt
- En LM Studio es fácil agregar y administrar herramientas; como el tool calling puede implicar riesgos de seguridad (posible ataque de exfiltración de datos), normalmente se requiere confirmación del usuario
- Incluye por defecto JavaScript MCP (basado en Deno), lo que permite automatizar cálculos complejos, análisis de datos, generación aleatoria, etc.
- Si se agrega un MCP de búsqueda web, es posible reflejar resultados de búsqueda en tiempo real y ampliar el uso de modelos limitados por su conocimiento del mundo
- Si se necesita memoria a largo plazo, se pueden usar varios servidores de extensión como MCP para Obsidian
  - Eso sí, como MCP llena rápido el contexto, solo debe activarse cuando realmente sea necesario
Agents
- Un agent se refiere a una estructura de modelo que usa herramientas de forma repetida
- En general, se clasifican como agents los modelos que combinan capacidad de razonamiento y uso de herramientas
- No son perfectos, pero ofrecen un concepto desafiante e interesante

Modelos recomendados y consejos de uso

En la UI integrada de LM Studio se pueden comparar y explorar fácilmente runtime, cuantización, características del modelo, tamaño, etc.
En el caso de llama.cpp, se puede usar la sección de modelos GGUF en Hugging Face
Como no hay muchos modelos que cumplan con todas las capacidades, se recomienda descargar varios y experimentar
Lista de modelos recomendados:
- Gemma 3 12B QAT: fuerte en inteligencia visual, rápido y bueno generando texto
- Qwen3 4B 2507 Thinking: pequeño, excelente en velocidad/calidad, con versión de razonamiento y versión general
- GPT-OSS 20B: el mejor rendimiento disponible actualmente, soporte para razonamiento en 3 niveles, lento pero con la mayor capacidad
- Phi-4 (14B) : antes era uno de los preferidos; todavía tiene versión de razonamiento y versión general

Cierre y consejos de uso

Aunque los modelos pequeños no pueden reemplazar por completo a los modelos grandes más recientes, la utilidad de la ejecución local es clara
Las pruebas locales ayudan a entender cómo funcionan los algoritmos y a mejorar la capacidad de compensar sus debilidades
LM Studio muestra en tiempo real el uso de la ventana de contexto
- Pedir un resumen de la conversación justo antes de que el contexto se llene ayuda a conservar la información importante
El autor ve a los LLM locales como una especie de genio digital dentro de la computadora, y espera que sean una experiencia de experimentación divertida

3 comentarios

tensun 2025-09-11

Se recomienda usar qwen3:4b en ollama.

yolatengo 2025-09-11

No se menciona Ollama.

GN⁺ 2025-09-09

Opiniones en Hacker News

A mí también me parece increíble que, como por arte de magia, con solo descargar unos 10 GB de archivos ya puedas hacer resumen de texto, responder preguntas e incluso razonamiento simple en una laptop. Lo importante es el equilibrio entre el tamaño del modelo y la RAM. En una máquina de 16 GB, unos 12B~20B ya está cerca del límite. Pero estos modelos en realidad no usan el Apple Neural Engine (ANE), sino que corren en la GPU a través de Metal. Core ML todavía no es muy bueno para runtimes personalizados, y Apple tampoco ofrece acceso de bajo nivel para desarrolladores al ANE. Además, también hay temas de ancho de banda de memoria y SRAM. Ojalá que algún día Apple logre mapear bien las cargas de trabajo de transformers al ANE con optimizaciones de Core ML
- Desde hace tiempo siento que Apple necesita un nuevo CEO. Si yo dirigiera Apple, impulsaría agresivamente los LLM locales y construiría un motor de inferencia que también optimizara modelos diseñados para Nvidia. Vendería procesadores Apple Silicon de clase servidor y abriría las especificaciones de la GPU para que todo el mundo pudiera aprovecharlas directamente. Apple parece ir siempre por el camino más seguro. Tim Cook es excelente como COO, pero sigue manejando la empresa de esa misma manera. Creo que ya no hace falta un COO, sino un innovador
- Según la información de ingeniería inversa (como los casos en Asahi Linux con acceso directo al ANE), el Apple Neural Engine de M1/M2 está optimizado solo para MADD con planificación estática usando valores INT8 o FP16. Como los modelos locales más recientes se cuantizan mucho más, cuando los valores del modelo se rellenan a FP16/INT8 se desperdicia ancho de banda de memoria. En cambio, la GPU puede descuantizar rápidamente las entradas y rellenarlas en registros para alimentar las unidades matriciales, así que el ancho de banda de memoria se usa de forma eficiente. Aun así, la NPU/ANE puede servir para cosas como el preprocesamiento de prompts. Ahí la limitación está más en el procesamiento computacional que en la generación de tokens, así que puede bajar el consumo de energía y evitar límites de enfriamiento. Más información: Whisper.cpp Pull Request, información antigua del ANE, resumen detallado de tinygrad. M3/M4 todavía no tienen soporte en Asahi, así que aún no se sabe qué pasará. La serie M3 tampoco parece tener una gran diferencia de rendimiento frente a M2
- Si quieres que las cargas de trabajo de transformers corran bien en el ANE, ya existen herramientas para convertir modelos.<br>Cómo convertir modelos hechos en TensorFlow, PyTorch, etc. a Core ML: CoreML Tools Docs
- A mí también me pareció interesante que el Apple Neural Engine no se integre con los LLM locales. Parece que Apple, AMD e Intel todavía no logran un soporte decente de NPU en llama.cpp. Me pregunto por qué
- Estoy corriendo GLM 4.5 Air y gpt-oss-120b bastante bien. En particular, la latencia de GPT OSS está bastante bien. Esto es en una MacBook M4 de 128 GB. Ahora mismo es algo muy potente, pero pronto se volverá normal. Estos modelos ya se están acercando a los modelos de punta
Hasta ahora, los LLM locales me parecían demasiado limitados, como ChatGPT en sus primeras versiones de 2022, así que no había encontrado un caso de uso realmente útil. Me da curiosidad saber qué usos prácticos ha encontrado la comunidad. Como ejemplo, dijeron que un LLM local inventó una entrevista con Sun Tzu, y ese tipo de limitación me preocupa. Por eso me pregunto para qué se pueden usar realmente
- He probado varios LLM, pero en una Macbook de 48 GB o más, Gemma3:27b está al nivel más alto para analizar diarios personales o datos sensibles. Los modelos chinos dan consejos de vida demasiado cómicos. Por ejemplo, le conté una preocupación a Deepseek y me respondió con un plan de vida confuciano. Gemma se siente mucho más occidental
- Los LLM locales se usan mucho más para automatización que no depende de hechos, por ejemplo clasificación, resúmenes, búsqueda, corrección ortográfica, etc. Deben entender el idioma o los conceptos cotidianos que necesito, pero no hace falta que tengan toda la enorme información sobre historia humana, lenguajes de programación o salud. Ni siquiera hace falta interactuar directamente con el LLM; el sistema operativo o una app pueden usarlo automáticamente cuando haga falta
- En Obsidian registro mis emociones, pensamientos, lo que hice y todo lo demás. Como no quiero subir estas notas íntimas a la nube, las manejo con chromeDB y converso con ellas usando un LLM. Últimamente también uso modelos abliterated a los que se les quitó el rechazo (eliminar rechazos en transformers). También lo uso en el trabajo. Hice un mcp para automatizar tareas con datos financieros, y como corro el modelo localmente no me preocupo por fugas de información
- También se puede usar en entornos donde el internet funciona mal o se cae seguido. Aunque no sea un LLM de punta, es muchísimo mejor que no tener nada. Por ejemplo, si se corta internet por una tormenta, puedes obtener de inmediato instrucciones de seguridad desde un LLM local
- Uso modelos locales para prototipar apps o en etapas tempranas del desarrollo.<br>Primero, reducen claramente el costo de desarrollo. Segundo, ayudan porque por sus límites de rendimiento te obligan a combinar la composición con más cuidado. Si diseñas tu flujo de trabajo con un modelo local medianamente útil (gpt-oss, qwen3, etc.), después puedes cambiarlo por un modelo en la nube (gpt-5-mini, etc.) y el rendimiento mejora de inmediato. Claro, si puedes meter todos los documentos en la ventana de contexto de un modelo en la nube y obtener buenos resultados, no hay necesidad de aceptar las limitaciones de un modelo local. Pero a largo plazo, dividir las tareas y correrlas localmente podría ser más barato y más rápido
Probé Hermes Mistral y desde el inicio alucinaba muchísimo. Últimamente guardo un diario de sueños en audio, de forma privada, en una carpeta de Obsidian. Tomaba archivos .wav con Whisper para transcribirlos y luego quería usar un LLM local solo para arreglar la puntuación y los párrafos. Le pedí que no agregara nada, solo que mejorara la legibilidad, y Hermes de la nada empezó a inventar una entrevista con Sun Tzu sobre El arte de la guerra. Cuando interrumpí el proceso, se disculpó pero ni siquiera pudo explicar por qué había salido con lo de Sun Tzu. Si tengo que estar detectando estas alucinaciones rarísimas todo el tiempo, mejor edito yo mismo. Esta lógica aplica a casi todos los campos donde intento usar LLM locales. Ojalá mejore algún día
- Yo pensaba que la exactitud o eso de la “respuesta correcta” sería fácil para una computadora, siempre que la lógica fuera precisa. Más bien esperaba que la originalidad y la creatividad fueran lo difícil por ser menos lógicas, pero me desconcierta ver que las IA son mucho mejores inventando disparates de lo que esperaba. Al final, quizá sea una consecuencia natural de haberles enseñado comunicación humana a las IA. Probablemente no fue la mejor idea meter datos de Reddit como fuente de entrenamiento. Si metes Reddit, sale Reddit
Creo que todavía falta bastante para la época en que podamos correr LLM de punta directamente en el teléfono o la laptop. Por ahora, me parece más realista tener una caja de servidor de IA en casa para correr el LLM. Los clientes ligeros (como laptops) se conectan a esa caja y, si hace falta, también resuelven cosas localmente con modelos pequeños. Sería natural si Apple siguiera esa estrategia con la Mac Pro. Incluso una caja LLM casera de 10 mil a 20 mil dólares me parecería razonable
- Ahora mismo puedes correr modelos open source recientes en una Mac Studio con 512 GB de memoria (unos 10 mil dólares). Por ejemplo, un video de Qwen3-Coder-480B-A35B-Instruct corriendo a 24 tokens por segundo en 4bit, Deep Seek V3 0324 a 20 tokens por segundo en 4 bits. También puedes unir dos Mac Studio con MLX para correr modelos más grandes. Ejemplo de DeepSeek R1 671B 8 bits
- En mi opinión, la Mac Pro es demasiado cara para lo que ofrece por el costo del gabinete grande, así que no es práctica. La Studio tiene mucho más sentido. Nvidia y AMD también pronto van a ofrecer memoria GPU masiva de alto ancho de banda en formato de escritorio. Si puedes conectarte desde una laptop u otro dispositivo al servidor LLM de tu casa y usarlo sin preocuparte por la batería local, sería perfecto
- En mi caso, uso un AMD 395+ y corro varios contenedores de docker para manejar distintas apps. Principalmente uso Qwen Code y el modelo GPT OSS 120b. Cuando salga la nueva generación pienso actualizar aunque sea caro. Vale la pena
- El precio de 10 mil a 20 mil dólares es absurdamente caro para la mayoría. Tal vez con un sueldo de Silicon Valley sea posible, pero incluso el Apple Vision Pro, que era mucho más barato, vendió poco
- ¿No da mucho mejor rendimiento gpt-oss-120b con bastante menos memoria? Con una Mac Studio de 4 mil dólares y 128 GB de memoria debería bastar para correrlo
No tiene que ver con el tema, pero me llamó la atención el texto con efecto de ondas del primer párrafo de "opinions"
- Gracias. Ese era justamente el punto principal de toda la publicación
Creo que los LLM locales son el futuro. Van a seguir mejorando con el tiempo. Si tan solo se distribuyeran modelos al nivel del año pasado, ya no habría mucha razón para usar chatgpt, anthropic u otros servicios en la nube. Tampoco hace falta un modelo gigante que resuelva todo. La idea de llamar varios modelos pequeños según la tarea ya se está volviendo realidad. Ya no hay moat
- El rendimiento de los LLM locales va a seguir mejorando, pero no estoy tan seguro de cuándo llegarán a ser prácticos para el usuario común. La capacidad de razonamiento y programación de los modelos locales ha avanzado muchísimo, pero eso viene de mejoras en los datos de entrenamiento (RLHF, DPO, CoT, etc.) y del nivel técnico. Aun así, lo realmente importante para minimizar las alucinaciones es la salida estadística pura de conjuntos enormes de parámetros en precisión completa, y entre ese tipo de modelo y el consumidor promedio hay una brecha de hardware enorme. Creo que faltan al menos más de 10 años
- Yo creo que el futuro es la computación en la nube segura y privada
En blogs o publicaciones sobre usar LLM locales, siempre deberían decir en qué hardware se hicieron las pruebas
- Buena observación, voy a añadir una nota rápida
Un voto para LM Studio. Tiene varias configuraciones ya preparadas, así que es intuitivo entender qué puede hacer mi MacBook y cómo configurarlo. Es una muy buena experiencia de 1 a 2 horas
- También incluye por defecto una herramienta cli y un servidor compatible con openai. Puedes cargar un modelo, abrir un endpoint y usarlo desde scripts locales. Primero lo exploras con la interfaz de chat y luego puedes expandirlo de forma programática
Tengo el hobby de bajar modelos al azar y probarlos en una Mac Mini de 16 GB, y la lista de recomendaciones de modelos del autor me ayuda muchísimo. Me quedo con solo 4 o 5 por cada tamaño y eso es lo más eficiente
También ayuda revisar Mozilla-Ocho/llamafile

Experimentar con LLM locales en macOS

Introducción: perspectiva personal sobre los LLM y cómo usarlos

Principales ejemplos de uso de los LLM

Dudas sobre productividad y confiabilidad

Por qué usar LLM locales

Cómo ejecutar LLM en macOS

1. llama.cpp (código abierto)

2. LM Studio (código cerrado, fácil de usar)

Criterios para elegir un buen modelo LLM

Modelos recomendados y consejos de uso

Cierre y consejos de uso

Lecturas relacionadas

3 comentarios

Opiniones en Hacker News