El ecosistema local de LLM no necesita Ollama
(sleepingrobots.com)- Ollama fue una herramienta temprana que simplificó la ejecución local de LLM, pero después perdió la confianza por ocultar sus fuentes y girar hacia un enfoque centrado en la nube
- Minimiza el mérito del motor principal, llama.cpp, y al cambiar a un backend propio basado en ggml provocó caídas de rendimiento y reintroducción de errores
- La comunidad sigue criticando aspectos como nombres de modelos engañosos, distribución de una app GUI cerrada y una estructura de Modelfile ineficiente
- Cuellos de botella en el registro de modelos, vulnerabilidades de seguridad y una arquitectura de vendor lock-in chocan con la filosofía local-first
- Alternativas open source como llama.cpp, LM Studio y Jan ya ofrecen mayor rendimiento y transparencia y se han consolidado como el centro del ecosistema local de LLM
Problemas de Ollama y alternativas en el ecosistema local de LLM
-
Origen de Ollama y su rol inicial
- Ollama llamó la atención como el primer wrapper de llama.cpp que simplificó la ejecución local de LLM
- Permitía ejecutar modelos sin que el usuario tuviera que compilar C++ manualmente ni configurar un servidor
- Después ocultó el origen, indujo a error a los usuarios y, alejándose de una filosofía centrada en lo local, se movió hacia una estructura enfocada en la nube respaldada por capital de riesgo
- Sus fundadores son Jeffrey Morgan y Michael Chiang, quienes previamente desarrollaron Kitematic, una GUI para Docker que fue adquirida por Docker Inc.
- Surgió de Y Combinator (W21), tuvo su lanzamiento público en 2023 y se presentó como “Docker para LLMs”
- Ollama llamó la atención como el primer wrapper de llama.cpp que simplificó la ejecución local de LLM
-
Créditos inapropiados a llama.cpp
- La capacidad de inferencia de Ollama depende por completo de llama.cpp de Georgi Gerganov
- Durante más de un año no hubo mención de llama.cpp en el README, el sitio web ni el material de marketing, y ni siquiera se incluyó el aviso de licencia MIT
- El issue de la comunidad pidiendo cumplimiento de licencia (#3185) estuvo más de 400 días sin respuesta
- Después, un cofundador solo añadió al final del README una línea: “llama.cpp project founded by Georgi Gerganov”
- Desde Ollama dijeron que “estamos haciendo muchos parches y gradualmente migraremos a nuestro propio motor”, con lo que restaron crédito de forma deliberada
Migración a un backend propio y caída de rendimiento
-
Introducción de un backend custom basado en ggml
- A mediados de 2025, Ollama cambió de llama.cpp a una implementación propia basada en ggml
- Lo presentó como una medida por estabilidad, pero en la práctica reintrodujo errores ya resueltos
- Aparecieron múltiples problemas, como errores en salidas estructuradas, fallas en modelos de visión y choques por assertions de GGML
- Modelos recientes como GPT-OSS 20B no funcionaban o presentaban problemas de tipos de tensor no soportados
- Gerganov señaló directamente que Ollama hizo un fork incorrecto de ggml
-
Resultados de comparación de rendimiento
- En benchmarks de la comunidad, llama.cpp fue 1.8 veces más rápido que Ollama (161 vs 89 tokens/s)
- También en CPU hubo diferencias de rendimiento de 30~50%
- En pruebas con Qwen-3 Coder 32B, llama.cpp mostró un throughput 70% mayor
- Las causas apuntadas son la arquitectura de demonio de Ollama, el offloading ineficiente a GPU y un backend desactualizado
Nombres de modelos engañosos
-
Caso DeepSeek-R1
- Ollama etiquetó modelos reducidos como DeepSeek-R1-Distill-Qwen-32B simplemente como “DeepSeek-R1”
- Aunque no se trata del modelo real de 671B parámetros, usó el mismo nombre
- Eso hizo que usuarios creyeran que habían “ejecutado DeepSeek-R1 en local”, con el consiguiente daño a la reputación de DeepSeek
- Los issues relacionados en GitHub (#8557, #8698) fueron marcados como duplicados y siguen sin resolverse
- Incluso ahora,
ollama run deepseek-r1ejecuta un modelo reducido
Lanzamiento de una app cerrada
-
Distribución privada de la app GUI
- En julio de 2025 se publicó la app GUI de Ollama para macOS y Windows
- Fue desarrollada en un repositorio privado y distribuida sin licencia, sin publicar el código fuente
- Para un proyecto que mantenía una imagen open source, fue un giro brusco hacia el cierre
- La comunidad planteó dudas sobre posibles dependencias AGPL-3.0 y riesgos de incumplimiento de licencia
- El sitio web colocó un botón de descarga junto al enlace a GitHub, dando la impresión de que era open source
- Tras meses de silencio, recién en noviembre de 2025 se integró al repositorio principal
- XDA criticó que “un proyecto que se presenta como open source debe dejar claro qué es público y qué no”
Ineficiencia de Modelfile
-
Duplicación respecto al formato GGUF
- El formato GGUF incluye en un solo archivo toda la información necesaria para ejecutar un modelo
- Ollama agrega además un archivo de configuración separado llamado Modelfile, con una estructura parecida a Dockerfile
- Esto redefine información que ya existe en GGUF y genera complejidad innecesaria
- Ollama solo reconoce automáticamente una lista hardcodeada de templates, e ignora templates nuevos
- Como resultado, se rompe el formato de instrucciones del modelo y el usuario debe convertirlo manualmente
-
Modificación ineficiente de parámetros
- Para cambiar parámetros, hace falta extraerlos con
ollama show --modelfile, modificarlos y recrear el modelo conollama create - En ese proceso se copia el modelo completo de 30~60 GB
- La comunidad lo criticó como una “duplicación ineficiente e innecesaria”
- En llama.cpp, los parámetros pueden ajustarse simplemente con argumentos de línea de comandos
- Para cambiar parámetros, hace falta extraerlos con
-
Problemas de compatibilidad de templates
- Ollama usa sintaxis de templates de Go, distinta de los templates Jinja que usan los creadores de modelos
- LM Studio y llama.cpp soportan Jinja de forma directa, pero en Ollama hay que convertirlos
- Se han reportado numerosos problemas de formatos de conversación rotos por errores de conversión
Cuello de botella del registro de modelos
-
Demora en registrar modelos
- Aunque un modelo nuevo se publique en Hugging Face, en Ollama solo puede usarse después de que se empaquete y registre manualmente
- Los formatos de cuantización soportados también son limitados, como Q4_K_M y Q8_0
- En consecuencia, hay demoras entre el lanzamiento de un modelo y su disponibilidad en Ollama
- En la comunidad se difundieron publicaciones PSA diciendo: “para probar modelos nuevos, usa llama.cpp o vLLM”
-
Restricciones de cuantización
- Ollama no soporta las familias Q5, Q6 e IQ
- Incluso cuando los usuarios lo piden, la respuesta es “usa otra herramienta”
- Se añadió la opción de llamar directamente a Hugging Face con
ollama run hf.co/{repo}:{quant}, pero aun así se copia a un almacenamiento interno con hash y no puede compartirse, y además persisten los problemas de templates
Giro hacia la nube y problemas de seguridad
-
Incorporación de modelos en la nube
- A finales de 2025, Ollama añadió modelos alojados en la nube
- A pesar de ser una herramienta orientada a lo local, algunos modelos envían prompts a servidores externos
- Al usar modelos de terceros como MiniMax, los datos pueden terminar en sistemas externos
- Ollama especificó que “no guarda logs”, pero las políticas de terceros no están claras
- En el caso de modelos basados en Alibaba Cloud, no hay garantía de retención de datos
-
Vulnerabilidades de seguridad
- CVE-2025-51471: una vulnerabilidad por la que un servidor de registro malicioso podía robar tokens de autenticación
- Existía un PR de corrección, pero no se aplicó durante meses
- Para una herramienta que presentaba la privacidad local como valor central, esto supone un problema estructural grave
Estructura centrada en capital de riesgo
-
Un patrón repetido
- Envolver un proyecto open source para conseguir base de usuarios → captar inversión → pasar a monetización
- El recorrido de Ollama por etapas
- Comenzó como open source, construido sobre llama.cpp
- Restó visibilidad a su origen y se empaquetó como si fuera un producto independiente
- Impulsó lock-in mediante un registro y formato de modelos propios
- Lanzó una GUI cerrada
- Introdujo servicios en la nube para monetizar
-
Arquitectura de vendor lock-in
- Ollama guarda los modelos con nombres de archivo hasheados, lo que dificulta su compatibilidad con otras herramientas
- Puede importar GGUF, pero exportarlo está diseñado de forma incómoda
- La estructura hace que el usuario quede atado al ecosistema de Ollama
Herramientas alternativas
-
llama.cpp
- Ofrece servidor API compatible con OpenAI (
llama-server), interfaz web, control detallado de parámetros y alto throughput - En febrero de 2026, ggml.ai se unió a Hugging Face, reforzando su sostenibilidad
- Se basa en licencia MIT y cuenta con más de 450 contribuyentes
- Ofrece servidor API compatible con OpenAI (
-
Otras alternativas
- llama-swap: soporta carga de múltiples modelos y hot swap
- LiteLLM: ofrece un proxy compatible con OpenAI entre varios backends
- LM Studio: GUI, usa llama.cpp y es totalmente compatible con GGUF
- Jan, Msty: apps de escritorio open source con diseño local-first
- koboldcpp, Red Hat ramalama: ejecución de modelos basada en contenedores, con atribución de origen clara
Conclusión: hacia dónde va el ecosistema local de LLM
- llama.cpp de Georgi Gerganov es la base de la innovación en IA local
- Gracias a la colaboración de la comunidad, permite ejecutar modelos potentes incluso en hardware de consumo
- Ollama creció sobre esa base, pero perdió la confianza por ocultar el origen, bajar la calidad, cerrarse y girar hacia la nube
- Lo que necesita el ecosistema local de LLM no es Ollama, sino llama.cpp
- La verdadera apertura y el rendimiento ya los ofrecen herramientas impulsadas por la comunidad
3 comentarios
Estoy de acuerdo hasta cierto punto, y me parece que para usarlo bien en local, LM Studio es una mejor opción.
Yo también empecé con Ollama al principio, pero hace tiempo que me cambié a LM Studio.
Comentarios de Hacker News
La mayoría de los usuarios de LLM locales cree que Ollama resolvió los problemas de UX
Permite ejecutar modelos con un solo comando y también maneja automáticamente los drivers ROCm
En cambio, llama.cpp suena desde el nombre como una librería de C++, así que para el usuario común resulta menos accesible
Yo simplemente no quiero compilar programas por mi cuenta; solo quiero probarlos y divertirme
Uso una Mac Mini, aunque una herramienta CLI también me sirve. La fortaleza de Ollama era la facilidad de instalación y descarga de modelos, así que esperaría un nivel de comodidad similar en una alternativa
Pienso que el control de calidad es importante para evitar integraciones con soporte roto de modelos o subidas incorrectas de GGUF
Claro, uno podría usar runc directamente, pero la mayoría elige
docker runLa UX es un factor clave para la adopción tecnológica, y si un proyecto no construye bien la interfaz, no hay nada de malo en hacer un wrapper
Me cansé de repetir el mismo argumento, así que reuní de una vez la línea de tiempo y las fuentes que conozco
Como alternativa recomiendan llama-file. llamafile de Mozilla AI funciona como un solo ejecutable sin importar el sistema operativo y es completamente open source
Está basado en CosmopolitanC, creado por Justine Tunney, y usa oficialmente llama.cpp
Pienso que Ollama es 1000 veces mejor en facilidad de uso
llama.cpp es excelente, pero no es amigable para usuarios comunes
Yo empecé con Ollama, pero me pasé a llama.cpp por los cambios más recientes
Aun así, sigo usando Ollama para gestionar modelos. Es tan conveniente que hasta hice scripts para manejar el directorio de caché
Tal vez para una simple app de chat sí, pero si necesitas una API compatible con OpenAI y gestión de modelos, la accesibilidad cae muchísimo
Para cambiarlo de forma persistente había que crear un archivo de modelo nuevo, y eso era todavía más complejo
Creo que el enfoque estilo Docker resulta incómodo para el usuario común, y que para usuarios avanzados llama.cpp es mejor
Resumen de dos posturas sobre la licencia MIT
El creador de llama.cpp, Georgi Gerganov, solo expresó molestia por la falta de atribución. Es decir, actuó más cerca de la primera interpretación
MIT es un documento legal, no una guía moral
Personalmente creo que conviene usar GPL para software orientado a usuarios
Es contradictorio usar MIT y luego quejarse de que una empresa toma el código
Creo que las empresas no tienen moral; solo las personas la tienen
Al final ambos proyectos siguieron avanzando y los usuarios terminaron con más opciones
Antes era incómodo porque no se podía cambiar la carpeta de modelos por defecto
Para registrar un modelo había que pasar por un proceso parecido a un Dockerfile, y el modelo se copiaba a un almacenamiento hash, así que no se podía mover de ubicación
Por eso me cambié a LM Studio. No es completamente open source, pero exponía la carpeta de modelos y estaba integrado con Hugging Face
OLLAMA_MODELSen el archivo de configuración del servidorPor la estructura en la que Ollama copia los archivos de modelo a un almacenamiento hash de blobs, no se pueden compartir con otras herramientas
Probablemente sea un diseño pensado para deduplicación, pero al final dificulta probar otras herramientas
Como los archivos de modelo son tan grandes, el almacenamiento y las descargas se vuelven una carga importante
En Arch Linux,
pacman -Ss ollamadevuelve 16 resultados, perollama.cppolmstudiodevuelven 0Ojalá eso cambie algún día
Hay soporte para versiones Vulkan, ROCm y CUDA
zypperComo las versiones y el soporte cambian según la distro, al final ahí está una de las razones por las que existen tantas distribuciones de Linux
yay -S llama.cpp, y fue mucho más rápido y mejor que OllamaEl nombre “llama.cpp” ahora ya no suena amigable
Antes se refería al modelo Llama de Meta, pero ahora hay modelos open source más potentes
Ahora el nombre “Local LLaMA” se usa casi como un término genérico para ejecutar modelos locales
Evité Ollama desde el principio porque me daba la impresión de que quería controlar todo el flujo de trabajo
Al final creo que fue una buena decisión
La estructura de almacenamiento hash de blobs de Ollama es la peor trampa
Si llevas meses descargando modelos, al cambiarte a otra herramienta tienes que bajarlos todos otra vez
La mayoría de los usuarios solo se da cuenta de esto después de haber invertido mucho, y entonces siente muy fuerte el costo de salida