- Ollama ahora puede ejecutarse también en Windows en un entorno nativo, lo que facilita el flujo para descargar, ejecutar y generar con modelos de lenguaje grandes locales
- Ollama para Windows ofrece aceleración por GPU integrada, acceso a toda la biblioteca de modelos y la API de Ollama compatible con OpenAI
- Para ejecutar modelos, usa GPU NVIDIA y conjuntos modernos de instrucciones de CPU como AVX y AVX2, sin requerir configuración ni virtualización adicionales
- Toda la biblioteca de modelos y los modelos de visión están disponibles en Windows, y con LLaVA 1.6 se pueden arrastrar y soltar imágenes en
ollama run para agregarlas al mensaje
- Gracias a la API de Ollama que se ejecuta en segundo plano, se pueden conectar herramientas existentes para OpenAI con modelos locales
Versión preliminar para Windows disponible
- Ollama está disponible como versión preliminar para Windows, lo que permite descargar, ejecutar y generar con modelos de lenguaje grandes en Windows
- Ollama para Windows incluye las funciones principales en un solo paquete
-
Aceleración por GPU integrada
Aceleración por hardware y modo de ejecución
- Al ejecutar modelos, usa GPU NVIDIA para acelerar el proceso
- Cuando están disponibles, también aprovecha conjuntos modernos de instrucciones de CPU como AVX y AVX2
- Se puede usar directamente en el entorno Windows sin configuración ni virtualización adicionales
Biblioteca completa de modelos y modelos de visión
- En Windows también se puede ejecutar toda la biblioteca de modelos de Ollama
- También se incluyen modelos de visión
- Al ejecutar modelos de visión como LLaVA 1.6, se puede arrastrar y soltar una imagen en
ollama run para agregarla al mensaje
API de Ollama ejecutándose en segundo plano
- La API de Ollama se ejecuta automáticamente en segundo plano y está disponible en
http://localhost:11434
- Las herramientas y aplicaciones pueden conectarse a esta API sin configuración adicional
- Un ejemplo para llamar a la API de Ollama desde PowerShell es el siguiente
(Invoke-WebRequest -method POST -Body '{"model":"llama2", "prompt":"Why is the sky blue?", "stream": false}' -uri http://localhost:11434/api/generate ).Content | ConvertFrom-json
- Ollama para Windows también admite la misma compatibilidad con OpenAI que otras plataformas
- Las herramientas existentes para OpenAI pueden usarse con modelos locales a través de Ollama
Instalación y comentarios
- Para empezar con Windows Preview, descarga OllamaSetup.exe
- Haz doble clic en el archivo de instalación
OllamaSetup.exe para instalarlo
- Después de instalar, abre una terminal y ejecuta un modelo con el siguiente comando
ollama run llama2
- Cuando haya una nueva versión disponible, Ollama avisará sobre la actualización
- Si hay problemas, se puede abrir un issue en GitHub o unirse al servidor de Discord para enviar comentarios
1 comentarios
Opiniones en Hacker News
En el escritorio estoy usando Open-WebUI como frontend
Tengo reunidos unos 12 modelos fine-tuned de Mistral y algunos otros modelos, y sirven bastante bien para chats o tareas de extracción de información
La app Open-WebUI se ve bastante parecida a ChatGPT y también permite buscar conversaciones
https://github.com/open-webui/open-webui
Puedo dar fe de que es un frontend bastante sólido para Ollama. Funciona realmente bien y el ritmo de desarrollo es sorprendentemente rápido
Cada pocas semanas bajo la imagen Docker más reciente y siempre me sorprende cuánto ha mejorado
[0] https://github.com/open-webui/open-webui/discussions/764
Como siempre, no se dice nada sobre soporte para GPU AMD
La situación es tan lamentable que me hace arrepentirme de haber comprado AMD esta vez
Es una lástima que todavía no lo hayamos publicado correctamente en algún lugar como ROADMAP.md, y planeamos hacerlo pronto
Como varios mantenedores del proyecto son de la zona de Toronto, el lugar de origen de ATI Technologies, personalmente también queremos que Ollama funcione bien en GPU AMD :)
Una de las máquinas de prueba que usamos para trabajar en el soporte de AMD tiene una Radeon RX 7900XT y es bastante rápida. Es perfectamente comparable con las GPU GeForce serie 40 de gama alta
[1]: https://en.wikipedia.org/wiki/ATI_Technologies
Compré una tarjeta AMD potente y cara esperando que pronto alcanzara a Nvidia, pero en la práctica no fue así en absoluto, y creo que es porque AMD no invirtió los recursos necesarios
AMD puede cambiar, pero tiene que empezar ahora mismo
Es uno de los peores actos de autodaño que he visto en la industria tecnológica
En Windows, gracias a la biblioteca tinyBLAS, basta con tener el driver gráfico
https://github.com/Mozilla-Ocho/llamafile/releases/tag/0.6.2
Por defecto abre una pestaña del navegador con una GUI de chat, y también se puede ejecutar como chatbot de línea de comandos al estilo Ollama, como se muestra abajo
https://justine.lol/oneliners/#chat
Logré ejecutar llama.cpp compilado con soporte Vulkan en una laptop AMD junto con mi app [1], pero no pude hacerlo funcionar con Ollama porque hace algunas suposiciones sobre cómo encontrar las GPU disponibles en la máquina
[1]: https://msty.app
Si buscas una buena UI de chat para usar sobre Ollama y quieres que soporte tanto modelos en línea como locales, está la app [1] que estoy desarrollando
Está enfocada en el uso offline y la privacidad, y esta mañana lancé el soporte para Windows
[1]: https://msty.app
Me da curiosidad cuál es el motivo de que tantos de estos ports de IA de “ejecución local” se ejecuten como servidor
¿Será que los desarrolladores olvidaron que pueden ejecutar código dentro del proceso de la UI?
He visto el mismo patrón en lanzadores de Stable Diffusion y hosts de LLM
Si no es estrictamente necesario, no quiero tener un servicio en segundo plano corriendo localmente, ¿por qué parece que todas estas implementaciones funcionan así?
Una buena analogía podría ser un motor de base de datos. SQLite es una biblioteca y Postgres es un servicio de larga duración; ambos se usan mucho y cada uno tiene sus propios compromisos
Otro factor importante, en mi opinión, es que no es fácil dejar la máquina, el entorno y el sistema operativo en un estado donde el modelo pueda correr eficientemente
Meter esa complejidad en un contenedor, es decir, un “servidor”, ayuda mucho con la configuración inicial y con mantenerse al día con mejoras y actualizaciones continuas
En cambio, lo correcto es una arquitectura donde un proceso de larga duración atienda varias solicitudes de predicción
Es muy probable que pronto también termine sirviendo a varios clientes
No tengo una laptop o workstation potente, pero sí un servidor headless con varias GPU
Gracias a estos proyectos puedo experimentar con LLM en el servidor y exponer la API y la UI web en la red interna
Por eso tengo Open-WebUI en chat.domain.example y Ollama en api.chat.domain.example. Ambos solo son accesibles dentro de la red local
Con esta configuración, desde la laptop y el celular uso modelos locales a máxima velocidad mediante la UI web, y una Raspberry Pi que ejecuta un asistente de voz experimental puede consultar a Ollama mediante el endpoint de la API
Gracias a la GPU gamer, todo funciona a máxima velocidad. La misma lógica aplica a una configuración de Stable Diffusion
No sabía que los usuarios de Windows no podían usar Ollama
Hace apenas unos años, me parece que los que tenían que esperar eran los usuarios de Mac
Solo que no era tan cómodo para la mayoría, y el soporte nativo para Windows es la cereza del pastel
Al final es Linux x86, así que todo simplemente funciona bien
Me pregunto cómo se compara LM Studio de código cerrado (https://lmstudio.ai) con Ollama
Lo que no me gusta es que en Windows mete los pesos en una estructura de directorios propia bajo /users/username/.cache, ocupando decenas de GB, sin avisarte ni permitir compartirlos con otros clientes
No permite importar modelos descargados manualmente, la búsqueda es pésima y tampoco me gusta cómo maneja la configuración de instancias
Parece que ya estaba disponible en Linux y Mac
Este cambio es la incorporación de Windows: https://github.com/ollama/ollama
Justo estaba por instalar estos requisitos y trastear un poco con ellos cuando salió este artículo
Al probarlo, es interesante lo simple que es y lo bien que funciona
Pero parece un problema que el instalador nuevamente no tenga opción para elegir la ubicación de destino. Si hay varios usuarios en el servidor, cada uno termina con su propia copia en vez de una instalación global
Estoy corriendo Ollama con la idea de crear un flujo de revisión de gramática/ortografía para escribir
No está directamente relacionado con Ollama en sí, y hasta ahora Ollama funciona bien
¿Habrá algún lugar donde hacer preguntas de este tipo? Me pregunto si existe algo como un Stack Overflow para LLM
Instalé y ejecuté el modelo llama2 en una Mac Mini nueva, y me dio un kernel panic completo. ¿Qué fue eso?
¿Qué versión de llama2 elegiste y cuánta memoria unificada tienes?