- Soporte para nuevos modelos
- Llama 3: el nuevo modelo de Meta y, hasta ahora, el LLM abierto con mejor rendimiento
- Phi 3 Mini: el nuevo modelo abierto y ligero de Microsoft con 3.8 mil millones de parámetros
- Moondream: un modelo pequeño de visión-lenguaje diseñado para ejecutarse de forma eficiente en dispositivos edge
- Dolphin Llama 3: modelo sin censura entrenado por Eric Hartford basado en Llama 3. Incluye varias capacidades de educación, conversación y programación
- Qwen 110B: un modelo de tamaño 100B parámetros con rendimiento sobresaliente en evaluaciones (Alibaba)
- Corrección de errores
- Se corrigió un problema por el que la API se detenía porque el modelo no finalizaba
- Se corrigió un error de falta de memoria en Macs con Apple Silicon
- Se corrigió un error de falta de memoria al ejecutar modelos con arquitectura Mixtral
- Funciones experimentales de concurrencia
OLLAMA_NUM_PARALLEL: procesa varias solicitudes al mismo tiempo para un solo modelo
OLLAMA_MAX_LOADED_MODELS: carga varios modelos al mismo tiempo
- Requiere configurar variables de entorno
OLLAMA_NUM_PARALLEL=4 OLLAMA_MAX_LOADED_MODELS=4 ollama serve
1 comentarios
Necesitaba usar varios modelos, y ahora ya es posible. ^^=b