Ollama v0.1.33 - Soporte para Llama 3 + Phi 3 + Qwen 110B

xguru · 2024-04-30T09:22:01+09:00

Soporte para nuevos modelos Llama 3: el nuevo modelo de Meta y, hasta ahora, el LLM abierto con mejor rendimiento Phi 3 Mini: el nuevo modelo abierto y ligero de Microsoft con 3.8 mil millones de parámetros Moondream: un modelo pequeño de visión-lenguaje diseñado para ejecutarse de forma eficiente en dispositivos edge Dolphin Llama 3: modelo sin censura entrenado por Eric Hartford basado en Llama 3. Incluye varias capacidades de educación, conversación y programación Qwen 110B: un modelo de tamaño 100B parámetros con rendimiento sobresaliente en evaluaciones (Alibaba) Corrección de errores Se corrigió un problema por el que la API se detenía porque el modelo no finalizaba Se corrigió un error de falta de memoria en Macs con Apple Silicon Se corrigió un error de falta de memoria al ejecutar modelos con arquitectura Mixtral Funciones experimentales de concurrencia OLLAMA_NUM_PARALLEL: procesa varias solicitudes al mismo tiempo para un solo modelo OLLAMA_MAX_LOADED_MODELS: carga varios modelos al mismo tiempo Requiere configurar variables de entorno OLLAMA_NUM_PARALLEL=4 OLLAMA_MAX_LOADED_MODELS=4 ollama serve

(github.com/ollama)

8 puntos por xguru 2024-04-30 | 1 comentarios | Compartir por WhatsApp

Soporte para nuevos modelos
- Llama 3: el nuevo modelo de Meta y, hasta ahora, el LLM abierto con mejor rendimiento
- Phi 3 Mini: el nuevo modelo abierto y ligero de Microsoft con 3.8 mil millones de parámetros
- Moondream: un modelo pequeño de visión-lenguaje diseñado para ejecutarse de forma eficiente en dispositivos edge
- Dolphin Llama 3: modelo sin censura entrenado por Eric Hartford basado en Llama 3. Incluye varias capacidades de educación, conversación y programación
- Qwen 110B: un modelo de tamaño 100B parámetros con rendimiento sobresaliente en evaluaciones (Alibaba)
Corrección de errores
- Se corrigió un problema por el que la API se detenía porque el modelo no finalizaba
- Se corrigió un error de falta de memoria en Macs con Apple Silicon
- Se corrigió un error de falta de memoria al ejecutar modelos con arquitectura Mixtral
Funciones experimentales de concurrencia
- OLLAMA_NUM_PARALLEL: procesa varias solicitudes al mismo tiempo para un solo modelo
- OLLAMA_MAX_LOADED_MODELS: carga varios modelos al mismo tiempo
- Requiere configurar variables de entorno
  - OLLAMA_NUM_PARALLEL=4 OLLAMA_MAX_LOADED_MODELS=4 ollama serve

1 comentarios

siabard 2024-04-30

Necesitaba usar varios modelos, y ahora ya es posible. ^^=b

Ollama v0.1.33 - Soporte para Llama 3 + Phi 3 + Qwen 110B

Lecturas relacionadas

1 comentarios