Lemonade by AMD: servidor local de LLM open source y rápido con GPU y NPU
(lemonade-server.ai)- Servidor local de IA con soporte de AMD, una plataforma open source que usa GPU y NPU para procesar texto, imágenes y voz con rapidez
- Pone énfasis en la ejecución local y la protección de la privacidad, y es compatible con el estándar de la API de OpenAI, por lo que puede integrarse de inmediato con distintas apps
- Ofrece un entorno práctico de IA local con backend liviano basado en C++, configuración automática del hardware y ejecución simultánea de múltiples modelos
- Soporta Chat, Vision, Image Generation, Transcription y Speech Generation mediante una sola API unificada
- Proporciona el mismo entorno en Windows, Linux y macOS(beta), y su GUI integrada facilita la descarga y el cambio de modelos
Características clave
-
Diseño open source y centrado en lo local
- Fue desarrollado con la filosofía de que la IA local debe ser libre, abierta, rápida y privada
- Fue construido principalmente por la comunidad de IA local y puede ejecutarse en cualquier PC
- Da prioridad a la protección de la privacidad y a un entorno de ejecución independiente
-
Instalación rápida y estructura liviana
- One Minute Install configura automáticamente toda la pila
- El backend nativo en C++ es un servicio liviano de aproximadamente 2 MB
- La función de configuración automática del hardware prepara automáticamente los entornos de GPU y NPU
-
Amplia compatibilidad
- Gracias a la compatibilidad con la API de OpenAI, puede integrarse de inmediato con cientos de apps
- Soporta varios motores de inferencia como llama.cpp, Ryzen AI SW y FastFlowLM
- Permite la ejecución simultánea de múltiples modelos, para correr varios modelos en paralelo
-
API unificada
- Un solo servicio local permite usar Chat, Vision, Image Generation, Transcription y Speech Generation
- Se ofrece en forma de API REST estándar y, por ejemplo, permite invocar modelos conversacionales mediante el endpoint
POST /api/v1/chat/completions - En la solicitud de ejemplo se usa
"model": "Qwen3-0.6B-GGUF"para consultar la población de París
-
Interfaz de usuario y ecosistema
- La app GUI integrada permite descargar, probar y cambiar modelos rápidamente
- Al basarse en el estándar de la API de OpenAI, es compatible de inmediato con distintas apps
- La participación de la comunidad impulsa mejoras continuas y la expansión de funciones
Especificaciones técnicas y ejemplos de uso
-
Hardware y rendimiento
- En entornos con 128 GB de RAM unificada es posible ejecutar modelos grandes como gpt-oss-120b y Qwen-Coder-Next
- Con la opción
--no-mmapes posible reducir el tiempo de carga y ampliar el tamaño del contexto (64 o más)
-
Funciones de imagen y voz
- Ejemplo de generación de imagen: “un pitcher de limonada con estilo renacentista”
- Ejemplo de voz: “Hello, I am your AI assistant. What can I do for you today?”
Última versión
- Lemonade sigue mejorando continuamente, y ofrece nuevas funciones y mejoras de rendimiento a través de su flujo de lanzamientos
- En el sitio oficial pueden consultarse las novedades y aspectos destacados más recientes
1 comentarios
Comentarios en Hacker News
Llevo casi un año usando Lemonade. En Strix Halo uso solo esto, sin otras herramientas. AMD Strix Halo Toolboxes de kyuz0 también está bien, pero Lemonade permite TTS, STT, generación de texto e imágenes, e incluso edición de imágenes. Soporta varios backends como ROCm, Vulkan, CPU, GPU y NPU, y el ritmo de desarrollo es práctico y rápido. Si tienes hardware de AMD, lo recomiendo mucho.
Gracias a sus endpoints compatibles con OpenAI y Ollama, también se puede usar de inmediato en VSCode Copilot o en Open Web UI
Llevo meses ejecutando LLM locales en una 7900 XTX, y la experiencia con ROCm ha sido bastante ruda. Que AMD publique un servidor oficial de inferencia y resuelva problemas de drivers y dependencias es un gran avance. Aun así, me pregunto si el soporte de NPU realmente ofrece un rendimiento significativo. En mis pruebas fue un cuello de botella salvo con modelos pequeños
Me pregunto si el nombre “Lemonade” significa algo así como aprovechar al máximo el limón
Lemonade se siente como algo a medio camino entre Ollama y LM Studio. Es interesante que no se enfoque solo en servir modelos, sino en un runtime integrado. La clave parece ser la orquestación de varias modalidades a la vez, como texto, imagen y audio. Me pregunto si en la práctica es una abstracción o simplemente un conjunto de varias herramientas. También dudo si la optimización para AMD/NPU podría terminar reduciendo la portabilidad
Yo lo ejecuto en un NAS junto con Home Assistant. Además de Strix Halo, también administro aparte un servidor con tarjetas CUDA
Es una lástima que los modelos y kernels de NPU que usa Lemonade sean privativos. Ojalá aumente el soporte abierto
La verdadera fortaleza de Lemonade es la integración multimodal. Puede manejar desde un solo servidor y con endpoints compatibles con OpenAI tres servicios que normalmente requieren APIs y administración de modelos distintas: generación de texto, generación de imágenes y reconocimiento de voz. Al hacer prototipos, la mejora de calidad es grande.
La NPU puede ser útil para modelos pequeños siempre activos o para offloading de prefill, pero para chatbots generales hay algo de sobrevaloración.
Si AMD logra que la planificación GPU+NPU sea transparente y que los desarrolladores no tengan que preocuparse por el hardware, tiene muchas posibilidades de volverse la opción por defecto
Estoy ejecutando Lemonade en Strix Halo. Incluye varios backends, como diffusion y llama, pero yo solo uso el build ROCm de llama.cpp (enlace). No uso imágenes ni audio. Con GPT OSS 120B obtengo alrededor de 50 tokens por segundo. La NPU está pensada para modelos siempre activos de bajo consumo, así que no aporta mucho en chatbots generales
Leí el sitio web y el anuncio, pero sigo confundido sobre qué es exactamente Lemonade. Me pregunto si es un reemplazo de LM Studio y si soporta MLX o Metal en Mac. Si está centrado en optimización para AMD, quiero saber si en otras GPU queda en desventaja
Me sorprendió que la guía de instalación del servidor para Linux no tenga opción de Docker/Podman. Solo aparecen Snap/PPA y RPM. Quizá significa que quienes usan contenedores deben compilarlo por su cuenta
Me pregunto si alguien lo ha comparado con Ollama. Yo uso Ollama sin problemas con una 9070 XT y ROCm 7.4