11 puntos por GN⁺ 27 일 전 | 1 comentarios | Compartir por WhatsApp
  • Servidor local de IA con soporte de AMD, una plataforma open source que usa GPU y NPU para procesar texto, imágenes y voz con rapidez
  • Pone énfasis en la ejecución local y la protección de la privacidad, y es compatible con el estándar de la API de OpenAI, por lo que puede integrarse de inmediato con distintas apps
  • Ofrece un entorno práctico de IA local con backend liviano basado en C++, configuración automática del hardware y ejecución simultánea de múltiples modelos
  • Soporta Chat, Vision, Image Generation, Transcription y Speech Generation mediante una sola API unificada
  • Proporciona el mismo entorno en Windows, Linux y macOS(beta), y su GUI integrada facilita la descarga y el cambio de modelos

Características clave

  • Diseño open source y centrado en lo local

    • Fue desarrollado con la filosofía de que la IA local debe ser libre, abierta, rápida y privada
    • Fue construido principalmente por la comunidad de IA local y puede ejecutarse en cualquier PC
    • Da prioridad a la protección de la privacidad y a un entorno de ejecución independiente
  • Instalación rápida y estructura liviana

    • One Minute Install configura automáticamente toda la pila
    • El backend nativo en C++ es un servicio liviano de aproximadamente 2 MB
    • La función de configuración automática del hardware prepara automáticamente los entornos de GPU y NPU
  • Amplia compatibilidad

    • Gracias a la compatibilidad con la API de OpenAI, puede integrarse de inmediato con cientos de apps
    • Soporta varios motores de inferencia como llama.cpp, Ryzen AI SW y FastFlowLM
    • Permite la ejecución simultánea de múltiples modelos, para correr varios modelos en paralelo
  • API unificada

    • Un solo servicio local permite usar Chat, Vision, Image Generation, Transcription y Speech Generation
    • Se ofrece en forma de API REST estándar y, por ejemplo, permite invocar modelos conversacionales mediante el endpoint POST /api/v1/chat/completions
    • En la solicitud de ejemplo se usa "model": "Qwen3-0.6B-GGUF" para consultar la población de París
  • Interfaz de usuario y ecosistema

    • La app GUI integrada permite descargar, probar y cambiar modelos rápidamente
    • Al basarse en el estándar de la API de OpenAI, es compatible de inmediato con distintas apps
    • La participación de la comunidad impulsa mejoras continuas y la expansión de funciones

Especificaciones técnicas y ejemplos de uso

  • Hardware y rendimiento

    • En entornos con 128 GB de RAM unificada es posible ejecutar modelos grandes como gpt-oss-120b y Qwen-Coder-Next
    • Con la opción --no-mmap es posible reducir el tiempo de carga y ampliar el tamaño del contexto (64 o más)
  • Funciones de imagen y voz

    • Ejemplo de generación de imagen: “un pitcher de limonada con estilo renacentista”
    • Ejemplo de voz: “Hello, I am your AI assistant. What can I do for you today?”

Última versión

  • Lemonade sigue mejorando continuamente, y ofrece nuevas funciones y mejoras de rendimiento a través de su flujo de lanzamientos
  • En el sitio oficial pueden consultarse las novedades y aspectos destacados más recientes

1 comentarios

 
GN⁺ 27 일 전
Comentarios en Hacker News
  • Llevo casi un año usando Lemonade. En Strix Halo uso solo esto, sin otras herramientas. AMD Strix Halo Toolboxes de kyuz0 también está bien, pero Lemonade permite TTS, STT, generación de texto e imágenes, e incluso edición de imágenes. Soporta varios backends como ROCm, Vulkan, CPU, GPU y NPU, y el ritmo de desarrollo es práctico y rápido. Si tienes hardware de AMD, lo recomiendo mucho.
    Gracias a sus endpoints compatibles con OpenAI y Ollama, también se puede usar de inmediato en VSCode Copilot o en Open Web UI

    • Me pregunto qué tanta mejora de velocidad habrá al correr el modelo Qwen3.5-122B con Lemonade en Strix Halo, comparado con llama.cpp basado en Vulkan
    • También me pregunto si alguien lo ha usado con agents o Claw, y qué modelo ejecutó
  • Llevo meses ejecutando LLM locales en una 7900 XTX, y la experiencia con ROCm ha sido bastante ruda. Que AMD publique un servidor oficial de inferencia y resuelva problemas de drivers y dependencias es un gran avance. Aun así, me pregunto si el soporte de NPU realmente ofrece un rendimiento significativo. En mis pruebas fue un cuello de botella salvo con modelos pequeños

    • Me da curiosidad qué fue lo que resultó tan difícil. Yo ejecuto modelos locales con Ollama en una RX 7900 XTX y casi no he tenido problemas con ROCm. Solo me pesa el límite de 24 GB de VRAM. Estoy pensando en cambiarme a una Radeon Pro para tener más VRAM
    • En kernel 7.0.0, el rendimiento de Vulkan fue mucho mejor que ROCm, con una mejora de velocidad de más de 20%
    • La NPU sirve para eficiencia energética cuando usas batería. No reemplaza a la GPU
  • Me pregunto si el nombre “Lemonade” significa algo así como aprovechar al máximo el limón

    • Como la pronunciación de “L-L-M” se parece a “lemon”, parece un juego de palabras de LLM-aid → lemonade
    • Si la vida sigue dándote limones, mejor hacer limones explosivos
    • Yo uso solo hardware AMD para inferencia local. Entre drivers abiertos, eficiencia energética y precio, creo que para el consumidor es mejor que Nvidia
    • Dicen que descartaron el nombre “Lemonsqueeze” por ser demasiado violento
  • Lemonade se siente como algo a medio camino entre Ollama y LM Studio. Es interesante que no se enfoque solo en servir modelos, sino en un runtime integrado. La clave parece ser la orquestación de varias modalidades a la vez, como texto, imagen y audio. Me pregunto si en la práctica es una abstracción o simplemente un conjunto de varias herramientas. También dudo si la optimización para AMD/NPU podría terminar reduciendo la portabilidad

    • Hace bundling de varias herramientas y funciones de selección y administración de modelos. Se puede instalar con backend de CPU o Vulkan, pero básicamente solo soporta builds de ROCm y AMD NPU. Para correrlo con CUDA hay que sobreescribir la versión de llama.cpp, así que administrarlo es incómodo. Si quieres ejecutar modelos locales de forma simple en una máquina AMD, esta es la manera más fácil.
      Yo lo ejecuto en un NAS junto con Home Assistant. Además de Strix Halo, también administro aparte un servidor con tarjetas CUDA
  • Es una lástima que los modelos y kernels de NPU que usa Lemonade sean privativos. Ojalá aumente el soporte abierto

    • En la documentación dice: “Se pueden registrar modelos de Hugging Face en Lemonade Server”
    • Compré el equipo sabiendo que quizá no podría usar la NPU, pero aun así escuchar esto me molesta
  • La verdadera fortaleza de Lemonade es la integración multimodal. Puede manejar desde un solo servidor y con endpoints compatibles con OpenAI tres servicios que normalmente requieren APIs y administración de modelos distintas: generación de texto, generación de imágenes y reconocimiento de voz. Al hacer prototipos, la mejora de calidad es grande.
    La NPU puede ser útil para modelos pequeños siempre activos o para offloading de prefill, pero para chatbots generales hay algo de sobrevaloración.
    Si AMD logra que la planificación GPU+NPU sea transparente y que los desarrolladores no tengan que preocuparse por el hardware, tiene muchas posibilidades de volverse la opción por defecto

  • Estoy ejecutando Lemonade en Strix Halo. Incluye varios backends, como diffusion y llama, pero yo solo uso el build ROCm de llama.cpp (enlace). No uso imágenes ni audio. Con GPT OSS 120B obtengo alrededor de 50 tokens por segundo. La NPU está pensada para modelos siempre activos de bajo consumo, así que no aporta mucho en chatbots generales

    • Incluso una NPU pequeña puede descargar parte del cálculo de prefill. Pero en la etapa de decoding depende del ancho de banda de memoria y de si soporta operaciones internas. Por ejemplo, Apple Neural Engine solo soporta operaciones INT8/FP16, así que no ayuda tanto
  • Leí el sitio web y el anuncio, pero sigo confundido sobre qué es exactamente Lemonade. Me pregunto si es un reemplazo de LM Studio y si soporta MLX o Metal en Mac. Si está centrado en optimización para AMD, quiero saber si en otras GPU queda en desventaja

    • Según el roadmap de GitHub, la beta para macOS ya está lista y el soporte para MLX está en desarrollo
    • Es una solución integral para instalar y mantener fácilmente un stack de IA local. Ofrece STT, TTS, generación de imágenes y endpoints de LLM de una sola vez, y también tiene su propia WebUI. Además soporta endpoints compatibles con OpenAI, Ollama y Anthropic
    • Como LM Studio, abstrae varios runtimes, pero mediante el runtime FastFlowML de AMD puede aprovechar en Linux la NPU del CPU Ryzen AI
    • LM Studio deja la ejecución real del LLM a otro software, y si ese software no soporta la NPU, el rendimiento baja. Lemonade parece cumplir ese papel de backend
  • Me sorprendió que la guía de instalación del servidor para Linux no tenga opción de Docker/Podman. Solo aparecen Snap/PPA y RPM. Quizá significa que quienes usan contenedores deben compilarlo por su cuenta

  • Me pregunto si alguien lo ha comparado con Ollama. Yo uso Ollama sin problemas con una 9070 XT y ROCm 7.4

    • Lemonade soporta varias APIs y builds dedicados para GPU y NPU de AMD. Lo opera AMD directamente. Internamente ambos se basan en llama.cpp, pero Lemonade tiene builds optimizados por GPU
    • Cuando lo probé en una MacBook M1 Max (64 GB RAM) con el modelo qwen3.59b, Ollama tardó 1:44 y Lemonade 1:14, así que Lemonade fue más rápido
    • A mí también me da curiosidad la comparación con vLLM
    • Actualmente uso Ollama, pero me pregunto cuál es la diferencia de rendimiento con Lemonade
    • También quiero saber si es mejor que Vulkan