Google LiteRT-LM - framework de inferencia LLM de alto rendimiento para dispositivos edge
(github.com/google-ai-edge)- Motor de inferencia LLM on-device de nivel de producción creado por Google, que permite ejecutar modelos de lenguaje grandes en entornos edge como Android, iOS, web, escritorio e IoT (Raspberry Pi)
- También se agregó compatibilidad con los más recientes modelos Gemma 4, y mediante aceleración por hardware GPU y NPU ofrece un rendimiento de inferencia optimizado incluso en dispositivos edge
- Con soporte multimodal, puede procesar entradas de visión (imágenes) y audio, y en la CLI también permite inferencia con imágenes adjuntas mediante la opción
--attachment - Incluye Function Calling (Tool Use) para flujos de trabajo agénticos
- Compatible con diversos modelos LLM como Gemma, Llama, Phi-4 y Qwen, y permite descargar modelos desde Hugging Face y ejecutar inferencia de inmediato con un comando CLI de una sola línea
uv tool install litert-lm→ empieza de inmediato conlitert-lm run
- Ya está implementado en productos de Google como Chrome, Chromebook Plus y Pixel Watch, donde ejecuta GenAI on-device
- Permite ejecutar modelos al instante en móviles mediante la app Google AI Edge Gallery (disponible en Google Play y App Store)
- APIs por lenguaje: soporte estable para Kotlin (Android/JVM), Python (prototipado) y C++ (nativo de alto rendimiento), con Swift (iOS/macOS) en desarrollo
- Estado de lanzamientos: la versión más reciente es v0.10.2; en v0.10.1 se introdujeron Gemma 4 y la CLI, en v0.8.0 GPU de escritorio y multimodal, y en v0.7.0 se agregó aceleración NPU
- Licencia Apache-2.0
2 comentarios
Quisiera hacerlo correr, pero no tengo memoria, buh.
¿Ahora sí funcionará bien? Antes, en Mac, el rendimiento era extrañamente malo...