- MK-1 es una nueva empresa que busca ofrecer modelos de IA con capacidades iguales o superiores a las de potencias élite de la IA como OpenAI, Anthropic y Google.
- El primer producto de la empresa, MKML, es un runtime de inferencia que puede reducir a la mitad el costo de inferencia de modelos grandes de lenguaje (LLM) en GPU con solo unas cuantas líneas de código Python.
- MKML es compatible con ecosistemas populares como Hugging Face y PyTorch.
- MKML se encuentra actualmente en una etapa de beta cerrada y está buscando socios iniciales.
- MKML puede ayudar a optimizar modelos de IA al reducir el uso de memoria y aumentar la velocidad. Por ejemplo, puede reducir el modelo Llama-2 13B de 26 GB a 10.5 GB y disminuir el tiempo de inferencia del forward pass hasta 2.3 veces.
- MKML puede usarse para optimizar modelos de IA según el costo o la velocidad. En un escenario de optimización de costos, puede hacer que el modelo se ajuste a instancias de GPU más económicas y ejecutarse más rápido que el modelo base incluso en instancias más costosas. En un escenario de optimización de velocidad, MKML puede hacer que el modelo sea hasta 2.0 veces más rápido para atender a más usuarios.
- MKML puede integrarse fácilmente en flujos de trabajo existentes. Esto incluye comprimir el modelo una vez usando uno de los códecs de modelo de MKML, guardar el modelo comprimido en disco y luego cargarlo para la inferencia.
- MKML admite una amplia variedad de tamaños de modelo y configuraciones de sistema, y en pruebas de velocidad es consistentemente más rápido que la línea base.
- MKML también mantiene una alta fidelidad respecto al modelo original, mostrando diferencias despreciables en mediciones estándar de perplejidad.
- La visión de largo plazo de MK-1 es llevar el rendimiento de la IA al límite en todo el stack de inferencia. Tienen una hoja de ruta ambiciosa para desarrollos futuros.
1 comentarios
Opiniones de Hacker News