1 puntos por GN⁺ 2023-08-07 | 1 comentarios | Compartir por WhatsApp
  • MK-1 es una nueva empresa que busca ofrecer modelos de IA con capacidades iguales o superiores a las de potencias élite de la IA como OpenAI, Anthropic y Google.
  • El primer producto de la empresa, MKML, es un runtime de inferencia que puede reducir a la mitad el costo de inferencia de modelos grandes de lenguaje (LLM) en GPU con solo unas cuantas líneas de código Python.
  • MKML es compatible con ecosistemas populares como Hugging Face y PyTorch.
  • MKML se encuentra actualmente en una etapa de beta cerrada y está buscando socios iniciales.
  • MKML puede ayudar a optimizar modelos de IA al reducir el uso de memoria y aumentar la velocidad. Por ejemplo, puede reducir el modelo Llama-2 13B de 26 GB a 10.5 GB y disminuir el tiempo de inferencia del forward pass hasta 2.3 veces.
  • MKML puede usarse para optimizar modelos de IA según el costo o la velocidad. En un escenario de optimización de costos, puede hacer que el modelo se ajuste a instancias de GPU más económicas y ejecutarse más rápido que el modelo base incluso en instancias más costosas. En un escenario de optimización de velocidad, MKML puede hacer que el modelo sea hasta 2.0 veces más rápido para atender a más usuarios.
  • MKML puede integrarse fácilmente en flujos de trabajo existentes. Esto incluye comprimir el modelo una vez usando uno de los códecs de modelo de MKML, guardar el modelo comprimido en disco y luego cargarlo para la inferencia.
  • MKML admite una amplia variedad de tamaños de modelo y configuraciones de sistema, y en pruebas de velocidad es consistentemente más rápido que la línea base.
  • MKML también mantiene una alta fidelidad respecto al modelo original, mostrando diferencias despreciables en mediciones estándar de perplejidad.
  • La visión de largo plazo de MK-1 es llevar el rendimiento de la IA al límite en todo el stack de inferencia. Tienen una hoja de ruta ambiciosa para desarrollos futuros.

1 comentarios

 
GN⁺ 2023-08-07
Opiniones de Hacker News
  • El artículo habla de la nueva tecnología MK-1, pero no compara los resultados con los métodos de cuantización existentes, lo que algunos lectores consideran una omisión importante.
  • Un lector aporta una gráfica comparativa de otras cuantizaciones disponibles para Llama 1, y sugiere que el rendimiento de MK-1 es similar a Q5_1, con una ligera reducción de complejidad y una mejora de velocidad de más del doble.
  • Algunos lectores expresan escepticismo sobre MK-1 y sugieren que podría ser un wrapper alrededor de tecnologías existentes como bitsandbytes o ggml.
  • Se plantean preocupaciones sobre el hecho de que MK-1 no sea de código abierto, y algunos lectores afirman que no lo usarían debido a la rapidez con la que avanza este campo y la falta de conveniencia.
  • Un lector comenta que participó en trabajo de cuantización de modelos de ML y sostiene que la cuantización open source de 4 bits u 8 bits no es lo mejor, insinuando técnicas más avanzadas.
  • Se pide una comparación entre MK-1 y mlc-llm con cuantización de 4 bits; se reporta que este último ejecuta Llama2 13B sorprendentemente rápido.
  • Algunos lectores expresan frustración por las dependencias propietarias en el stack tecnológico, y prefieren opciones de primer nivel como OpenAI y Anthropic, o bien crear sus propias soluciones.
  • La decisión de la empresa de optimizar modelos populares y venderlos con una licencia OSS real, sin preocuparse por restricciones de licencia sobre los pesos, parece ser un movimiento estratégico.
  • Algunos lectores califican a MK-1 como otra estafa de startup de IA, criticando que use GGML, sea cerrado y esté buscando dinero de VC.
  • La falta de código abierto y la naturaleza cerrada de MK-1 parecen ser desventajas importantes, y algunos lectores lo declaran "muerto en el agua".