1 puntos por GN⁺ 2024-04-12 | 1 comentarios | Compartir por WhatsApp

1 comentarios

 
GN⁺ 2024-04-12
Opiniones en Hacker News
  • Me pregunto cuál es la forma más fácil de correr este modelo cuando se tienen los pesos y el hardware
    Quisiera saber con qué herramienta habría que cargarlo, aunque se descargue la mitad del modelo a la RAM: si Ollama, Llama.cpp, o si basta con importarlo desde una biblioteca de Python
    También me pregunto cuál sería una buena forma de hacer benchmarks para compararlo con otro modelo, y si hay herramientas listas para usar
    • El enfoque de llamafile parece el mejor
      El binario funciona desde la línea de comandos o levanta un pequeño servidor web
      llamafile ofrece una build de Mixtral-8x7B-Instruct, así que este modelo probablemente también podría empaquetarse, y tal vez en un formato cuantizado
      Habría que confirmarlo con alguien que conozca mejor el ecosistema, pero parece que el nuevo modelo también podría ejecutarse tal cual con llamafile
      https://github.com/Mozilla-Ocho/llamafile
    • La forma más fácil es correrlo con vllm(https://github.com/vllm-project/vllm) en algo como dos A100, y los benchmarks se pueden hacer con lm-evaluation-harness(https://github.com/EleutherAI/lm-evaluation-harness)
    • Para probar LLMs en una MacBook, LM Studio es excelente: https://lmstudio.ai/
      Es muy fácil buscar modelos nuevos de Hugging Face dentro de la app y probarlos de inmediato
    • En Hugging Face hay un usuario llamado The Bloke, que sube modelos ya cuantizados poco después de que aparece el modelo de tamaño completo
      Solo hay que vigilar esa página y rezar para que el modelo de 4 bits entre en la GPU
      Me imagino que ya debe estar trabajando en eso
    • Se puede probar en Together aquí:
      https://api.together.xyz/playground/language/mistralai/Mixtral-8x22B
  • La publicación duplicada está aquí: https://news.ycombinator.com/item?id=39986047
    Es una publicación que trae el enlace al tuit en vez del perfil:
    https://twitter.com/MistralAI/status/1777869263778291896
  • 8x22B, vaya; si esto es tan bueno como Mixtral 8x7B, se vienen tiempos muy interesantes
    • Escuché que Command R fue el primer open source en superar a GPT-4 en benchmarks
    • Ya tenemos 8x7B, así que no habría razón para querer otro 8x7B; supongo que eso significa que es mejor, ¿no?
  • Un poco fuera de tema, pero me pregunto si ya volvimos al nivel de rendimiento de ChatGPT 4 de la época en que la gente decía que parecía magia
    Me refiero al estándar de antes de que su rendimiento cayera mucho al hacerlo más políticamente correcto
    • He probado varios LLMs en una MacBook y creo que todavía todos están bastante lejos de cualquier momento de GPT-4
      Eso sí, hay muchos modelos al nivel de GPT-3, y también bastantes modelos ajustados finamente para tareas específicas
      Lo que más falta en los modelos abiertos es soporte de idiomas
      Solo he visto un modelo que dé resultados aceptables en noruego, y con GPT-4 eso nunca fue un problema
    • Para estándares de modelos abiertos, creo que al menos ya se llegó al rendimiento del lanzamiento inicial de ChatGPT 4
  • ¿Es una carrera por sacar el mejor modelo pequeño de cada quien antes de que salga Llama 3?
    • 262GB no es precisamente pequeño
      Aun así, parece que todos los están sacando ahora porque, si después resultan peores que Llama 3, podría dar vergüenza publicarlos más tarde
    • Con los rumores de que Llama 3 saldrá en las próximas dos semanas, suena bastante plausible
  • Mixtral 8x7B fue agradable de usar, y tengo ganas de probar este modelo también
  • Hay benchmarks no oficiales aquí:
    https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1/discussions/4
    • Ojalá estuviera GPT-4 ahí
      Ese sigue siendo el modelo a superar
  • La cuantización a 4 bits probablemente requiera 85GB de VRAM, así que debería caber bien en 4 GPUs de consumo de 24GB, con algo de margen para optimizaciones de la caché KV
    • Si es de 4 bits, podría usar menos que eso
      Porque hay bastantes parámetros compartidos entre los modelos expertos
      Eso sí, si no se corre con tamaño de batch 1, podría ser más doloroso que una configuración de 8 GPUs
      Es casi seguro que en el batch se activen la mayoría o todos los expertos
    • La cuantización a 2 bits de Mixtral 8x7B era usable en una GPU de 8GB para algunos usos
      Me da curiosidad cómo funcionará este nuevo modelo en configuraciones de GPUs baratas de 8 a 16GB
  • Es muy importante notar que este es un modelo base, no un modelo instruct
    Lo útil para chat son los modelos con fine-tuning de instrucciones
    • Me da curiosidad cómo se siente usar directamente un modelo base potente
      ¿Simplemente completará el texto del prompt como si siguiera escribiendo?
  • Salió justo a tiempo para el lanzamiento de Llama 3
    • Ese mismo día Google Gemini Pro presentó un acceso multimodal abierto de contexto largo casi completo, y OpenAI también actualizó GPT-4-Turbo; fue un gran día con un montón de noticias