2 puntos por GN⁺ 2023-12-09 | 1 comentarios | Compartir por WhatsApp

1 comentarios

 
GN⁺ 2023-12-09
Opiniones en Hacker News
  • En otras noticias sobre LLM, modelos fine-tuned de Mistral/Yi entrenados con una nueva técnica aún no documentada llamada neural alignment están superando por mucho a otros modelos en el leaderboard de Hugging Face
    El 7B está “venciendo” a la mayoría de los modelos 70B, y el 34B en pruebas también se ve muy bueno
    https://huggingface.co/fblgit/una-xaberius-34b-v1beta
    https://huggingface.co/fblgit/una-cybertron-7b-v2-bf16
    En teoría, esta técnica también podría aplicarse a Mistral MoE, así que si se obtiene el mismo salto que con el Mistral 7B normal y Mistral MoE en sí también es bueno, el resultado podría ser un modelo bastante intimidante
    Quizá sea el punto de inflexión en el que los modelos open source que pueden ejecutarse en una desktop realmente empiezan a pisarle los talones a GPT-4

    • Probé la versión 7B y definitivamente se siente distinta de las que había probado antes
      Pudo explicar un archivo Docker Compose y también generar un componente sencillo de una aplicación Vue
      Cuando le pregunté un poco más sobre el ejemplo, se mantuvo de una forma sorprendentemente coherente y enfocada durante toda la conversación, y aun sin borrar el contexto distinguía bien si estaba cambiando a un tema nuevo o haciendo referencia a lo anterior
      En particular, cuando pregunté “What does following mean [contenido de docker compose]”, cybertron-7b respondió citando literalmente mi formulación, algo como “en la configuración YAML proporcionada, ‘following’ significa especificación de dependencias”; es la primera vez que veo un modelo que cite con tanta precisión una expresión de la conversación
    • Me dio curiosidad, así que para la variante más pequeña hice un ollama modelfile usando la versión GGUF de TheBloke[1], y para ser un modelo tan pequeño de verdad conserva bastante esa sensación tipo GPT-4
      Se siente más coherente que openhermes2.5-mistral, que era el LLM local que usaba principalmente antes
      Si tienes ollama instalado, puedes probarlo con ollama run nollama/una-cybertron-7b-v2
      [1]: https://huggingface.co/TheBloke/una-cybertron-7B-v2-GGUF
    • Así es. UNA parece poder alinear MoE en múltiples capas, expertos y casi cualquier parte de una red neuronal
      Xaberius 34B v1 “BETA” es el rey, pero literalmente todavía es solo una beta
      Ahora me voy a enfocar en Mixtral, y al ser tan modular se siente como un regalo de Navidad. Gracias a @mistral por abrir el laboratorio
    • ¿No será que los benchmarks de LLM, en el mejor de los casos, ya no tienen sentido, y en el peor se acercan a una mentira?
    • Correcto. A Mistral no parece importarle mucho debilitar sus modelos casi como si los castrara con “entrenamiento de seguridad”
      Por eso puede tener mucho mejor rendimiento por parámetro que Anthropic/Google/OpenAI y, aun así, ser más controlable
  • Interpretación de Andrej Karpathy:
    Nuevo LLM de pesos abiertos de @MistralAI
    Según params.json: hidden_dim / dim = 14336/4096 => 3.5X MLP 확장, n_heads / n_kv_heads = 32/8 => 4X multiquery, "moe" => mezcla de expertos 8X top 2
    Código que parece relacionado:
    https://github.com/mistralai/megablocks-public
    Curiosamente, no hay un video de lanzamiento profesional y demasiado ensayado hablando de “la revolución de la IA”
    Si te preguntas por qué hay tanta actividad de IA en estos días, es porque NeurIPS, la conferencia de deep learning más grande, es la próxima semana
    https://twitter.com/karpathy/status/1733181701361451130

    • Si NeurIPS es la próxima semana, ¿podemos esperar grandes anuncios de varias empresas, como nuevas arquitecturas o modelos? No estoy familiarizado con la cultura de las conferencias de investigación y me da curiosidad
    • hidden_dim / dim = 14336/4096 => 3.5X MLP 확장 y n_heads / n_kv_heads = 32/8 => 4X son ambos exactamente iguales que en el Mistral-7B existente
    • EMNLP 2023 también se está celebrando ahora, por eso se están acumulando los anuncios
  • Mistral no parece esforzarse mucho en explicarlo, pero este enfoque inspira mucha más confianza en el producto que el anuncio de Gemini pulido, corporativo y sin alma de Google

    • Mejor publicar los pesos que documentación
      Me recuerda a cuando un empleado de Google presumía que habían publicado los pesos de Gemini, y además solo los del Gemini móvil pequeño, como si fuera una medida más generosa que la de otras empresas
  • ¿Hace falta un anuncio grandilocuente? Basta hacerlo al estilo de los 90: https://twitter.com/erhartford/status/1733159666417545641/ph...

    • Parece un enfoque mucho más audaz y seguro que publicar una página o video de marketing claramente manipulado e irrealista
  • Parece ser una mezcla de expertos (MoE), y params.json es el siguiente
    { "dim": 4096, "n_layers": 32, "head_dim": 128, "hidden_dim": 14336, "n_heads": 32, "n_kv_heads": 8, "norm_eps": 1e-05, "vocab_size": 32000, "moe": { "num_experts_per_tok": 2, "num_experts": 8 } }

    • En este contexto, ¿qué significa exactamente experto?
    • No veo código ahí; ¿qué runtime puede cargar estos pesos?
  • Aunque no son empresas exactamente con objetivos similares, es bastante gracioso contrastar este lanzamiento de modelo con el anuncio de Gemini de Google de hace dos días

  • Contrasta claramente con el enfoque de Google de principios de esta semana: “solo demos, sin modelo”
    Parece haber sido entrenado con Megablocks de Stanford: https://github.com/mistralai/megablocks-public

  • Puede ser polémico, pero creo que Mistral 7B es el verdadero estado del arte en LLM
    ChatGPT 4 es increíble, sí, y estoy suscrito desde el primer día, pero corre en una enorme granja de servidores lejana y es casi una caja negra
    Mistral es pequeño, sorprendentemente consistente y útil para su tamaño tanto en preguntas generales como en código, no tiene censura, y es un salto que cuesta creer que fuera posible en solo un año
    Puede correr en una MacBook Air a 12 tok/s, y tengo ganas de probarlo en una desktop

    • Dentro de lo que puede ejecutarse en una MacBook Air es estado del arte, pero no lo es para todos los LLM ni para todo el open source
      Yi 34B y Llama2 70B todavía son mejores
    • Si el 50% de la información que se consume en internet se creó en las últimas 24 horas, los modelos pequeños podrían tener una ventaja bastante grande sobre los modelos grandes
      Si se pudiera seguir reentrenando o haciendo fine-tuning de un LLM o SmallLM cada semana o cada día para reflejar la información más reciente, a un modelo viejo entrenado hace 1 o 2 años le costaría seguir el ritmo
      No sé cómo esté la licencia, pero OpenAI podría meter un modelo pequeño como Mistral7B en el stack de GPT, reentrenarlo desde cero cada semana y cobrar lo mismo que por GPT-4
      Aunque su rendimiento sea más débil, seguramente habrá usuarios que prefieran un modelo con información más actualizada
    • De acuerdo. Mistral 7B es realmente sorprendentemente bueno
      Modelos con fine-tuning como la versión de Intel o Berkeley Starling, aunque apenas son 7B, se sienten bastante cerca de gpt3.5T
      Tenía muchas ganas de ver Mistral 13B, pero no sé si este MoE podrá correr en una 3090 de 24 GB
      Espero que se vuelva ejecutable con cuantización, offloading y técnicas que vengan más adelante
    • 12 tok/s en una MacBook Air suena un poco bajo
      ¿Estás usando aceleración de GPU con Metal en llama.cpp? No tengo una MacBook, pero viendo los benchmarks de llama.cpp parecía que con aceleración por GPU se podía llegar casi a 30 tok/s
    • Totalmente. Al menos se siente a la par de llama2 13b
      Si existiera mistral 70b y superara a llama2 70b por el mismo margen de mejora que mostró frente a llama2 en el tamaño 7b, sin duda estaría a un nivel similar a gpt3.5
  • Ya hay una versión de Hugging Face que funciona de forma experimental: https://huggingface.co/DiscoResearch/mixtral-7b-8expert

  • Google hizo una demo falsa; Mistral lo resolvió con un solo enlace magnet