2 puntos por GN⁺ 2023-12-09 | 1 comentarios | Compartir por WhatsApp

1 comentarios

 
GN⁺ 2023-12-09
Opiniones de Hacker News
  • Opinión de Andrej Karpathy:

    • Introducción al nuevo LLM (Large Language Model) de código abierto de MistralAI
    • Configuraciones destacables en el archivo params.json:
      • hidden_dim / dim = 14336/4096 => expansión MLP de 3.5x
      • n_heads / n_kv_heads = 32/8 => 4x de multi-query
      • "moe" => 8x top-2 mixture of experts
    • El código relacionado se puede revisar en GitHub
    • No hay un video promocional exagerado sobre la revolución de la IA
    • Se está dando mucha actividad de IA porque se acerca NeurIPS, una gran conferencia de deep learning
  • Otras noticias de LLM:

    • Mistral/Yi está aplastando a otros modelos en el leaderboard de Hugging Face usando modelos ajustados finamente con una nueva técnica llamada "neural alignment"
    • El modelo 7B "vence" a la mayoría de los modelos 70B
    • El modelo 34B que están probando se ve muy bien
    • Si esta técnica se aplica a Mistral Moe, podría convertirse en un modelo sobresaliente
    • Podría ser un punto de inflexión importante en el que OSS que corre en escritorio desafíe a GPT-4
  • El enfoque de Mistral:

    • Mistral no se preocupa mucho por dar explicaciones, pero este estilo genera más confianza que los anuncios corporativos pulidos de Google
  • Forma de anuncio simple:

    • Se prefiere una presentación simple al estilo de los 90
  • Especificaciones del modelo de Mistral:

    • Publicación del archivo params.json con una estructura Mixture of Experts
  • Comparación entre la forma de anunciar de Mistral y Google:

    • La forma en que Mistral presentó su modelo contrasta con el anuncio de Gemini de Google
    • Parece que Mistral fue entrenado con base en Megablocks de Stanford
  • Estrategia de marketing de Mistral:

    • Mientras otras empresas se enfocan en landing pages y videos promocionales, Mistral simplemente publica el modelo
  • Información pública de Mistral:

    • Usa una arquitectura de mixture of experts
    • 8 expertos con 7B parámetros
    • 96GB de pesos en total, por lo que no puede ejecutarse en una GPU casera típica