9 puntos por xguru 2024-03-12 | 1 comentarios | Compartir por WhatsApp
  • Modelo de lenguaje grande open source de próxima generación, entrenado desde cero por desarrolladores
  • Fue entrenado como un modelo bilingüe sobre un corpus multilingüe de 3T, mostrando un rendimiento sólido en comprensión del lenguaje, razonamiento de sentido común y comprensión lectora
  • Está basado en modelos de lenguaje preentrenados de 6B y 34B, y se expande a modelos de chatbot, modelos de contexto largo de 200K, modelos de escalado profundo y modelos visión-lenguaje
  • El modelo Yi-34B-Chat
    • Ocupó el segundo lugar en el leaderboard de AlpacaEval, detrás de GPT-4 Turbo, superando a otros LLM
    • Supera a los modelos open source existentes tanto en inglés como en chino, y ocupa el primer lugar en diversos benchmarks
  • Aunque adopta la misma arquitectura de modelo que Llama, no es un modelo derivado de Llama. No usa los pesos de Llama
  • Está disponible en varios tamaños y los modelos pueden ajustarse finamente según requisitos específicos
    • Modelos de chat
      • Yi-34B-Chat, Yi-34B-Chat-4bits, Yi-34B-Chat-8bits
      • Yi-6B-Chat, Yi-6B-Chat-4bits, Yi-6B-Chat-8bits
    • Modelos base
      • Yi-34B, Yi-34B-200K
      • Yi-9B
      • Yi-6B, Yi-6B-200K

1 comentarios

 
xguru 2024-03-12

Opiniones de Hacker News

  • El modelo Yi-34B-Chat quedó en segundo lugar en la tabla de AlpacaEval, detrás de GPT-4 Turbo, superando a otros LLM como GPT-4, Mixtral y Claude.
  • El modelo Yi-34B ocupa el primer lugar entre los modelos de código abierto en los benchmarks de inglés y chino. Esto se basa en Hugging Face Open LLM Leaderboard (modelos preentrenados) y C-Eval.
  • El código fuente del repositorio sigue la licencia Apache 2.0, pero los pesos no.
  • El modelo Yi falla con ciertos prompts de prueba. Se intentó varias veces, pero Yi eligió como ganador una respuesta distinta en cada ocasión.
  • El nombre "01.ai" sugiere que no es precisamente un buen augurio, ya que es el mismo nombre del primer estado de IA que libró una guerra contra la humanidad y esclavizó a los humanos en la película 'Matrix'.
  • El rendimiento del modelo Yi se atribuye a la calidad de los datos, resultado del trabajo de ingeniería de datos.
  • El modelo Yi 34B Chat no obtiene buenos resultados en el benchmark NYT Connections y ocupa el puesto 22 en la tabla basada en Elo de LMSYS. En chino muestra un mejor rendimiento.
  • Ver cómo mejora el rendimiento de estos modelos da esperanza de que, en 2 o 3 años, los LLM orientados primero a móviles mejoren la conversión de texto a voz y la predicción de escritura, además de reducir mucho el consumo de batería.
  • También existe un modelo nuevo llamado Yi-9B.