Yi - LLM bilingüe open source de próxima generación

xguru · 2024-03-12T10:03:02+09:00

Modelo de lenguaje grande open source de próxima generación, entrenado desde cero por desarrolladores Fue entrenado como un modelo bilingüe sobre un corpus multilingüe de 3T, mostrando un rendimiento sólido en comprensión del lenguaje, razonamiento de sentido común y comprensión lectora Está basado en modelos de lenguaje preentrenados de 6B y 34B, y se expande a modelos de chatbot, modelos de contexto largo de 200K, modelos de escalado profundo y modelos visión-lenguaje El modelo Yi-34B-Chat Ocupó el segundo lugar en el leaderboard de AlpacaEval, detrás de GPT-4 Turbo, superando a otros LLM Supera a los modelos open source existentes tanto en inglés como en chino, y ocupa el primer lugar en diversos benchmarks Aunque adopta la misma arquitectura de modelo que Llama, no es un modelo derivado de Llama. No usa los pesos de Llama Está disponible en varios tamaños y los modelos pueden ajustarse finamente según requisitos específicos Modelos de chat Yi-34B-Chat, Yi-34B-Chat-4bits, Yi-34B-Chat-8bits Yi-6B-Chat, Yi-6B-Chat-4bits, Yi-6B-Chat-8bits Modelos base Yi-34B, Yi-34B-200K Yi-9B Yi-6B, Yi-6B-200K

(github.com/01-ai)

9 puntos por xguru 2024-03-12 | 1 comentarios | Compartir por WhatsApp

Modelo de lenguaje grande open source de próxima generación, entrenado desde cero por desarrolladores
Fue entrenado como un modelo bilingüe sobre un corpus multilingüe de 3T, mostrando un rendimiento sólido en comprensión del lenguaje, razonamiento de sentido común y comprensión lectora
Está basado en modelos de lenguaje preentrenados de 6B y 34B, y se expande a modelos de chatbot, modelos de contexto largo de 200K, modelos de escalado profundo y modelos visión-lenguaje
El modelo Yi-34B-Chat
- Ocupó el segundo lugar en el leaderboard de AlpacaEval, detrás de GPT-4 Turbo, superando a otros LLM
- Supera a los modelos open source existentes tanto en inglés como en chino, y ocupa el primer lugar en diversos benchmarks
Aunque adopta la misma arquitectura de modelo que Llama, no es un modelo derivado de Llama. No usa los pesos de Llama
Está disponible en varios tamaños y los modelos pueden ajustarse finamente según requisitos específicos
- Modelos de chat
  - Yi-34B-Chat, Yi-34B-Chat-4bits, Yi-34B-Chat-8bits
  - Yi-6B-Chat, Yi-6B-Chat-4bits, Yi-6B-Chat-8bits
- Modelos base
  - Yi-34B, Yi-34B-200K
  - Yi-9B
  - Yi-6B, Yi-6B-200K

1 comentarios

xguru 2024-03-12

Opiniones de Hacker News

El modelo Yi-34B-Chat quedó en segundo lugar en la tabla de AlpacaEval, detrás de GPT-4 Turbo, superando a otros LLM como GPT-4, Mixtral y Claude.
El modelo Yi-34B ocupa el primer lugar entre los modelos de código abierto en los benchmarks de inglés y chino. Esto se basa en Hugging Face Open LLM Leaderboard (modelos preentrenados) y C-Eval.
El código fuente del repositorio sigue la licencia Apache 2.0, pero los pesos no.
El modelo Yi falla con ciertos prompts de prueba. Se intentó varias veces, pero Yi eligió como ganador una respuesta distinta en cada ocasión.
El nombre "01.ai" sugiere que no es precisamente un buen augurio, ya que es el mismo nombre del primer estado de IA que libró una guerra contra la humanidad y esclavizó a los humanos en la película 'Matrix'.
El rendimiento del modelo Yi se atribuye a la calidad de los datos, resultado del trabajo de ingeniería de datos.
El modelo Yi 34B Chat no obtiene buenos resultados en el benchmark NYT Connections y ocupa el puesto 22 en la tabla basada en Elo de LMSYS. En chino muestra un mejor rendimiento.
Ver cómo mejora el rendimiento de estos modelos da esperanza de que, en 2 o 3 años, los LLM orientados primero a móviles mejoren la conversión de texto a voz y la predicción de escritura, además de reducir mucho el consumo de batería.
También existe un modelo nuevo llamado Yi-9B.

Yi - LLM bilingüe open source de próxima generación

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News