Google Bard sube al 2.º lugar en el leaderboard de rendimiento de LLM, justo debajo de GPT-4 Turbo

xguru · 2024-01-28T09:41:59+09:00

Google Bard (Gemini Pro) dio un salto hasta el 2.º lugar (1215), justo debajo de GPT-4 Turbo (Arena ELO 1249), superando a GPT-4-0314/0613 y otros Además, la tasa de alucinación en el leaderboard de HHEM también bajó de 12% a 4.9%. (GPT-4/4 Turbo está en 3.0%, GPT 3.5 Turbo en 3.5%) Realmente entusiasma ver cómo se lanzarán Bard + Gemini Ultra

(twitter.com/JeffDean)

7 puntos por xguru 2024-01-28 | 1 comentarios | Compartir por WhatsApp

Google Bard (Gemini Pro) dio un salto hasta el 2.º lugar (1215), justo debajo de GPT-4 Turbo (Arena ELO 1249), superando a GPT-4-0314/0613 y otros
Además, la tasa de alucinación en el leaderboard de HHEM también bajó de 12% a 4.9%. (GPT-4/4 Turbo está en 3.0%, GPT 3.5 Turbo en 3.5%)
Realmente entusiasma ver cómo se lanzarán Bard + Gemini Ultra

1 comentarios

xguru 2024-01-28

Opiniones de Hacker News

Limitaciones de rendimiento de Google Bard: Un usuario sospechaba desde hace tiempo que el rendimiento de Google Bard estaba limitado por costos. Google ofrece Bard gratis, y probablemente no quería operar para siempre un modelo enorme sin costo para todos los usuarios. Puede que haya habido innovaciones en el costo de inferencia, o que hayan decidido asumir temporalmente el gasto por cansancio de las críticas de que se estaban quedando atrás frente a la competencia. El usuario cree que Google debería lanzar un servicio de suscripción para que se pueda ver públicamente su mejor modelo en funcionamiento.

Según un tuit de Jeff Dean, se lanzó un nuevo modelo llamado "Gemini Pro-scale model", y quedó en segundo lugar en el leaderboard independiente de lmsys. No está claro qué significa "Pro-scale" ni si todos los usuarios ya están usando ese modelo.
Decepción inicial con Bard y su mejora: Bard fue decepcionante cuando salió, pero da gusto ver que está mejorando. En la experiencia personal de un usuario, usa más Claude 2 que GPT 4/Turbo, y prefiere su estilo de respuesta y la manera en que responde preguntas. También vale la pena notar que Kagi evalúa a Claude 1 al nivel de GPT 4 (no Turbo), y considera que la calidad de Claude 2 está al nivel de 4 Turbo.
Cantidad de votos del modelo Bard: El modelo Bard tiene relativamente pocos votos. Esperará hasta que tenga una cantidad de votos similar a la de los otros modelos.
Menor nivel de restricciones en Bard: Bard tiene muchas menos restricciones que GPT-4, y solo por eso ya se siente mucho mejor que GPT-4.
Utilidad de Bard entre los LLM gratuitos: Entre todos los LLM gratuitos, Bard parece ser el más útil. ChatGPT 3.5 ni se compara y además es flojo.
Dudas sobre el método de benchmark: Hay curiosidad sobre cómo se hacen los benchmarks. Se sospecha que podrían mejorarse para representar mejor las expectativas de los usuarios o la usabilidad real.

Después de ver el tuit de Jeff Dean, probó Bard. Sigue siendo decepcionante frente a GPT-4. Se desvía de la pregunta sin darse cuenta.
Cuando le pidió crear una gráfica, respondió tres veces "aquí está la gráfica", pero no había ninguna gráfica; al final dijo que esa función no existía.
Desajuste con la experiencia personal: En su experiencia personal, siempre termina volviendo a GPT cuando necesita una respuesta. En la mayoría de los casos prefiere ChatGPT 3.5 antes que Google Bard, y siente que GPT 4 es claramente mejor que Bard.
Comparación entre Bard y ChatGPT: Personalmente, piensa que Bard es mucho mejor que ChatGPT. Le gustaría usar Mistral sin censura.
Capacidad de respuesta de Bard y aumento de censura: Antes respondía bien a las solicitudes y no se negaba. Parece que le añadieron una capa de censura. Siente nostalgia por el Bard de antes.

Google Bard sube al 2.º lugar en el leaderboard de rendimiento de LLM, justo debajo de GPT-4 Turbo

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News