Google Bard sube al 2.º lugar en el leaderboard de rendimiento de LLM, justo debajo de GPT-4 Turbo
(twitter.com/JeffDean)- Google Bard (Gemini Pro) dio un salto hasta el 2.º lugar (1215), justo debajo de GPT-4 Turbo (Arena ELO 1249), superando a GPT-4-0314/0613 y otros
- Además, la tasa de alucinación en el leaderboard de HHEM también bajó de 12% a 4.9%. (GPT-4/4 Turbo está en 3.0%, GPT 3.5 Turbo en 3.5%)
- Realmente entusiasma ver cómo se lanzarán Bard + Gemini Ultra
1 comentarios
Opiniones de Hacker News
Limitaciones de rendimiento de Google Bard: Un usuario sospechaba desde hace tiempo que el rendimiento de Google Bard estaba limitado por costos. Google ofrece Bard gratis, y probablemente no quería operar para siempre un modelo enorme sin costo para todos los usuarios. Puede que haya habido innovaciones en el costo de inferencia, o que hayan decidido asumir temporalmente el gasto por cansancio de las críticas de que se estaban quedando atrás frente a la competencia. El usuario cree que Google debería lanzar un servicio de suscripción para que se pueda ver públicamente su mejor modelo en funcionamiento.
Decepción inicial con Bard y su mejora: Bard fue decepcionante cuando salió, pero da gusto ver que está mejorando. En la experiencia personal de un usuario, usa más Claude 2 que GPT 4/Turbo, y prefiere su estilo de respuesta y la manera en que responde preguntas. También vale la pena notar que Kagi evalúa a Claude 1 al nivel de GPT 4 (no Turbo), y considera que la calidad de Claude 2 está al nivel de 4 Turbo.
Cantidad de votos del modelo Bard: El modelo Bard tiene relativamente pocos votos. Esperará hasta que tenga una cantidad de votos similar a la de los otros modelos.
Menor nivel de restricciones en Bard: Bard tiene muchas menos restricciones que GPT-4, y solo por eso ya se siente mucho mejor que GPT-4.
Utilidad de Bard entre los LLM gratuitos: Entre todos los LLM gratuitos, Bard parece ser el más útil. ChatGPT 3.5 ni se compara y además es flojo.
Dudas sobre el método de benchmark: Hay curiosidad sobre cómo se hacen los benchmarks. Se sospecha que podrían mejorarse para representar mejor las expectativas de los usuarios o la usabilidad real.
Desajuste con la experiencia personal: En su experiencia personal, siempre termina volviendo a GPT cuando necesita una respuesta. En la mayoría de los casos prefiere ChatGPT 3.5 antes que Google Bard, y siente que GPT 4 es claramente mejor que Bard.
Comparación entre Bard y ChatGPT: Personalmente, piensa que Bard es mucho mejor que ChatGPT. Le gustaría usar Mistral sin censura.
Capacidad de respuesta de Bard y aumento de censura: Antes respondía bien a las solicitudes y no se negaba. Parece que le añadieron una capa de censura. Siente nostalgia por el Bard de antes.