Llama2 es tan preciso como GPT-4 para resumir y 30 veces más barato

xguru · 2023-08-30T11:08:02+09:00

Resumir (Summarizing) es una de las aplicaciones más prácticas de los LLM, pero es necesario poder confiar en que los resúmenes sean precisos Por temas de costo o acceso a datos, muchos quieren usar LLM de código abierto como Llama2, pero no hay suficiente confianza en su precisión Mediante experimentos, encontraron que Llama-2-70b tiene un nivel de fidelidad factual comparable al de gpt-4 y es muy superior a gpt-3.5-turbo Compararon Llama 2 7b/13b/70b y gpt-3.5/4 usando Anyscale Endpoint Etiquetaron 373 enunciados de noticias revisados por tres evaluadores, presentando para cada uno una opción correcta y una incorrecta Hicieron que cada LLM eligiera cuál afirmación era un resumen preciso basado en los hechos Dos problemas Los modelos pequeños no siguen bien las instrucciones. Los modelos grandes sí siguen mejor las indicaciones. Por eso tuvieron que usar otro LLM para interpretar la salida de los LLM pequeños Sesgo por orden. La elección cambiaba según qué opción se presentara primero. Por eso también verificaron invirtiendo el orden Resultados Humanos: 84% (según un estudio previo) gpt-3.5-turbo: 67.0% de respuestas correctas (el problema de sesgo por orden fue grave) gpt-4: 85.5% de respuestas correctas Llama-2-7b: problema de sesgo por orden extremadamente grave. Quedó por debajo de la precisión aleatoria Llama-2-13b: 58.9% de respuestas correctas Llama-2-70b: 81.7% Costo (para resumir 100K palabras) gpt-4 : $5.48 gpt-3.5-turbo : $0.25 Llama-2-7b : $0.05 Llama-2-13b : $0.09 Llama-2-70b : $0.19

(anyscale.com)

12 puntos por xguru 2023-08-30 | 5 comentarios | Compartir por WhatsApp

Resumir (Summarizing) es una de las aplicaciones más prácticas de los LLM, pero es necesario poder confiar en que los resúmenes sean precisos
Por temas de costo o acceso a datos, muchos quieren usar LLM de código abierto como Llama2, pero no hay suficiente confianza en su precisión
Mediante experimentos, encontraron que Llama-2-70b tiene un nivel de fidelidad factual comparable al de gpt-4 y es muy superior a gpt-3.5-turbo
Compararon Llama 2 7b/13b/70b y gpt-3.5/4 usando Anyscale Endpoint
- Etiquetaron 373 enunciados de noticias revisados por tres evaluadores, presentando para cada uno una opción correcta y una incorrecta
- Hicieron que cada LLM eligiera cuál afirmación era un resumen preciso basado en los hechos
Dos problemas
- Los modelos pequeños no siguen bien las instrucciones. Los modelos grandes sí siguen mejor las indicaciones. Por eso tuvieron que usar otro LLM para interpretar la salida de los LLM pequeños
- Sesgo por orden. La elección cambiaba según qué opción se presentara primero. Por eso también verificaron invirtiendo el orden
Resultados
- Humanos: 84% (según un estudio previo)
- gpt-3.5-turbo: 67.0% de respuestas correctas (el problema de sesgo por orden fue grave)
- gpt-4: 85.5% de respuestas correctas
- Llama-2-7b: problema de sesgo por orden extremadamente grave. Quedó por debajo de la precisión aleatoria
- Llama-2-13b: 58.9% de respuestas correctas
- Llama-2-70b: 81.7%
Costo (para resumir 100K palabras)
- gpt-4 : $5.48
- gpt-3.5-turbo : $0.25
- Llama-2-7b : $0.05
- Llama-2-13b : $0.09
- Llama-2-70b : $0.19

5 comentarios

mhj5730 2023-08-30

Parece que el costo de GPT-4 sí es abrumadoramente más alto en comparación con otros GPT...

xguru 2023-08-30

Lo usé sin pensarlo mucho... y terminé excediendo la cuota mensual de $120, así que tuve que pedir un aumento.
Por ahora sí que es caro. Ojalá el precio baje pronto al nivel de GPT-3.5 jaja

kuroneko 2023-08-30

Siempre uso el Universal Summarizer de Kagi para los resúmenes.
Siento que es más práctico que ChatGPT, y además los tokens son ilimitados...

Pero con el coreano, como básicamente solo traduce el resultado, sí se nota que rinde un poco peor, incluso comparado con GPT-3.5.
Parece que un modelo de nivel enterprise, disponible solo de pago, sí es mejor, pero costaba como 1 dólar por resumen, así que para uso personal se me hacía pesado.

ragingwind 2023-08-30

Parece claro que, en los LLM, la función de resumen es un factor importante de elección.

xguru 2023-08-30

El problema es que... este experimento no evaluó un resumen hecho por un LLM, sino el juicio sobre un resumen ya hecho.
Cuando lo usas, GPT-4 sí tiene un rendimiento de resumen claramente excelente. La traducción al coreano también es un problema.
Me tentó por el costo de GN⁺, pero... por ahora parece que simplemente hay que seguir usando gpt-4.

Llama2 es tan preciso como GPT-4 para resumir y 30 veces más barato

Lecturas relacionadas

5 comentarios