GPT-4 está empeorando con el tiempo

xguru · 2023-07-20T11:06:02+09:00

Mucha gente ha hablado de esto, pero hasta ahora solo se había quedado en observaciones fragmentarias Un artículo publicado recientemente comparó de forma objetiva la versión de junio y la de marzo de GPT-4 usando 500 problemas En marzo respondió correctamente 488, pero en junio solo acertó 12 Es decir, en solo 3 meses la tasa de acierto pasó de 97.6% a 2.4% Pero la cosa empeora aún más Se probó su capacidad de razonamiento usando la técnica Chain-of-Thought Al darle la instrucción "¿17077 es un número primo? Think step by step.", GPT-4 ni siquiera generó los pasos intermedios y respondió "No" La generación de código también empeoró Se construyó un conjunto de datos con 50 problemas fáciles de LeetCode para ejecutarlo La versión de marzo tuvo un 52% de éxito, pero la de junio solo logró 10% ¿Por qué ocurre esto? Se asume que OpenAI sigue haciendo cambios, pero no sabemos cómo funciona internamente ni cómo evalúan Según rumores, estarían usando varios modelos GPT-4 pequeños y especializados en conjunto para que funcionen como si fueran un modelo grande, pero a menor costo ¿Podría esa búsqueda de hacerlo más barato y más rápido ser la causa de esta baja de calidad? Esto es una señal de alerta para cualquiera que esté construyendo aplicaciones que dependen de GPT-4 No se puede tolerar que el comportamiento de un LLM cambie con el paso del tiempo Cualquiera puede reproducir este experimento en Google Colab

(twitter.com/svpino)

17 puntos por xguru 2023-07-20 | 6 comentarios | Compartir por WhatsApp

Mucha gente ha hablado de esto, pero hasta ahora solo se había quedado en observaciones fragmentarias
Un artículo publicado recientemente comparó de forma objetiva la versión de junio y la de marzo de GPT-4 usando 500 problemas
En marzo respondió correctamente 488, pero en junio solo acertó 12
- Es decir, en solo 3 meses la tasa de acierto pasó de 97.6% a 2.4%
Pero la cosa empeora aún más
Se probó su capacidad de razonamiento usando la técnica Chain-of-Thought
- Al darle la instrucción "¿17077 es un número primo? Think step by step.", GPT-4 ni siquiera generó los pasos intermedios y respondió "No"
La generación de código también empeoró
- Se construyó un conjunto de datos con 50 problemas fáciles de LeetCode para ejecutarlo
- La versión de marzo tuvo un 52% de éxito, pero la de junio solo logró 10%
¿Por qué ocurre esto?
- Se asume que OpenAI sigue haciendo cambios, pero no sabemos cómo funciona internamente ni cómo evalúan
- Según rumores, estarían usando varios modelos GPT-4 pequeños y especializados en conjunto para que funcionen como si fueran un modelo grande, pero a menor costo
- ¿Podría esa búsqueda de hacerlo más barato y más rápido ser la causa de esta baja de calidad?
Esto es una señal de alerta para cualquiera que esté construyendo aplicaciones que dependen de GPT-4
- No se puede tolerar que el comportamiento de un LLM cambie con el paso del tiempo
Cualquiera puede reproducir este experimento en Google Colab

6 comentarios

secret3056 2023-07-20

Yo cancelé mi suscripción. Sí se siente en carne propia lo mucho que empeoró.

delimoni 2023-07-20

En la comunidad nacional de usuarios de ChatGPT también seguían apareciendo este tipo de reportes, así que parece que sí era cierto.

appcaster 2023-07-20

Lo he estado usando cada mes desde que GPT se volvió de pago, y estoy de acuerdo con esto.
Y además, aunque soy usuario de pago, me molesta muchísimo que todavía haya un límite de 25 preguntas cada 3 horas en la versión 4.

wedding 2023-07-21

Hoy, al agregar la función de instrucciones personalizadas, dicen que también quitaron el límite y lo ampliaron a 50.

https://openai.com/blog/custom-instructions-for-chatgpt

xguru 2023-07-20

Últimamente siento que la calidad de GPT-4 ha bajado notablemente, ¿soy el único?

xguru 2023-07-20

El artículo en cuestión: How Is ChatGPT’s Behavior Changing over Time?
Google Colab: LLM Drifts: How Is ChatGPT’s Behavior Changing over Time?

GPT-4 está empeorando con el tiempo

Lecturas relacionadas

6 comentarios