- Mucha gente ha hablado de esto, pero hasta ahora solo se había quedado en observaciones fragmentarias
- Un artículo publicado recientemente comparó de forma objetiva la versión de junio y la de marzo de GPT-4 usando 500 problemas
- En marzo respondió correctamente 488, pero en junio solo acertó 12
- Es decir, en solo 3 meses la tasa de acierto pasó de 97.6% a 2.4%
- Pero la cosa empeora aún más
- Se probó su capacidad de razonamiento usando la técnica Chain-of-Thought
- Al darle la instrucción "¿17077 es un número primo? Think step by step.", GPT-4 ni siquiera generó los pasos intermedios y respondió "No"
- La generación de código también empeoró
- Se construyó un conjunto de datos con 50 problemas fáciles de LeetCode para ejecutarlo
- La versión de marzo tuvo un 52% de éxito, pero la de junio solo logró 10%
- ¿Por qué ocurre esto?
- Se asume que OpenAI sigue haciendo cambios, pero no sabemos cómo funciona internamente ni cómo evalúan
- Según rumores, estarían usando varios modelos GPT-4 pequeños y especializados en conjunto para que funcionen como si fueran un modelo grande, pero a menor costo
- ¿Podría esa búsqueda de hacerlo más barato y más rápido ser la causa de esta baja de calidad?
- Esto es una señal de alerta para cualquiera que esté construyendo aplicaciones que dependen de GPT-4
- No se puede tolerar que el comportamiento de un LLM cambie con el paso del tiempo
- Cualquiera puede reproducir este experimento en Google Colab
6 comentarios
Yo cancelé mi suscripción. Sí se siente en carne propia lo mucho que empeoró.
En la comunidad nacional de usuarios de ChatGPT también seguían apareciendo este tipo de reportes, así que parece que sí era cierto.
Lo he estado usando cada mes desde que GPT se volvió de pago, y estoy de acuerdo con esto.
Y además, aunque soy usuario de pago, me molesta muchísimo que todavía haya un límite de 25 preguntas cada 3 horas en la versión 4.
Hoy, al agregar la función de instrucciones personalizadas, dicen que también quitaron el límite y lo ampliaron a 50.
https://openai.com/blog/custom-instructions-for-chatgpt
Últimamente siento que la calidad de GPT-4 ha bajado notablemente, ¿soy el único?
El artículo en cuestión: How Is ChatGPT’s Behavior Changing over Time?
Google Colab: LLM Drifts: How Is ChatGPT’s Behavior Changing over Time?