17 puntos por xguru 2023-07-20 | 6 comentarios | Compartir por WhatsApp
  • Mucha gente ha hablado de esto, pero hasta ahora solo se había quedado en observaciones fragmentarias
  • Un artículo publicado recientemente comparó de forma objetiva la versión de junio y la de marzo de GPT-4 usando 500 problemas
  • En marzo respondió correctamente 488, pero en junio solo acertó 12
    • Es decir, en solo 3 meses la tasa de acierto pasó de 97.6% a 2.4%
  • Pero la cosa empeora aún más
  • Se probó su capacidad de razonamiento usando la técnica Chain-of-Thought
    • Al darle la instrucción "¿17077 es un número primo? Think step by step.", GPT-4 ni siquiera generó los pasos intermedios y respondió "No"
  • La generación de código también empeoró
    • Se construyó un conjunto de datos con 50 problemas fáciles de LeetCode para ejecutarlo
    • La versión de marzo tuvo un 52% de éxito, pero la de junio solo logró 10%
  • ¿Por qué ocurre esto?
    • Se asume que OpenAI sigue haciendo cambios, pero no sabemos cómo funciona internamente ni cómo evalúan
    • Según rumores, estarían usando varios modelos GPT-4 pequeños y especializados en conjunto para que funcionen como si fueran un modelo grande, pero a menor costo
    • ¿Podría esa búsqueda de hacerlo más barato y más rápido ser la causa de esta baja de calidad?
  • Esto es una señal de alerta para cualquiera que esté construyendo aplicaciones que dependen de GPT-4
    • No se puede tolerar que el comportamiento de un LLM cambie con el paso del tiempo
  • Cualquiera puede reproducir este experimento en Google Colab

6 comentarios

 
secret3056 2023-07-20

Yo cancelé mi suscripción. Sí se siente en carne propia lo mucho que empeoró.

 
delimoni 2023-07-20

En la comunidad nacional de usuarios de ChatGPT también seguían apareciendo este tipo de reportes, así que parece que sí era cierto.

 
appcaster 2023-07-20

Lo he estado usando cada mes desde que GPT se volvió de pago, y estoy de acuerdo con esto.
Y además, aunque soy usuario de pago, me molesta muchísimo que todavía haya un límite de 25 preguntas cada 3 horas en la versión 4.

 
wedding 2023-07-21

Hoy, al agregar la función de instrucciones personalizadas, dicen que también quitaron el límite y lo ampliaron a 50.

https://openai.com/blog/custom-instructions-for-chatgpt